7 Conceitos Básicos do Serviço Data Monitoring

O Data Monitoring avalia como seus dados evoluem ao longo do tempo. Ele ajuda você a ter insights sobre tendências e dependências multivariadas nos dados. Ele também fornece um aviso antecipado sobre o desvio de dados.

A divergência de dados ocorre quando os dados divergem dos dados da linha de base original ao longo do tempo. A deriva de dados pode acontecer por vários motivos, como uma mudança no ambiente de negócios, evolução do comportamento e interesse do usuário, modificações de dados de fontes de terceiros, problemas de qualidade de dados ou problemas com pipelines de processamento de dados upstream.

A chave para interpretar com precisão seus modelos e garantir que eles sejam capazes de resolver problemas de negócios é entender como os dados evoluem ao longo do tempo. O monitoramento de dados é complementar ao monitoramento bem-sucedido do modelo, pois entender as mudanças nos dados é fundamental para entender as mudanças na eficácia dos modelos. A capacidade de detectar de forma rápida e confiável alterações nas propriedades estatísticas de seus dados garante que seus modelos de machine learning possam atender aos objetivos de negócios.

Você pode monitorar seus dados usando a funcionalidade de monitoramento de dados da Interface do Usuário do Oracle Machine Learning. Para monitorar seus dados, clique no menu Nuvem na home page da IU do Oracle Machine Learning, clique em Monitoramento e, em seguida, clique em Dados para abrir a página Monitores de Dados. Na página Monitores de Dados, você pode executar as seguintes tarefas:

Figura 7-1 Página Monitores de Dados

Página Monitores de Dados
  • Criar: Crie um monitor de dados.

    Observação:

    Os tipos de dados suportados para monitoramento de dados são NUMERIC e CATEGORICAL.
  • Editar: Selecione um monitor de dados e clique em Editar para editar um monitor de dados.
  • Duplicar: Selecione um monitor de dados e clique em Duplicar para criar uma cópia do monitor.
  • Excluir: Selecione um monitor de dados e clique em Excluir para excluir um monitor de dados.
  • Histórico: Selecione um monitor de dados e clique em Histórico para exibir os detalhes do runtime. Clique em Voltar aos Monitores para voltar à página Monitoramento de Dados.
  • Iniciar: inicie um monitor de dados.
  • Interromper: Interrompa um monitor de dados em execução.
  • Mais: Clique em Mais para obter mais opções para:

    Figura 7-2 Mais opção em Monitores de Dados

    Mais opções em Monitores de dados
    • Ativar: Selecione um monitor de dados e clique em Ativar para ativar um monitor desativado. Por padrão, um monitor de dados é ativado. O status é exibido como SCHEDULED.
    • Desativar: Selecione um monitor de dados e clique em Desativar para desativar um monitor de dados. O status é exibido como DISABLED.
    • Mostrar Monitores Gerenciados: Clique nesta opção para exibir os monitores de dados criados e gerenciados pela API REST de Serviços OML e Monitores de Modelo na IU do Oracle Machine Learning. Os monitores de dados que são gerenciados por esses dois componentes têm um nome gerado pelo sistema e são indicados por ícones específicos em relação ao seu nome.
      • Clique no ícone de link em relação a um nome de monitor de dados gerenciados para exibir os detalhes do monitor de modelo associado. Os detalhes do monitor do modelo associado são exibidos em um painel separado que é exibido. O painel deslizante exibe o nome do monitor do modelo com links para exibir os resultados e as configurações do monitor do modelo. Clicar no ícone do link também exibe os detalhes do desvio de dados no painel inferior da página Monitores de Dados. Clique no X no canto superior esquerdo para fechar o painel.

        Figura 7-3 Página Monitores de Dados exibindo os resultados e as configurações do monitor de modelo associado

        Página Monitores de Dados que exibe o modelo associado monitora resultados e definições

        Neste exemplo, o painel deslizante exibe os detalhes do monitor de modelo Consumo de Energia. No painel deslizante:

        • Clique em Resultados do Monitor de Modelo para exibir os resultados calculados pelo monitor de modelo - definições, modelos, desvio de modelo, métrica e estatísticas de previsão. Clique em Monitores para retornar à página Monitores de Dados. Consulte Exibir Resultados do Monitor de Modelo.
        • Clique em Definições do Monitor de Modelo para exibir e editar as definições, detalhes e modelos monitorados pelo monitor de modelo na página Editar Monitor de Modelo. Clique em Cancelar para retornar à página Monitores de Dados. Clique em Salvar para salvar quaisquer alterações.
      • Clique na caixa de seleção em relação ao nome do monitor de dados para exibir os valores de desvio de dados no painel inferior.

        Figura 7-4 Selecione um monitor de dados gerenciado

        Selecionar um monitor de dados gerenciados
      • Clique no nome do monitor de dados para exibir os detalhes do monitor de dados - configurações, valores de desvio de dados e recursos monitorados.

        Figura 7-5 Clique no monitor de dados

        Clique no monitor de dados

A página Monitores de Dados exibe as informações sobre o monitor selecionado: Nome do monitor, Dados de Linha de Base, Novos Dados, Última Data Inicial, Último Status, Próximos Dados de Execução, Status e Programação. A página também exibirá o desvio de dados, se o monitor de dados tiver sido executado com êxito. Para exibir o desvio de dados:

Figura 7-6 Visualização de Desvio de Dados na página Monitores de Dados

Visualização de desvio de dados na página Monitores de Dados

Selecione um monitor de dados executado com sucesso, conforme mostrado na captura de tela. No painel inferior, o desvio de dados do monitor selecionado é exibido. O eixo X representa o período de análise, e o eixo Y representa os valores de desvio de dados. A linha pontilhada horizontal é o valor limite e a linha representa o valor de desvio para cada ponto no tempo para o período de análise. Passe o mouse sobre a linha para ver os valores de desvio. Para obter mais informações sobre este exemplo, consulte Exibir Resultados do Monitor de Dados.

Tópicos Relacionados

7.1 Criar um Monitor de Dados

O Monitoramento de Dados permite detectar divergências de dados ao longo do tempo e o impacto potencialmente negativo no desempenho de seus modelos de machine learning. Na página Monitor de dados, você pode criar, executar e rastrear monitores de dados e os resultados.

Para criar um monitor de dados:
  1. No menu de navegação esquerdo da IU do Oracle Machine Learning, expanda Monitoramento e clique em Dados para abrir a página Monitoramento de Dados.
  2. Na página Monitoramento de Dados, clique em Criar para abrir a página Novo Monitor de Dados.
  3. Na página Novo Monitor de Dados, informe os seguintes detalhes:

    Figura 7-7 Novo Monitor de Dados

    Novo Monitor de Dados
    1. Nome do Monitor: Informe um nome para o monitor de dados.
    2. Comentários: Digite comentários. Esse campo é opcional.
    3. Dados da Linha de Base: Esta é uma tabela ou view que contém dados da linha de base a serem monitorados. Clique no ícone de pesquisa para abrir a caixa de diálogo Selecionar Tabela. Aqui, selecione um esquema e, em seguida, uma tabela.

      Observação:

      Os tipos de dados suportados para monitoramento de dados são NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, e NVARCHAR2 com o tamanho <=4000.
    4. Novos Dados: Esta é uma tabela ou view com novos dados a serem comparados com os dados da linha de base. Clique no ícone de pesquisa para abrir a caixa de diálogo Selecionar Tabela. Selecione um esquema e, em seguida, uma tabela.

      Observação:

      Os tipos de dados suportados para monitoramento de dados são NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, e NVARCHAR2 com o tamanho <=4000.
    5. Tabela de Referência Cruzada: Selecione um atributo na lista suspensa. Esse atributo na linha de base e nos novos dados atua como uma âncora ou um destino para análise bivariada de seus dados.

      Observação:

      A coluna de destino em problemas supervisionados pode ser passada como uma coluna de âncora neste campo. Para problemas não supervisionados, pode ser qualquer coluna de interesse. No entanto, será específico do aplicativo.
    6. ID do Caso: Este campo é opcional. Informe um identificador de caso para a linha de base e novos dados para melhorar a repetibilidade dos resultados.
    7. Coluna de Tempo: Este é o nome de uma coluna que armazena informações de tempo na tabela ou view Novos Dados. Selecione a coluna de tempo na lista drop-down.

      Observação:

      Se a Coluna de Tempo estiver em branco, todos os Novos Dados serão tratados como um período.
    8. Período de Análise: Este é o período durante o qual o monitoramento de dados é executado nos Novos Dados. Selecione o período de análise para monitoramento de dados. As opções são Day, Week, Month, Year.
    9. Data Inicial: Esta é a data inicial da programação do monitor de dados. Se você não fornecer uma data inicial, a data atual será usada como data inicial.
    10. Repetir: Esse valor define o número de vezes que a execução do monitor de dados será repetida para a frequência definida. Informe um número entre 1 e 99. Por exemplo, se você digitar 2 no campo Repetir aqui e Minutes no campo Frequência, o monitor de dados será executado a cada 2 minutos.
    11. Frequência: Esse valor determina com que frequência a execução do monitor de dados será executada nos Novos Dados. Selecione uma frequência para monitoramento de dados. As opções são Minutos, Horas, Dias, Semanas, Meses. Por exemplo, se você selecionar Minutes no campo Frequência, 2 no campo Repetir e 5/30/23 no campo Data Inicial, de acordo com a programação, o monitor de dados será executado de 30/5/23 a cada 2 minutos.
  4. Clique em Recomputar: Selecione esta opção para recalcular a análise para o período já calculado. Por padrão, Recalcular está desativado.
    • Quando habilitada, a análise de desvio de dados é executada para o período especificado no campo Data de início e hora de término. A análise substituirá os resultados já existentes para o período especificado. Isso significa que a análise será calculada para o período com novos dados diferentes dos dados atuais. Os novos resultados da análise podem se sobrepor aos resultados existentes, dependendo da frequência selecionada.
    • Quando desativado, os dados do período presente na tabela de resultados serão mantidos como estão. Somente os novos dados do período mais recente serão considerados para análise, e os resultados serão adicionados à tabela de resultados.
  5. Clique em Definições Adicionais para expandir esta seção e fornecer definições avançadas para seu monitor de dados:

    Figura 7-8 Definições Adicionais de Monitoramento de Dados

    Seção Definições Adicionais de Monitoramento de Dados
    1. Limite de Desvio: A Desvio captura a alteração relativa no desempenho entre os dados da linha de base e o novo período de dados. Com base em seu problema específico de machine learning, defina o valor limite para sua detecção de desvio de dados. O padrão é 0.7.

      Observação:

      Você pode ajustar o valor limite dependendo do seu caso de uso. Aumentar o valor gerará menos alertas, enquanto diminuir o valor gerará mais alertas.
      • Um desvio acima desse limite indica uma alteração significativa em seus dados. Exceder o limite indica que pode ser necessário recriar e reimplantar seu modelo.
      • Um desvio abaixo desse limite indica que não há alterações suficientes nos dados para justificar uma investigação ou ação adicional.
    2. Nível de Serviço de Banco de Dados: Estes são os níveis de serviço do Autonomous Database - Low, Medium, High. O padrão é Low. O nível de serviço Medium fornece mais recursos para a execução do monitor de dados em comparação com Low. O nível de serviço High fornece mais recursos para a execução do monitor de dados em comparação com Medium.
    3. Filtro de Análise: Ative essa opção se quiser a análise de monitoramento de dados para um período específico. Mova o controle deslizante para a direita para ativá-lo e selecione uma data nos campos Data Inicial e Data Final, respectivamente. Por padrão, esse campo está desativado.
      • Data Inicial: Esta é a data inicial ou o timestamp do monitoramento em Novos Dados. Ela assume a existência de uma coluna de tempo na tabela. Este é um campo obrigatório se você usar a opção Filtro de Análise.
      • Data Final: Esta é a data final ou o timestamp do monitoramento nos Novos Dados. Ela assume a existência de uma coluna de tempo na tabela. Este é um campo obrigatório se você usar a opção Filtro de Análise.
    4. Número Máximo de Execuções: Esse é o número máximo de vezes que o monitor de dados pode ser executado de acordo com essa programação. O padrão é 3.
  6. A grade Recursos exibe a lista de recursos a serem monitorados. Aqui, você pode marcar ou desmarcar recursos para incluir ou excluir do monitoramento. Por padrão, todos os recursos são selecionados. As estatísticas de recurso serão fornecidas se os dados selecionados forem uma tabela e tiverem estatísticas RDBMS coletadas automaticamente pelo Autonomous Database. O Oracle Machine Learning Services calcula as estatísticas na primeira execução para tabelas e views, e os cálculos são exibidos aqui após a primeira execução. As estatísticas são atualizadas por execuções subsequentes.

    Figura 7-9 Grade Recursos no Monitor de Dados

    Grade Recursos no Monitor de Dados

    Observação:

    As colunas ID do Caso e Guia Cruzado não podem ser selecionadas.
  7. Clique em Salvar. Isso conclui a tarefa de criar seu monitor de dados.

    Observação:

    Agora vá para a página Monitoramento de Dados, selecione o monitor de dados e clique em Iniciar para iniciar o monitoramento de dados.
    Depois que o monitor de dados for executado com sucesso, selecione o monitor na página Monitoramento de Dados para exibir o desvio de dados e outros detalhes do monitor de dados. Consulte Conceitos Básicos do Serviço Data Monitoring para obter mais informações.

7.2 Exibir Resultados do Monitor de Dados

A página Resultados do Monitor de Dados exibe as informações no monitor de dados selecionado que foram executadas com sucesso, juntamente com os detalhes de desvio de dados para cada recurso monitorado.

Na página Monitores de Dados, clique em um monitor de dados executado com sucesso. Neste exemplo, o monitor de dados Consumo de Energia está selecionado. Os resultados do monitor de dados são exibidos na página Resultados do Monitor de Dados, que compreende estas seções:
  • Definições - A seção Definições exibe as definições do monitor de dados. Clique na seta em Configurações para expandir esta seção. Você tem a opção de editar as definições do monitor de dados clicando em Editar no canto superior direito da página. Nesta captura de tela, as definições do monitor de dados Consumo de Energia são vistas.

    Figura 7-10 Seção Definições na página Resultados do Monitor de Dados

    Seção Definições na página Resultados do Monitor de Dados
  • Drift - A seção Drift exibe os detalhes do desvio de dados para cada recurso monitorado. Neste exemplo, o monitor de dados do monitor de dados Consumo de energia é selecionado. O eixo X representa o período de análise, e o eixo Y representa os valores de desvio de dados. A linha pontilhada horizontal é o valor limite e a linha representa o valor de desvio para cada ponto no tempo para o período de análise. Passe o mouse sobre a linha para ver os valores de desvio.

    Figura 7-11 Seção Divergência de Dados na página Resultados do Monitor de Dados

    Seção Desvio de Dados na página Resultados do Monitor de Dados
  • Recursos - A seção Recursos exibe os recursos monitorados juntamente com as estatísticas calculadas.

    Figura 7-12 Seção Recursos na página Resultados do Monitor de Dados

    Seção Recursos na página Resultados do Monitor de Dados

    O valor na coluna Importância indica o impacto do recurso na divergência de dados em um período especificado.

    Para dados numéricos, são calculadas as seguintes estatísticas:
    • Período
    • Desvio Padrão
    • Faixa (Mínimo, Máximo)
    • Número de nulos
    Para dados categóricos, as seguintes estatísticas são calculadas:
    • Número de valores exclusivos
    • Número de nulos

    Para cada recurso monitorado, passe o mouse para exibir os seguintes detalhes adicionais, conforme mostrado na captura de tela aqui.

    • Primeiro: Este é o primeiro valor das estatísticas calculadas para o período de análise.
    • Último: Este é o último valor das estatísticas calculadas para o período de análise.
    • Max: Este é o valor mais alto das estatísticas calculadas para o período de análise.
    • Min: Este é o valor mais baixo das estatísticas calculadas para o período de análise.
  • Clique em qualquer recurso monitorado na seção Recursos para exibir Métrica, Estatísticas, Distribuição e Distribuição com Coluna de Tabela de Referência Cruzada, conforme mostrado na captura de tela aqui. Na captura de tela aqui, o Índice de Estabilidade da População é mostrado para o recurso GLOBAL_REACTIVE_POWER.

    Figura 7-13 Índice de Estabilidade da População

    Índice de Estabilidade da População
    Os cálculos incluem:
    • Métrica: As seguintes métricas são calculadas:
      • Índice de Estabilidade da População (PSI): Esta é uma medida de quanto uma população mudou ao longo do tempo ou entre duas amostras diferentes de uma população em um único número. As duas distribuições são agrupadas em blocos, e o PSI compara as percentagens de itens em cada um dos blocos. O PSI é calculado como

        PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))

        A interpretação do valor PSI é:
        • PSI < 0.1 não implica alteração significativa da população
        • 0.1 <= PSI < 0.2 implica alteração moderada da população
        • PSI >= 0.2 implica uma mudança significativa na população
      • Distância de Jenson Shannon (JSD): Esta é uma medida da similaridade entre duas distribuições de probabilidade. JSD é a raiz quadrada da Divergência de Jensen-Shannon, que está relacionada com a Divergência de Kullbach-Leibler (KLD). O JSD é calculado como:

        SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))

        Onde, P e Q são as 2 distribuições, M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))

        O valor de JSD varia entre 0 e 1.

      • Índice de Estabilidade da População de Tabulação Cruzada: Este é o PSI para duas variáveis.
      • Crosstab Jenson Shannon Distância: Este é o JSD para duas variáveis.
    • Estatísticas: Você pode exibir estatísticas para até 3 períodos selecionados. O desvio de dados é quantificado usando esses cálculos estatísticos.

      Figura 7-14 Estatísticas

      Estatísticas
      Para dados numéricos, são calculadas as seguintes estatísticas:
      • Período
      • Desvio Padrão
      • Faixa (Mínimo, Máximo)
      • Número de nulos
      Para dados categóricos, as seguintes estatísticas são calculadas:
      • Número de valores exclusivos
      • Número de nulos
    • Distribuição: O gráfico de distribuição de recursos com legenda exibe compartimentos de recursos para períodos selecionados e a linha de base (opcional).

      Figura 7-15 Gráfico de Distribuição e Distribuição com coluna Tabela de Referência Cruzada

      Distribuição com coluna Tabela de Referência Cruzada
    • Distribuição com Coluna de Tabela de Referência Cruzada: O mapa de calor indica a densidade de distribuição para a tabela de referência cruzada selecionada e a coluna de recurso. Vermelho denota maior densidade.

      Observação:

      No monitoramento de divergência de dados, nulls são rastreados separadamente como number_of_missing_values.

7.3 Exibir Histórico

A página Histórico exibe os detalhes de runtime dos monitores de dados.

Selecione um monitor de dados e clique em Histórico para exibir os detalhes do runtime. A página de histórico exibe as seguintes informações sobre o runtime do monitor de dados:

Figura 7-16 Página Histórico do Monitor de Dados

Página Histórico Monitor Dados
  • Data Inicial Real: Esta é a data em que o monitor de dados realmente começou.
  • Data Inicial Solicitada: Esta é a data informada no campo Start Date ao criar o monitor de dados.
  • Status: Os status são SUCCEEDED e FAILED.
  • Detalhes: Se um monitor de dados falhar, os detalhes serão listados aqui.
  • Duração: Este é o tempo necessário para executar o monitor de dados.

Clique em Voltar aos Monitores para voltar à página Monitoramento de Dados.