7 Conceitos Básicos do Serviço Data Monitoring
O Data Monitoring avalia como seus dados evoluem ao longo do tempo. Ele ajuda você a ter insights sobre tendências e dependências multivariadas nos dados. Ele também fornece um aviso antecipado sobre o desvio de dados.
A divergência de dados ocorre quando os dados divergem dos dados da linha de base original ao longo do tempo. A deriva de dados pode acontecer por vários motivos, como uma mudança no ambiente de negócios, evolução do comportamento e interesse do usuário, modificações de dados de fontes de terceiros, problemas de qualidade de dados ou problemas com pipelines de processamento de dados upstream.
A chave para interpretar com precisão seus modelos e garantir que eles sejam capazes de resolver problemas de negócios é entender como os dados evoluem ao longo do tempo. O monitoramento de dados é complementar ao monitoramento bem-sucedido do modelo, pois entender as mudanças nos dados é fundamental para entender as mudanças na eficácia dos modelos. A capacidade de detectar de forma rápida e confiável alterações nas propriedades estatísticas de seus dados garante que seus modelos de machine learning possam atender aos objetivos de negócios.
Figura 7-1 Página Monitores de Dados
- Criar: Crie um monitor de dados.
Observação:
Os tipos de dados suportados para monitoramento de dados são NUMERIC e CATEGORICAL. - Editar: Selecione um monitor de dados e clique em Editar para editar um monitor de dados.
- Duplicar: Selecione um monitor de dados e clique em Duplicar para criar uma cópia do monitor.
- Excluir: Selecione um monitor de dados e clique em Excluir para excluir um monitor de dados.
- Histórico: Selecione um monitor de dados e clique em Histórico para exibir os detalhes do runtime. Clique em Voltar aos Monitores para voltar à página Monitoramento de Dados.
- Iniciar: inicie um monitor de dados.
- Interromper: Interrompa um monitor de dados em execução.
- Mais: Clique em Mais para obter mais opções para:
Figura 7-2 Mais opção em Monitores de Dados
- Ativar: Selecione um monitor de dados e clique em Ativar para ativar um monitor desativado. Por padrão, um monitor de dados é ativado. O status é exibido como
SCHEDULED
. - Desativar: Selecione um monitor de dados e clique em Desativar para desativar um monitor de dados. O status é exibido como
DISABLED
. - Mostrar Monitores Gerenciados: Clique nesta opção para exibir os monitores de dados criados e gerenciados pela API REST de Serviços OML e Monitores de Modelo na IU do Oracle Machine Learning. Os monitores de dados que são gerenciados por esses dois componentes têm um nome gerado pelo sistema e são indicados por ícones específicos em relação ao seu nome.
- Clique no ícone de link em relação a um nome de monitor de dados gerenciados para exibir os detalhes do monitor de modelo associado. Os detalhes do monitor do modelo associado são exibidos em um painel separado que é exibido. O painel deslizante exibe o nome do monitor do modelo com links para exibir os resultados e as configurações do monitor do modelo. Clicar no ícone do link também exibe os detalhes do desvio de dados no painel inferior da página Monitores de Dados. Clique no X no canto superior esquerdo para fechar o painel.
Figura 7-3 Página Monitores de Dados exibindo os resultados e as configurações do monitor de modelo associado
Neste exemplo, o painel deslizante exibe os detalhes do monitor de modelo Consumo de Energia. No painel deslizante:
- Clique em Resultados do Monitor de Modelo para exibir os resultados calculados pelo monitor de modelo - definições, modelos, desvio de modelo, métrica e estatísticas de previsão. Clique em Monitores para retornar à página Monitores de Dados. Consulte Exibir Resultados do Monitor de Modelo.
- Clique em Definições do Monitor de Modelo para exibir e editar as definições, detalhes e modelos monitorados pelo monitor de modelo na página Editar Monitor de Modelo. Clique em Cancelar para retornar à página Monitores de Dados. Clique em Salvar para salvar quaisquer alterações.
- Clique na caixa de seleção em relação ao nome do monitor de dados para exibir os valores de desvio de dados no painel inferior.
Figura 7-4 Selecione um monitor de dados gerenciado
- Clique no nome do monitor de dados para exibir os detalhes do monitor de dados - configurações, valores de desvio de dados e recursos monitorados.
Figura 7-5 Clique no monitor de dados
- Clique no ícone de link em relação a um nome de monitor de dados gerenciados para exibir os detalhes do monitor de modelo associado. Os detalhes do monitor do modelo associado são exibidos em um painel separado que é exibido. O painel deslizante exibe o nome do monitor do modelo com links para exibir os resultados e as configurações do monitor do modelo. Clicar no ícone do link também exibe os detalhes do desvio de dados no painel inferior da página Monitores de Dados. Clique no X no canto superior esquerdo para fechar o painel.
- Ativar: Selecione um monitor de dados e clique em Ativar para ativar um monitor desativado. Por padrão, um monitor de dados é ativado. O status é exibido como
A página Monitores de Dados exibe as informações sobre o monitor selecionado: Nome do monitor, Dados de Linha de Base, Novos Dados, Última Data Inicial, Último Status, Próximos Dados de Execução, Status e Programação. A página também exibirá o desvio de dados, se o monitor de dados tiver sido executado com êxito. Para exibir o desvio de dados:
Figura 7-6 Visualização de Desvio de Dados na página Monitores de Dados
Selecione um monitor de dados executado com sucesso, conforme mostrado na captura de tela. No painel inferior, o desvio de dados do monitor selecionado é exibido. O eixo X representa o período de análise, e o eixo Y representa os valores de desvio de dados. A linha pontilhada horizontal é o valor limite e a linha representa o valor de desvio para cada ponto no tempo para o período de análise. Passe o mouse sobre a linha para ver os valores de desvio. Para obter mais informações sobre este exemplo, consulte Exibir Resultados do Monitor de Dados.
- Criar um Monitor de Dados
O Monitoramento de Dados permite detectar divergências de dados ao longo do tempo e o impacto potencialmente negativo no desempenho de seus modelos de machine learning. Na página Monitor de dados, você pode criar, executar e rastrear monitores de dados e os resultados. - Exibir Resultados do Monitor de Dados
A página Resultados do Monitor de Dados exibe as informações no monitor de dados selecionado que foram executadas com sucesso, juntamente com detalhes de desvio de dados para cada recurso monitorado. - Exibir Histórico
A página Histórico exibe os detalhes de runtime dos monitores de dados.
Tópicos Relacionados
7.1 Criar um Monitor de Dados
O Monitoramento de Dados permite detectar divergências de dados ao longo do tempo e o impacto potencialmente negativo no desempenho de seus modelos de machine learning. Na página Monitor de dados, você pode criar, executar e rastrear monitores de dados e os resultados.
Tópico principal: Introdução ao Serviço Data Monitoring
7.2 Exibir Resultados do Monitor de Dados
A página Resultados do Monitor de Dados exibe as informações no monitor de dados selecionado que foram executadas com sucesso, juntamente com os detalhes de desvio de dados para cada recurso monitorado.
- Definições - A seção Definições exibe as definições do monitor de dados. Clique na seta em Configurações para expandir esta seção. Você tem a opção de editar as definições do monitor de dados clicando em Editar no canto superior direito da página. Nesta captura de tela, as definições do monitor de dados Consumo de Energia são vistas.
Figura 7-10 Seção Definições na página Resultados do Monitor de Dados
- Drift - A seção Drift exibe os detalhes do desvio de dados para cada recurso monitorado. Neste exemplo, o monitor de dados do monitor de dados Consumo de energia é selecionado. O eixo X representa o período de análise, e o eixo Y representa os valores de desvio de dados. A linha pontilhada horizontal é o valor limite e a linha representa o valor de desvio para cada ponto no tempo para o período de análise. Passe o mouse sobre a linha para ver os valores de desvio.
Figura 7-11 Seção Divergência de Dados na página Resultados do Monitor de Dados
-
Recursos - A seção Recursos exibe os recursos monitorados juntamente com as estatísticas calculadas.
Figura 7-12 Seção Recursos na página Resultados do Monitor de Dados
O valor na coluna Importância indica o impacto do recurso na divergência de dados em um período especificado.
Para dados numéricos, são calculadas as seguintes estatísticas:- Período
- Desvio Padrão
- Faixa (Mínimo, Máximo)
- Número de nulos
Para dados categóricos, as seguintes estatísticas são calculadas:- Número de valores exclusivos
- Número de nulos
Para cada recurso monitorado, passe o mouse para exibir os seguintes detalhes adicionais, conforme mostrado na captura de tela aqui.
- Primeiro: Este é o primeiro valor das estatísticas calculadas para o período de análise.
- Último: Este é o último valor das estatísticas calculadas para o período de análise.
- Max: Este é o valor mais alto das estatísticas calculadas para o período de análise.
- Min: Este é o valor mais baixo das estatísticas calculadas para o período de análise.
- Clique em qualquer recurso monitorado na seção Recursos para exibir Métrica, Estatísticas, Distribuição e Distribuição com Coluna de Tabela de Referência Cruzada, conforme mostrado na captura de tela aqui. Na captura de tela aqui, o Índice de Estabilidade da População é mostrado para o recurso GLOBAL_REACTIVE_POWER.
Figura 7-13 Índice de Estabilidade da População
Os cálculos incluem:- Métrica: As seguintes métricas são calculadas:
- Índice de Estabilidade da População (PSI): Esta é uma medida de quanto uma população mudou ao longo do tempo ou entre duas amostras diferentes de uma população em um único número. As duas distribuições são agrupadas em blocos, e o PSI compara as percentagens de itens em cada um dos blocos. O PSI é calculado como
A interpretação do valor PSI é:PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
não implica alteração significativa da população0.1 <= PSI < 0.2
implica alteração moderada da populaçãoPSI >= 0.2
implica uma mudança significativa na população
- Distância de Jenson Shannon (JSD): Esta é uma medida da similaridade entre duas distribuições de probabilidade. JSD é a raiz quadrada da Divergência de Jensen-Shannon, que está relacionada com a Divergência de Kullbach-Leibler (KLD). O JSD é calculado como:
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
Onde, P e Q são as 2 distribuições,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
O valor de JSD varia entre 0 e 1.
- Índice de Estabilidade da População de Tabulação Cruzada: Este é o PSI para duas variáveis.
- Crosstab Jenson Shannon Distância: Este é o JSD para duas variáveis.
- Índice de Estabilidade da População (PSI): Esta é uma medida de quanto uma população mudou ao longo do tempo ou entre duas amostras diferentes de uma população em um único número. As duas distribuições são agrupadas em blocos, e o PSI compara as percentagens de itens em cada um dos blocos. O PSI é calculado como
- Estatísticas: Você pode exibir estatísticas para até 3 períodos selecionados. O desvio de dados é quantificado usando esses cálculos estatísticos.
Figura 7-14 Estatísticas
Para dados numéricos, são calculadas as seguintes estatísticas:- Período
- Desvio Padrão
- Faixa (Mínimo, Máximo)
- Número de nulos
Para dados categóricos, as seguintes estatísticas são calculadas:- Número de valores exclusivos
- Número de nulos
- Distribuição: O gráfico de distribuição de recursos com legenda exibe compartimentos de recursos para períodos selecionados e a linha de base (opcional).
Figura 7-15 Gráfico de Distribuição e Distribuição com coluna Tabela de Referência Cruzada
- Distribuição com Coluna de Tabela de Referência Cruzada: O mapa de calor indica a densidade de distribuição para a tabela de referência cruzada selecionada e a coluna de recurso. Vermelho denota maior densidade.
Observação:
No monitoramento de divergência de dados,nulls
são rastreados separadamente comonumber_of_missing_values
.
- Métrica: As seguintes métricas são calculadas:
Tópico principal: Introdução ao Serviço Data Monitoring
7.3 Exibir Histórico
A página Histórico exibe os detalhes de runtime dos monitores de dados.
Selecione um monitor de dados e clique em Histórico para exibir os detalhes do runtime. A página de histórico exibe as seguintes informações sobre o runtime do monitor de dados:
Figura 7-16 Página Histórico do Monitor de Dados
- Data Inicial Real: Esta é a data em que o monitor de dados realmente começou.
- Data Inicial Solicitada: Esta é a data informada no campo
Start Date
ao criar o monitor de dados. - Status: Os status são
SUCCEEDED
eFAILED
. - Detalhes: Se um monitor de dados falhar, os detalhes serão listados aqui.
- Duração: Este é o tempo necessário para executar o monitor de dados.
Clique em Voltar aos Monitores para voltar à página Monitoramento de Dados.
Tópico principal: Introdução ao Serviço Data Monitoring