8.1 Criar um Monitor de Modelo

Um monitor de modelo ajuda a monitorar vários modelos compatíveis e calcular o gráfico de divergência do modelo. Modelos compatíveis referem-se aos modelos que são treinados na mesma função de destino e mineração. O gráfico de desvio do modelo consiste em várias séries de pontos de desvio de dados, um para cada modelo monitorado.

Opcionalmente, um monitor de modelo pode monitorar dados para fornecer informações adicionais. Esse insight adicional é o gráfico Importância do Recurso de Desvio versus Impacto do Recurso Preditivo que é gerado quando você seleciona a opção Monitorar Dados ao criar o monitor do modelo.
Este tópico descreve como criar um monitor de modelo. O exemplo usa o conjunto de dados Consumo individual de eletricidade da família, que inclui várias métricas de consumo de uma família de 2007 a 2010. O objetivo é entender se e como o consumo doméstico mudou ao longo de quatro anos. O exemplo mostra como rastrear os efeitos dos desvios de dados na precisão preditiva do modelo.
O conjunto de dados compreende as seguintes colunas:
  • DATE_TIME - Contém as informações relacionadas à data e hora no formato dd:mm:yyyy:hh:mm:ss.
  • GLOBAL_ACTIVE_POWER - Esta é a potência ativa média de minutos global da família (em quilowatt).
  • GLOBAL_REACTIVE_POWER - Esta é a potência reativa média de minutos global da família (em quilowatt).
  • VOLTAGE - Esta é a tensão média por Minuto (em volt).
  • GLOBAL_INTENSITY - Esta é a intensidade atual média de minutos global da família (em ampere).
  • SUB_METERING_1 - Esta é a submedição de energia no 1 (em watt-hora de energia ativa). Corresponde à cozinha.
  • SUB_METERING_2 - Esta é a submedição de energia no 2 (em watt-hora de energia ativa). Corresponde à lavanderia.
  • SUB_METERING_3 - Esta é a submedição de energia no 2 (em watt-hora de energia ativa). Corresponde a um aquecedor de água elétrico e ar condicionado.
Para criar um monitor de modelo:
  1. No menu de navegação esquerdo da IU do Oracle Machine Learning, expanda Monitoramento e clique em Modelos para abrir a página Monitoramento de Modelo. Como alternativa, você pode clicar no ícone Monitoramento de Modelo para abrir a página Monitoramento de Modelo.
  2. Na página Monitoramento de Modelo, clique em Criar para abrir a página Novo Monitor de Modelo.
  3. Na página Novo Monitor de Modelo, informe os seguintes detalhes:

    Figura 8-5 Página Novo Monitor de Modelo

    Página Novo Monitor de Modelo
    1. Nome do Monitor: Informe um nome para o monitor de modelo. Aqui, o nome Consumo de Energia é usado.
    2. Comentário: Digite comentários. Esse campo é opcional.
    3. Dados da Linha de Base: Esta é uma tabela ou view que contém dados da linha de base a serem monitorados. Clique no ícone de pesquisa para abrir a caixa de diálogo Selecionar Tabela. Selecione um esquema e, em seguida, uma tabela. Aqui, a tabela que contém os dados para o ano de 2007 é selecionada.
    4. Novos Dados: Esta é uma tabela ou view com novos dados a serem comparados com os dados da linha de base. Clique no ícone de pesquisa para abrir a caixa de diálogo Selecionar Tabela. Selecione um esquema e, em seguida, uma tabela. Aqui, a tabela que contém os dados para o ano de 2010 é selecionada.
    5. ID do Caso: Este campo é opcional. Informe um identificador de caso para a linha de base e novos dados para melhorar a repetibilidade dos resultados.
    6. Coluna de Tempo: Este é o nome de uma coluna que armazena informações de tempo na tabela ou view Novos Dados. A coluna DATE_TIME é selecionada na lista suspensa.

      Observação:

      Se a Coluna de Tempo estiver em branco, todos os Novos Dados serão tratados como um período.

    7. Período de Análise: Este é o período durante o qual o monitoramento do modelo é executado nos Novos Dados. Selecione o período de análise para monitoramento do modelo. As opções são Day, Week, Month, Year.
    8. Data Inicial: Esta é a data inicial da programação do monitor de modelo. Se você não fornecer uma data inicial, a data atual será usada como data inicial.
    9. Repetir: Esse valor define o número de vezes que a execução do monitor de modelo será repetida para a frequência definida. Informe um número entre 1 e 99. Por exemplo, se você informar 2 no campo Repetir aqui e Minutos no campo Frequência, o monitor de modelo será executado a cada 2 minutos.
    10. Frequência: Esse valor determina com que frequência a execução do monitor de modelo será executada nos Novos Dados. Selecione uma frequência para monitoramento de modelo. As opções são Minutos, Horas, Dias, Semanas, Meses. Por exemplo, se você selecionar Minutes no campo Frequência, 2 no campo Repetir e 5/30/23 no campo Data Inicial, de acordo com a programação, o monitor de modelo será executado de 5/30/23 a cada 2 minutos.
    11. Função de Mineração: As funções de mineração disponíveis são Regression e Classification. Selecione uma função conforme aplicável. Neste exemplo, Regression é selecionado.
    12. Destino: Selecione um atributo na lista drop-down. Neste exemplo, GLOBAL_ACTIVE_POWER é usado como destino para modelos de regressão.
    13. Recomputar: Selecione esta opção para atualizar os períodos já calculados. Isso significa que somente os períodos não presentes na tabela de resultados de saída serão calculados. Por padrão, Recalcular está desativado.
      • Quando habilitada, a análise de divergência é executada para o período especificado no campo Data de início e hora de término. A análise substituirá os resultados já existentes para o período especificado. Isso significa que a análise será calculada para o período com novos dados diferentes dos dados atuais.
      • Quando desativado, os dados do período presente na tabela de resultados serão mantidos como estão. Somente os novos dados do período mais recente serão considerados para análise, e os resultados serão adicionados à tabela de resultados.
    14. Monitorar Dados: Selecione essa opção para ativar o monitoramento de dados para os dados especificados. Quando ativado, um monitor de dados também é criado junto com o monitor de modelo para calcular o Impacto do Recurso Preditivo versus o Impacto do Recurso de Desvio nos resultados específicos do modelo.
  4. Clique em Definições Adicionais para expandir esta seção e fornecer definições avançadas para seu monitor de modelo:

    Figura 8-6 Seção Configurações Adicionais na página Novo Monitor de Modelo

    Seção Configurações Adicionais na página Novo Monitor de Modelo
    1. Métrica: Dependendo da função de mineração selecionada no campo Função de Mineração na página Criar Monitor de Modelo, as métricas aplicáveis serão listadas. Clique na lista suspensa para selecionar uma métrica.
      Para a função de mineração Classificação, as métricas são:
      • Precisão - Calcula a proporção de casos corretamente classificados - positivos e negativos. Por exemplo, se houver um total de casos classificados corretamente TP (Verdadeiros Positivos)+TN (Verdadeiros Negativos) de TP+TN+FP+FN (Verdadeiro Positives+True Negatives+False Positives+False Negativos), a fórmula será:

        Accuracy = (TP+TN)/(TP+TN+FP+FN)

      • Precisão equilibrada - Avalia o quão bom é um classificador binário. É especialmente útil quando as classes estão desequilibradas, ou seja, quando uma das duas classes aparece muito mais frequentemente do que a outra. Isso geralmente acontece em muitas configurações, como Detecção de Anomalias, etc.
      • ROC AUC (Área sob a Curva ROC) - Fornece uma medida agregada de discriminação, independentemente do limite de decisão. A curva AUC - ROC é uma medida de desempenho para os problemas de classificação em várias configurações de limiar.
      • Recall - Calcula a proporção de positivos reais que está corretamente classificada.
      • Precisão - Calcula a proporção de Positivos previstos que é Verdadeiro Positivo.
      • F1 Pontuação - Combina precisão e recuperação em um único número. F1 - a pontuação é calculada usando a média harmônica que é calculada pela fórmula:

        F1-score = 2 × (precision × recall)/(precision + recall)

      Para classificação de várias classes, as métricas são:
      • Exatidão
      • Precisão Balanceada
      • Macro_F1
      • Macro_Precision
      • Macro_Recall
      • Weighted_F1
      • Weighted_Precision
      • Weighted_Recall
      Para Regressão, as métricas são:
      • R2 - Uma medida estatística que calcula a proximidade dos dados com a linha de regressão ajustada. Em geral, quanto maior o valor do R-quadrado, melhor o modelo se ajusta aos seus dados. O valor de R2 está sempre entre 0 e 1, em que:
        • 0 indica que o modelo não explica nenhuma variabilidade dos dados de resposta em torno de sua média.
        • 1 indica que o modelo explica toda a variabilidade dos dados de resposta em torno de sua média.
      • Erro médio quadrado - Esta é a média da diferença quadrada de alvos previstos e verdadeiros.
      • Erro Absoluto Médio - Esta é a média da diferença absoluta de alvos previstos e verdadeiros.
      • Erro Absoluto Mediano - Esta é a mediana da diferença absoluta entre alvos previstos e verdadeiros.
    2. Limite de Desvio: A Desvio captura a alteração relativa no desempenho entre os dados da linha de base e o novo período de dados. Com base em seu problema específico de machine learning, defina o valor limite para a detecção de desvio do modelo. O padrão é 0.7.
      • Um desvio acima desse limite indica uma mudança significativa nas previsões do modelo. Exceder o limite indica que pode ser necessário recriar e reimplantar seu modelo.
      • Um desvio abaixo desse limite indica que não há alterações suficientes nos dados para justificar uma investigação ou ação adicional.
    3. Nível de Serviço do Banco de Dados: Este é o nível de serviço do job, que pode ser BAIXO, MÉDIO ou ALTO.
    4. Filtro de Análise: Ative essa opção se quiser a análise de monitoramento do modelo para um período específico. Mova o controle deslizante para a direita para ativá-lo e selecione uma data nos campos Data Inicial e Data Final, respectivamente. Por padrão, esse campo está desativado.
      • Data Inicial: Esta é a data inicial ou o timestamp do monitoramento em Novos Dados. Ela assume a existência de uma coluna de tempo na tabela. Este é um campo obrigatório se você usar a opção Filtro de Análise.
      • Data Final: Esta é a data final ou o timestamp do monitoramento nos Novos Dados. Ela assume a existência de uma coluna de tempo na tabela. Este é um campo obrigatório se você usar a opção Filtro de Análise.
    5. Número Máximo de Execuções: Esse é o número máximo de vezes que o monitor de modelo pode ser executado de acordo com essa programação. O padrão é 3.
  5. Na seção Modelos, selecione o modelo que você deseja monitorar e clique em Salvar no canto superior direito da página. Depois que você fornecer um valor nos campos Função de Mineração e Destino, a lista de modelos que foram implantados será obtida e exibida aqui na seção Modelos. Os modelos são implantados na página Modelos ou no Quadro de Líderes AutoML. Você pode exibir a lista completa de modelos implantados na guia Implantações da página Modelos. Os modelos implantados são gerenciados pelo OML Services.

    Observação:

    Se você eliminar qualquer modelo, será necessário reimplantar os modelos. Os modelos não são modelos baseados em esquema, mas modelos implantados nos Serviços OML.

    Figura 8-7 Seção Modelos na página Novo Monitor de Modelo

    Seção Modelos no Novo Monitor de Modelo
    Depois que o monitor de modelo é criado com sucesso, ele exibe a mensagem: Model monitor has been created successfully.

    Observação:

    Agora você deve ir para a página Monitoramento de Modelo, selecionar o monitor de modelo e clicar em Iniciar para iniciar o monitoramento de modelo.