Avaliar Modelos de Aprendizado de Máquina Usando Gráficos de Elevação e Ganho

Os gráficos de elevação e ganho permitem comparar diferentes modelos de aprendizado de máquina para determinar o modelo mais preciso.

Visão Geral do Uso de Gráficos de Elevação e Ganho

Os gráficos de elevação e ganho permitem avaliar modelos preditivos de aprendizado de máquina por meio da representação gráfica de estatísticas de modelagem em uma visualização no Oracle Analytics.

Quando você usa um fluxo de dados para aplicar um modelo de classificação a um conjunto de dados, o Oracle Analytics permite calcular valores de elevação e ganho. Você pode então visualizar esses dados em um gráfico para ajudá-lo a avaliar a precisão dos modelos preditivos e determinar o melhor a ser usado.

Descrição de GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png segue
.png

Pré-requisitos

  • Oracle Database ou Oracle Autonomous Data Warehouse
  • Um modelo de classificação que inclua probabilidade de previsão (por exemplo, um modelo multiclassificador criado com o script de treinamento Naive Bayes).

    Você acessa modelos preditivos existentes na área Aprendizado de Máquina do Oracle Analytics.

Estatísticas Geradas para Análise de Elevação e Ganho

Quando aplica um modelo preditivo de classificação a um conjunto de dados e gera estatísticas de elevação e ganho, você produz um conjunto de dados chamado <Data flow name>_LIFT com estas colunas:
  • PopulationPercentile - A população do conjunto de dados dividida em 100 grupos iguais.
  • CumulativeGain - A razão entre o número cumulativo de destinos positivos até esse percentil e o número total de destinos positivos. Quanto mais perto a linha de ganhos cumulativos está do canto superior esquerdo do gráfico, maior o ganho; quanto maior a proporção dos respondentes que são acessados, menor a proporção de clientes contatados.
  • GainChartBaseline - A taxa de resposta geral: a linha representa o percentual de registros positivos que esperamos obter se tivermos selecionado os registros aleatoriamente. Por exemplo, em uma campanha de marketing, se contatarmos X% dos clientes aleatoriamente, receberemos X% do total de respostas positivas.
  • LiftChartBaseline - Valor de 1 e usado como linha de base para comparação de elevação.
  • LiftValue - A elevação cumulativa para um percentil. Elevação é a razão entre a densidade positiva cumulativa dos registros para os dados selecionados e a densidade positiva em todos os dados de teste.
  • IdealModelLine - A razão entre o número cumulativo de destinos positivos até esse percentil e o número total de destinos positivos.
  • OptimalGain - Essa opção indica o número ideal de clientes a serem contatados. A curva de ganho cumulativo será nivelada além desse ponto.

Você pode então visualizar o conjunto de dados <Data flow name>_LIFT em um gráfico do Oracle Analytics. Por exemplo, para analisar ganhos, você pode plotar PopulationPercentile no eixo x e CumulativeGain, GainChartBaseline, IdealModelLine e OptimalGain no eixo y.

Descrição de GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png segue
.png

Gerar Dados Preditivos para Gráficos de Elevação e Ganho

Quando você usa um fluxo de dados para aplicar um modelo de classificação a um conjunto de dados, o Oracle Analytics permite calcular estatísticas que você pode visualizar em gráficos de elevação e ganho.

Antes de começar, crie um modelo de classificação que inclua probabilidade de previsão (por exemplo, um modelo multiclassificador criado com o script de treinamento Naive Bayes). O Oracle Analytics exibe os modelos disponíveis na guia Modelos da página Aprendizado de Máquina (na Home page, clique em Aprendizado de Máquina).
  1. Na Home page, clique em Criar; em seguida, clique em Fluxo de Dados.
  2. Selecione uma origem de dados e clique em Adicionar.
  3. Clique em Adicionar uma Etapa e selecione Aplicar Modelo.
  4. Em Selecionar Modelo, selecione um modelo de classificação que inclua probabilidade de previsão e depois clique em OK.
  5. Em Aplicar Modelo, na seção Parâmetros:
    • Em Calcular elevação e ganho, selecione Sim.
    • Em Coluna de destino para calcular a elevação, selecione o nome da coluna do valor que está sendo previsto. Por exemplo, se o seu modelo prever se os clientes se inscreverão para uma associação usando uma coluna chamada SIGNUP, selecione SIGNUP.
    • Em Classe positiva para calcular, especifique o valor dos dados que fazem distinção entre maiúsculas e minúsculas que representam a classe positiva (ou o resultado preferencial) na previsão. Por exemplo, se o seu modelo prever se os clientes se inscreverão para uma associação usando uma coluna chamada SIGNUP com valores YES ou NO, especifique YES.
  6. Adicione um nó Salvar Dados ao seu fluxo de dados.
  7. Execute este fluxo de dados.
O fluxo de dados produz um conjunto de dados chamado <Data flow name>_LIFT que contém estatísticas de elevação e ganho, as quais você pode avaliar.

Avaliar um Modelo de Aprendizado de Máquina Usando um Gráfico de Elevação e Ganho

Use um gráfico para analisar estatísticas geradas por modelos de classificação de aprendizado de máquina para determinar o melhor modelo a ser usado.

Antes de começar, aplique um modelo preditivo aos seus dados e gere estatísticas de elevação e ganho em um conjunto de dados.
  1. Na Home page, clique em Criar e, em seguida, clique em Pasta de trabalho.
  2. Em Adicionar Conjunto de Dados, selecione o conjunto de dados <Data flow name>_LIFT que você gerou na tarefa anterior e, em seguida, clique em Adicionar à Pasta de Trabalho.
  3. No painel Visualizar, selecione as estatísticas a serem analisadas e, em seguida, clique com o botão direito do mouse e selecione Selecionar Visualização, e escolha Gráfico de Linhas.
    Por exemplo, para analisar ganhos, você pode colocar PopulationPercentile no eixo x e colocar CumulativeGain, GainChartBaseline, IdealModelLine e OptimalGain no eixo y.
    Para analisar a elevação, você pode colocar PopulationPercentile no eixo x e colocar LiftChartBaseline e LiftValue no eixo y.