Avaliar Modelos de Aprendizagem Automática Utilizando Gráficos de Lift e Ganhos

Os gráficos de lift e ganhos permitem-lhe comparar diferentes modelos de aprendizagem automática para determinar o modelo mais preciso.

Perspetiva Geral da Utilização de Gráficos de Lift e Ganhos

Os gráficos de lift e ganhos permitem-lhe avaliar modelos de aprendizagem automática de previsão ao traçar as estatísticas de modelagem numa visualização no Oracle Analytics.

Quando utiliza um fluxo de dados para aplicar um modelo de classificação a um conjunto de dados, o Oracle Analytics permite-lhe calcular os valores de lift e ganhos. Pode visualizar estes dados num diagrama para o ajudar a avaliar a exatidão dos modelos de previsão e determinar qual o melhor a utilizar.

Segue-se a descrição de GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png
.png

Pré-Requisitos

  • Oracle Database ou Oracle Autonomous Data Warehouse
  • Um modelo de classificação que inclua a probabilidade de previsão (por exemplo, um modelo de múltiplos classificadores criado utilizando o script de formação Naive Bayes).

    O seu acesso aos modelos de previsão existentes é efetuado na área Aprendizagem Automática do Oracle Analytics.

Estatísticas Geradas para Análise de Lift e Ganhos

Quando aplica um modelo de classificação de previsão a um conjunto de dados e gera estatísticas de lift e ganhos, é produzido um conjunto de dados com o nome <Data flow name>_LIFT com estas colunas:
  • PopulationPercentile - A população do conjunto de dados dividida em 100 grupos iguais.
  • CumulativeGain - O rácio do número cumulativo de valores alvo positivos até esse percentil, em relação ao número total de valores alvo positivos. Quanto mais próxima a linha de ganhos cumulativos estiver do canto superior esquerdo do diagrama, maior é o ganho; maior é a proporção de inquiridos que é atingida para a menor proporção de clientes contactados.
  • GainChartBaseline - A taxa de resposta global: a linha representa a percentagem de registos positivos que se espera obter se os registos forem selecionados aleatoriamente. Por exemplo, numa campanha de marketing, se contactarmos X% dos clientes de forma aleatória, receberemos X% do total da resposta positiva.
  • LiftChartBaseline - Valor de 1 e utilizado como linha de base para comparação de lift.
  • LiftValue - O lift cumulativo para um percentil. O lift é o rácio da densidade de registos positivos cumulativa para os dados selecionados em relação à densidade positiva sobre todos os dados de teste.
  • IdealModelLine - O rácio do número cumulativo de valores alvo positivos em relação ao número total de valores alvo positivos.
  • OptimalGain - Isto indica o número ideal de clientes a contactar. A curva de ganho cumulativo irá aplanar para além deste ponto.

Pode visualizar o conjunto de dados <Data flow name>_LIFT num diagrama do Oracle Analytics. Por exemplo, para analisar ganhos, poderá traçar PopulationPercentile no eixo x e CumulativeGain, GainChartBaseline, IdealModelLine e OptimalGain no eixo y.

Segue-se a descrição de GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png
.png

Gerar Dados Preditivos para Gráficos de Lift e Ganhos

Quando utiliza um fluxo de dados para aplicar um modelo de classificação a um conjunto de dados, o Oracle Analytics permite-lhe calcular estatísticas que pode visualizar em gráficos de lift e ganhos.

Antes de começar, crie um modelo de classificação que inclua a probabilidade de previsão (por exemplo, um modelo de múltiplos classificadores criado utilizando o script de formação Naive Bayes). O Oracle Analytics apresenta modelos disponíveis no separador Modelos na página Aprendizagem Automática (na Página Principal, clique em Aprendizagem Automática).
  1. Na Página Principal, clique em Criar e, em seguida, clique em Fluxo de Dados.
  2. Selecione uma origem de dados e, em seguida, clique em Acrescentar.
  3. Clique em Acrescentar um Passo e selecione Aplicar Modelo.
  4. Em Selecionar Modelo, selecione um modelo de classificação que inclua uma probabilidade de previsão e, em seguida, clique em OK.
  5. Em Aplicar Modelo, na secção Parâmetros:
    • Em Calcular lift e ganho, selecione Sim.
    • Em Coluna de destino para calcular lift, selecione o nome da coluna do valor a ser previsto. Por exemplo, se o seu modelo prevê se os clientes irão efetuar uma subscrição utilizando uma coluna com o nome SIGNUP, selecione SIGNUP.
    • Em Classe positiva a calcular, especifique o valor de dados sensível a maiúsculas/minúsculas que representa a classe positiva (ou o resultado preferido) na previsão. Por exemplo, se o seu modelo prevê se os clientes irão efetuar uma subscrição utilizando uma coluna intitulada SIGNUP com os valores YES ou NO, especifique YES.
  6. Acrescente um nó Gravar Dados ao seu fluxo de dados.
  7. Execute este fluxo de dados.
O fluxo de dados produz um conjunto de dados com o nome <Data flow name>_LIFT que contém as estatísticas de lift e ganhos, que é possível avaliar.

Avaliar um Modelo de Aprendizagem Automática Utilizando um Gráfico de Lift e Ganhos

Utilize um diagrama para analisar as estatísticas geradas pelos modelos de classificação de aprendizagem automática para determinar o melhor modelo a utilizar.

Antes de começar, aplique um modelo de previsão aos seus dados e gere estatísticas de lift e ganhos num conjunto de dados.
  1. Na Página Principal, clique em Criar e, em seguida, clique em Livro.
  2. Em Acrescentar Conjunto de Dados, selecione o conjunto de dados <Data flow name>_LIFT que gerou na tarefa anterior e, em seguida, clique em Acrescentar ao Livro.
  3. No painel Visualizar, selecione as estatísticas a analisar, depois clique com o botão direito do rato, selecione Escolher Visualização e escolha Diagrama de Linhas.
    Por exemplo, para analisar ganhos, poderá colocar PopulationPercentile no eixo x e colocar CumulativeGain, GainChartBaseline, IdealModelLine e OptimalGain no eixo y.
    Para analisar o lift, poderá colocar PopulationPercentile no eixo x e colocar LiftChartBaseline e LiftValue no eixo y.