Evaluación de modelos de aprendizaje automático mediante gráficos de elevación y ganancia

Los gráficos de impacto y ganancia le permiten comparar diferentes modelos de aprendizaje automático para determinar el modelo más preciso.

Visión general del uso de gráficos de elevación y ganancia

Los gráficos de elevación y ganancia permiten evaluar los modelos de aprendizaje automático predictivos generando gráficos de estadísticas de modelado en una visualización en Oracle Analytics.

Cuando utiliza un flujo de datos para aplicar un modelo de clasificación a un juego de datos, Oracle Analytics le permite calcular los valores de elevación y ganancia. A continuación, puede visualizar estos datos en un gráfico para ayudarle a evaluar la precisión de los modelos predictivos y determinar cuál es el mejor que puede usar.

A continuación se muestra la descripción de GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png
.png

Requisitos

  • Oracle Database o Oracle Autonomous Data Warehouse
  • Un modelo de clasificación que incluya probabilidad de predicción (por ejemplo, un modelo multiclasificador creado mediante el script de formación de Naive Bayes).

    Puede acceder a modelos predictivos existentes en el área Aprendizaje automático en Oracle Analytics.

Estadísticas generadas para los análisis de elevación y ganancia

Cuando se aplica un modelo de clasificación predictivo a un juego de datos y se generan estadísticas de elevación y ganancia, se produce un juego de datos denominado <Data flow name>_LIFT con las siguientes columnas:
  • PopulationPercentile: la población del juego de datos se divide en 100 grupos iguales.
  • CumulativeGain: ratio del número acumulado de destinos positivos hasta ese percentil respecto al número total de destinos positivos. Cuando más cerca esté la línea de ganancias acumuladas a la esquina superior izquierda del gráfico, mayor será la ganancia; más alta será la proporción de responsables de respuesta que se alcanza para una proporción más baja de clientes contactados.
  • GainChartBaseline: ratio de respuesta global: la línea representa el porcentaje de registros positivos que esperamos obtener si seleccionáramos registros de forma aleatoria. Por ejemplo, en una campaña de marketing, si contactamos con un X % de los clientes de forma aleatoria, recibiremos un X % de respuestas positivas en total.
  • LiftChartBaseline: el valor es 1 y se utiliza como línea base para la comparación de elevación.
  • LiftValue: elevación acumulada de un percentil. La elevación es el ratio de densidad de registros positivos acumulados de los datos seleccionados respecto a la densidad positiva de todos los datos de prueba.
  • IdealModelLine: ratio del número acumulado de destinos positivos respecto al número total de destinos positivos.
  • OptimalGain: indica el número óptimo de clientes con los que contactar. La curva de ganancia acumulada se aplanará a partir de este punto.

A continuación, puede visualizar el juego de datos <Data flow name>_LIFT en un gráfico de Oracle Analytics. Por ejemplo, para analizar las ganancias, puede trazar PopulationPercentile en el eje X, y CumulativeGain, GainChartBaseline, IdealModelLiney OptimalGain en el eje Y.

A continuación se muestra la descripción de GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png
.png

Generación de datos predictivos para los gráficos de elevación y ganancia

Cuando utiliza un flujo de datos para aplicar un modelo de clasificación a un juego de datos, Oracle Analytics le permite calcular las estadísticas que puede visualizar en los gráficos de elevación y ganancia.

Antes de empezar, cree un modelo de clasificación que incluya probabilidad de predicción (por ejemplo, un modelo multiclasificador creado mediante el script de formación de Naive Bayes). Oracle Analytics muestra los modelos disponibles en el separador Modelos en la página Aprendizaje automático (en la página de inicio, haga clic en Aprendizaje automático).
  1. En la página de inicio haga clic en Crear y, a continuación, en Flujo de datos.
  2. Seleccione un origen de datos y haga clic en Agregar.
  3. Haga clic en Agregar paso y seleccione Aplicar modelo.
  4. En Seleccionar modelo, seleccione un modelo de clasificación que incluya probabilidad de predicción y, a continuación, haga clic en Aceptar.
  5. En Aplicar modelo, en la sección Parámetros:
    • En Calcular elevación y ganancia, seleccione .
    • En Columna de destino para calcular la elevación, seleccione el nombre de columna del valor del que se realiza la predicción. Por ejemplo, si el modelo predice si los clientes se registrarán como miembros usando la columna denominada SIGNUP, seleccione SIGNUP.
    • En Clase positiva que calcular, especifique el valor de datos sensible a mayúsculas/minúsculas que representa a la clase positiva (o el resultado preferido) en la predicción. Por ejemplo, si el modelo predice si los clientes se registrarán como miembros usando la columna denominada SIGNUP con los valores YES o NO, especifique YES.
  6. Agregue un nodo Guardar datos al flujo de datos.
  7. Ejecute este flujo de datos.
El flujo de datos produce un juego de datos denominado <Data flow name>_LIFT que contiene estadísticas de elevación y ganancia que puede evaluar.

Evaluación de un modelo de aprendizaje automático mediante un gráfico de elevación y ganancia

Utilice un gráfico para analizar las estadísticas generadas por los modelos de clasificación de aprendizaje automático a fin de determinar el mejor modelo que se puede usar.

Antes de empezar, aplique un modelo predictivo a los datos y genere estadísticas de elevación y ganancia en un juego de datos.
  1. En la página de inicio, haga clic en Crear y, a continuación, en Libro de trabajo.
  2. En Agregar juego de datos, seleccione el juego de datos <Data flow name>_LIFT que ha generado en la tarea anterior y, a continuación haga clic en Agregar a libro de trabajo.
  3. En el panel Visualizar, seleccione las estadísticas que desea analizar, haga clic con el botón derecho y seleccione Seleccionar visualización, y elija Gráfico de líneas.
    Por ejemplo, para analizar las ganancias, puede ubicar PopulationPercentile en el eje X, y CumulativeGain, GainChartBaseline, IdealModelLine y OptimalGain en el eje Y.
    Para analizar la elevación, puede ubicar PopulationPercentile en el eje X, y LiftChartBaseline y LiftValue en el eje Y.