6 Introducción a la interfaz de usuario AutoML

La interfaz de usuario AutoML (interfaz de usuario AutoML) es una interfaz de Oracle Machine Learning que proporciona modelado automatizado sin código de aprendizaje automático. Al crear y ejecutar un experimento en la interfaz de usuario AutoML, realiza la selección automatizada de algoritmos, la selección de funciones y el ajuste de modelos, lo que mejora la productividad y aumenta potencialmente la precisión y el rendimiento del modelo.

Los siguientes pasos comprenden un flujo de trabajo de modelado de aprendizaje automático y están automatizados por la interfaz de usuario AutoML:

  1. Selección de algoritmos: Clasifica algoritmos que probablemente produzcan un modelo más preciso basado en el conjunto de datos y sus características, y algunas características predictivas del conjunto de datos para cada algoritmo.
  2. Muestreo adaptativo: encuentra una muestra de datos adecuada. El objetivo de esta etapa es acelerar las etapas de selección de funciones y ajuste de modelos sin degradar la calidad del modelo.
  3. Selección de funciones: selecciona un subconjunto de funciones más predictivas del destino. El objetivo de esta etapa es reducir el número de funciones utilizadas en las etapas posteriores del pipeline, especialmente durante la etapa de ajuste del modelo para acelerar el pipeline sin degradar la precisión predictiva.
  4. Ajuste de modelo: tiene como objetivo aumentar la calidad del modelo de algoritmo individual basado en la métrica seleccionada para cada uno de los algoritmos preseleccionados.
  5. Impacto de predicción de función: esta es la etapa final del pipeline de la interfaz de usuario AutoML. Aquí, se calcula el impacto de cada columna de entrada en las predicciones del modelo ajustado final. El impacto de predicción calculado proporciona estadísticas sobre el comportamiento del modelo AutoML ajustado.
Los usuarios empresariales sin amplios conocimientos de ciencia de datos pueden utilizar la interfaz de usuario AutoML para crear y desplegar modelos de aprendizaje automático. Oracle Machine Learning AutoML UI proporciona dos funciones funcionales:
  • Crear modelos de aprendizaje automático
  • Desplegar modelos de aprendizaje automático

AutoML Experimentos de IU

Al crear un experimento en la interfaz de usuario AutoML, se ejecutan automáticamente todos los pasos implicados en el flujo de trabajo de aprendizaje automático. En la página Experimentos, se muestran todos los experimentos que ha creado. Para ver los detalles de cualquier experimento, haga clic en un experimento. Además, puede realizar las siguientes tareas:

Figura 6-1 Experimentos, página

Página Experimentos
  • Crear: haga clic en Crear para crear un nuevo experimento de interfaz de usuario AutoML. El experimento de interfaz de usuario AutoML que cree reside en el proyecto seleccionado en el proyecto en el espacio de trabajo.
  • Editar: seleccione cualquier experimento que se muestre aquí y haga clic en Editar para editar la definición del experimento.
  • Suprimir: seleccione cualquier experimento que aparezca aquí y haga clic en Suprimir para suprimirlo. No puede suprimir un experimento que se esté ejecutando. Primero debe detener el experimento para eliminarlo.
  • Duplicar: seleccione un experimento y haga clic en Duplicar para crear una copia del mismo. El experimento se duplica instantáneamente y está en estado Listo.
  • Mover: seleccione un experimento y haga clic en Mover para mover el experimento a un proyecto diferente en el mismo espacio de trabajo o en otro diferente. Debe tener el privilegio Administrator o Developer para mover experimentos entre proyectos y espacios de trabajo.

    Note:

    Un experimento no se puede mover si está en estado RUNNING, STOPPING o STARTING, o si ya existe un experimento en el proyecto de destino con el mismo nombre.
  • Copiar: seleccione un experimento y haga clic en Copiar para copiar el experimento en otro proyecto en el mismo espacio de trabajo o en otro diferente.
  • Iniciar: si ha creado un experimento pero no lo ha ejecutado, haga clic en Iniciar para ejecutarlo.
  • Parar: seleccione un experimento que se esté ejecutando y haga clic en Parar para parar la ejecución del experimento.

Temas relacionados

6.1 Acceso a la IU de AutoML

Puede acceder a la interfaz de usuario AutoML desde Oracle Machine Learning Notebooks.

Para acceder a la interfaz de usuario AutoML, primero debe conectarse a Oracle Machine Learning Notebooks desde Autonomous Database:
  1. Para conectarse a Oracle Machine Learning Notebooks desde Autonomous Database:
    1. Seleccione una instancia de Autonomous Database y, en la página de detalles de Autonomous Database, haga clic en Acciones de base de datos.

      Figura 6-2 Acciones de base de datos

      Database Actions
    2. En la página Acciones de base de datos, vaya a la sección Desarrollo y haga clic en Oracle Machine Learning.

      Figura 6-3 Oracle Machine Learning

      Oracle Machine Learning
      Se abre la página de conexión de Oracle Machine Learning.
    3. Introduzca su nombre de usuario y contraseña y haga clic en Conectar.
    Se abre la página inicial de Oracle Machine Learning Notebooks.
  2. En la página inicial de Oracle Machine Learning Notebooks, haga clic en AutoML..

    Figura 6-4 Opciones de AutoML

    Opción AutoML en la página de inicio y en el menú de navegación izquierdo

    También puede hacer clic en el menú de hamburguesa y en AutoML en Projects.

6.2 Creación del Experimento de Interfaz de Usuario AutoML

Para utilizar Oracle Machine Learning AutoML UI, debe empezar por crear un experimento. Un experimento es una unidad de trabajo que especifica mínimamente el origen de datos, el destino de predicción y el tipo de predicción. Después de que un experimento se ejecute correctamente, le presenta una lista de modelos de aprendizaje automático en orden de calidad de modelo según la métrica seleccionada. Puede seleccionar cualquiera de estos modelos para su despliegue o para generar un bloc de notas. El bloc de notas generado contiene código Python que utiliza OML4Py y la configuración específica AutoML utilizada para producir el modelo.

Para crear un experimento, especifique lo siguiente:
  1. En el campo Nombre, introduzca un nombre para el experimento.

    Figura 6-5 Creación de un experimento AutoML

    A continuación se muestra la descripción de la figura 6-5
    Descripción de "Figura 6-5 Crear un Experimento AutoML"
  2. En el campo Comentarios, introduzca comentarios, si los hay.
  3. En el campo Origen de datos, seleccione el esquema y una tabla o vista en ese esquema. Haga clic en el icono de búsqueda para abrir el cuadro de diálogo Seleccionar tabla. Examine y seleccione un esquema y, a continuación, seleccione una tabla de la lista de esquemas, que es el origen de datos del experimento de la interfaz de usuario AutoML.

    Figura 6-6 Cuadro de diálogo Seleccionar tabla

    Cuadro de diálogo Seleccionar tabla
    1. En la columna Schema, seleccione un esquema.

      Note:

      Al seleccionar el origen de datos, las estadísticas se muestran en la cuadrícula Features (Características) en la parte inferior de la página del experimento. El estado Ocupado se indica hasta que se completa el cálculo. La columna de destino que seleccione en Predict se resalta en la cuadrícula Features (Características).
    2. Según el esquema seleccionado, las tablas disponibles se muestran en la columna Tabla. Seleccione la tabla y haga clic en Aceptar.

    Note:

    Para crear un experimento AutoML para una tabla o vista presente en el esquema de otro usuario, asegúrese de que tiene privilegios explícitos para acceder a esa tabla o vista en el esquema. Solicite al administrador de la base de datos o al propietario del esquema que le proporcione los privilegios para acceder a la tabla o vista. Por ejemplo:
    grant select on <table> to <user>
  4. En la lista desplegable Predecir, seleccione la columna de la tabla seleccionada. Este es el destino de la predicción.
  5. En el campo Tipo de predicción, el tipo de predicción se selecciona automáticamente en función de la definición de datos. Sin embargo, puede sustituir el tipo de predicción de la lista desplegable si el tipo de dato lo permite. Los tipos de predicción soportados son:
    • Clasificación: para el tipo de dato no numérico, la clasificación está seleccionada por defecto.
    • Regresión: para el tipo de dato numérico, la regresión está seleccionada por defecto.
  6. El ID de caso ayuda en el muestreo de datos y la división del juego de datos para que los resultados sean reproducibles entre experimentos. También ayuda a reducir la aleatoriedad en los resultados. Este campo es opcional.
  7. En la sección Configuración adicional, puede definir lo siguiente:

    Figura 6-7 Configuración adicional de un experimento AutoML

    A continuación se muestra la descripción de la figura 6-7
    Descripción de "Figura 6-7 Configuración Adicional de un Experimento AutoML"
    1. Restablecer: haga clic en Restablecer para restablecer los valores predeterminados.
    2. Máximo de modelos principales: seleccione el número máximo de modelos principales que desea crear. El valor por defecto son los modelos 5. Puede reducir el número de modelos principales a 2 o 3, ya que el ajuste de modelos para obtener el principal para cada algoritmo requiere tiempo adicional. Si desea obtener los resultados iniciales aún más rápido, considere el algoritmo recomendado. Para ello, defina Maximum Top Models en 1.. Esto ajustará el modelo para ese algoritmo.
    3. Duración máxima de ejecución: es el tiempo máximo durante el que se podrá ejecutar el experimento. Si no introduce una hora, se permitirá que el experimento se ejecute hasta el valor por defecto, que es 8 horas.
    4. Nivel de servicio de base de datos: nivel de servicio de conexión de base de datos y nivel de paralelismo de consulta. El valor por defecto es Low. Esto no genera paralelismo y establece un límite de tiempo de ejecución alto. Puede crear muchas conexiones con el nivel de servicio de base de datos Low. También puede cambiar el nivel de servicio de base de datos a Medium o High.
      • El nivel High proporciona el mayor paralelismo, pero limita significativamente el número de trabajos simultáneos.
      • El nivel Medium permite cierto paralelismo, pero permite una mayor simultaneidad para el procesamiento del trabajo.

      Note:

      El cambio del valor de nivel de servicio de base de datos en la cuenta siempre gratuita no tendrá ningún efecto, ya que hay un límite de 1 OCPU. Sin embargo, si aumenta las OCPU asignadas a la instancia de base de datos autónoma, puede aumentar el nivel de servicio de base de datos a Medium o High.

      Note:

      El valor Nivel de servicio de base de datos no afecta a los recursos de nivel de contenedor AutoML.
    5. Métrica de modelo: seleccione una métrica para seleccionar los modelos ganadores. La interfaz de usuario AutoML soporta las siguientes métricas:
      • Para Clasificación, las métricas soportadas son:
        • precisión equilibrada
        • ROC AUC
        • F1 (con opciones ponderadas). Las opciones ponderadas son ponderadas, binarias, micro y macro.
          • Micro-promedio: Aquí, todas las muestras contribuyen igualmente a la métrica promedio final
          • Macro-promedio: Aquí, todas las clases contribuyen igualmente a la métrica promedio final
          • Promedio ponderado: Aquí, la contribución de cada clase a la media se ponderará por su tamaño
        • Precisión (con opciones ponderadas)
        • Recuperación (con opciones ponderadas)
      • Para Regresión, las métricas soportadas son:
        • R2 (por defecto)
        • Error al cuadrado medio negativo
        • Error absoluto medio negativo
        • Error absoluto negativo de la mediana
    6. Algoritmo: los algoritmos soportados dependen del tipo de predicción seleccionado. Haga clic en la casilla de control correspondiente en los algoritmos para seleccionarla. Por defecto, todos los algoritmos candidatos se seleccionan para su consideración a medida que se ejecuta el experimento. Los algoritmos soportados para los dos tipos de predicción:
      • Para Clasificación, los algoritmos admitidos son:
        • Árbol de Decisión
        • Modelo Lineal General
        • Modelo Lineal Generalizado (Regresión Ridge)
        • Red neuronal
        • Bosque aleatorio
        • Máquina de vector de soporte (Gauss)
        • Máquina de vector de soporte (lineal)
      • Para la regresión, los algoritmos soportados son:
        • Modelo Lineal General
        • Modelo Lineal Generalizado (Regresión Ridge)
        • Red neuronal
        • Máquina de vector de soporte (Gauss)
        • Máquina de vector de soporte (lineal)

      Note:

      Puede eliminar algoritmos para que no se tengan en cuenta si tiene preferencias para algoritmos concretos o si tiene requisitos específicos. Por ejemplo, si la transparencia del modelo es esencial, entonces excluir modelos como Neural Network tendría sentido. Tenga en cuenta que algunos algoritmos consumen más recursos informáticos que otros. Por ejemplo, Naïve Bayes y Decision Tree son normalmente más rápidos que Support Vector Machine o Neural Network.
  8. Amplíe la cuadrícula Funciones para ver las estadísticas de la tabla seleccionada. Las estadísticas admitidas son Valores Distintos, Mínimo, Máximo, Media y Desviación Estándar. Los orígenes de datos soportados para las funciones son tablas, vistas y vistas analíticas. La columna de destino seleccionada en Predict se resalta aquí. Una vez finalizada la ejecución de un experimento, la cuadrícula Funciones muestra una columna adicional Importancia. Importancia de función indica el nivel general de sensibilidad de la predicción a una función concreta.

    Figura 6-8 Características

    Funciones
    También se pueden realizar las tareas siguientes:
    • Refrescar: haga clic en Refrescar para recuperar todas las columnas y estadísticas del origen de datos seleccionado.
    • Ver importancia: pase el cursor sobre la barra horizontal en Importancia para ver el valor de Importancia de función para las variables. El valor siempre se representa en el rango de 0 a 1, siendo los valores más cercanos a 1 más importantes.
  9. Cuando termine de definir el experimento, se activarán los botones Iniciar y Guardar.

    Figura 6-9 Opciones de Experimento de Inicio

    Opciones de inicio de experimento
    • Haga clic en Iniciar para ejecutar el experimento e iniciar el flujo de trabajo de la interfaz de usuario AutoML, que se muestra en la barra de progreso. Aquí tiene la opción de seleccionar:
      1. Resultados más rápidos: seleccione esta opción si desea obtener modelos candidatos antes, posiblemente a expensas de la precisión. Esta opción funciona con un conjunto más pequeño de combinaciones de hiperparámetros y, por lo tanto, produce resultados más rápidos.
      2. Precisión mejorada: seleccione esta opción si desea probar más combinaciones de pipeline para modelos posiblemente más precisos. Un pipeline se define como un algoritmo, un juego de funciones de datos seleccionado y un juego de hiperparámetros de algoritmos.

        Note:

        Esta opción funciona con el conjunto más amplio de opciones de hiperparámetros recomendado por el modelo de metaaprendizaje interno. La selección de Precisión mejorada tardará más en ejecutarse el experimento, pero puede proporcionar a los modelos más precisión.

      Una vez iniciado un experimento, aparece la barra de progreso que muestra diferentes iconos para indicar el estado de cada etapa del flujo de trabajo de aprendizaje automático en el experimento AutoML. La barra de progreso también muestra el tiempo que se tarda en completar la ejecución del experimento. Para ver los detalles del mensaje, haga clic en los iconos de mensaje correspondientes.

    • Haga clic en Guardar para guardar el experimento y ejecutarlo más tarde.
    • Haga clic en Cancelar para cancelar la creación del experimento.

6.2.1 Tipos de datos soportados para experimentos de interfaz de usuario AutoML

Al crear un experimento AutoML, debe especificar el origen de datos y el destino del experimento. En este tema se muestran los tipos de dato para Python y SQL soportados por los experimentos AutoML.

Tabla 6-1 Tipos de dato soportados por AutoML Experiments

Tipos de Dato Tipos de Dato SQL Tipos de datos de Python
Numérico NUMBER, INTEGER, FLOAT, BINARY_DOUBLE, NUMBER, BINARY_FLOAT, DM_NESTED_NUMERICALS, DM_NESTED_BINARY_DOUBLES, DM_NESTED_BINARY_FLOATS

INTEGER, FLOAT(NUMBER, BINARY_DOUBLE, BINARY_FLOAT)

Por categoría

CHAR, VARCHAR2, DM_NESTED_CATEGORICALS

STRING(VARCHAR2, CHAR, CLOB)

Texto no estructurado

CHAR, VARCHAR2, CLOB, BLOB, BFILE

BYTES (RAW, BLOB)

6.3 Visualización de un experimento

En la página Experimentos de la interfaz de usuario AutoML, se muestran todos los experimentos que ha creado. Cada experimento estará en una de las siguientes etapas: Completado, En ejecución y Listo.

Para ver un experimento, haga clic en el nombre del mismo. La página Experimento muestra los detalles del experimento seleccionado. Contiene las secciones siguientes:

Editar experimento

En esta sección, puede editar el experimento seleccionado. Haga clic en Editar para realizar ediciones en el experimento.

Note:

No puede editar un experimento que se esté ejecutando.

Gráfico de Métricas

El gráfico de métricas de modelo muestra el mejor valor de métrica a lo largo del tiempo a medida que se ejecuta el experimento. Muestra una mejora en la precisión a medida que avanza la ejecución del experimento. El nombre mostrado depende de la métrica de modelo seleccionada al crear el experimento.

Clasificación

Cuando se ejecuta un experimento, comienza a mostrar los resultados en la Junta de Líderes. La tabla de clasificación muestra los modelos con mejor rendimiento en relación con la métrica de modelo seleccionada junto con el algoritmo y la precisión. Puede ver los detalles del modelo y realizar las siguientes tareas:

Figura 6-10 Panel de liderazgo

Clasificación
  • Ver detalles de modelo: haga clic en Nombre de modelo para ver los detalles. Los detalles del modelo se muestran en el cuadro de diálogo Detalles del modelo. Puede hacer clic en varios modelos en la tabla de clasificación y ver los detalles del modelo simultáneamente. La ventana Detalles de modelo muestra lo siguiente:
    • Impacto de predicción: muestra la importancia de los atributos en términos de la predicción objetivo de los modelos.
    • Matriz de confusión: muestra la combinación diferente de valores reales y previstos por el algoritmo en una tabla. Confusion Matrix sirve como una medida del rendimiento del algoritmo de aprendizaje automático.
  • Desplegar: seleccione cualquier modelo de la tabla de clasificación y haga clic en Desplegar para desplegar el modelo seleccionado. Desplegar modelo.
  • Cambiar nombre: haga clic en Cambiar nombre para cambiar el nombre del modelo generado por el sistema. El nombre debe ser alfanumérico (no superar los 123 caracteres) y no puede contener espacios en blanco.
  • Crear bloc de notas: seleccione cualquier modelo de la tabla de clasificación y haga clic en Crear blocs de notas a partir de modelos de interfaz de usuario AutoML para volver a crear el modelo seleccionado a partir del código.
  • Métricas: haga clic en Métricas para seleccionar métricas adicionales que se mostrarán en la tabla de clasificación. Las métricas adicionales son:
    • Para clasificación
      • Precisión: Calcula la proporción de casos correctamente clasificados, tanto positivos como negativos. Por ejemplo, si hay un total de casos clasificados correctamente TP (positivos verdaderos) + TN (negativos verdaderos) de casos clasificados correctamente de TP + TN + FP + FN (negativos verdaderos Positives+True Negatives+False Positives+False), la fórmula es: Accuracy = (TP+TN)/(TP+TN+FP+FN)
      • Precisión equilibrada: evalúa qué tan bueno es un clasificador binario. Es especialmente útil cuando las clases están desequilibradas, es decir, cuando una de las dos clases aparece mucho más a menudo que la otra. Esto suele suceder en muchos entornos, como la detección de anomalías, etc.
      • Recordar: Calcula la proporción de positivos reales que se clasifican correctamente.
      • Precisión: Calcula la proporción de positivos previstos que es verdadero positivo.
      • F1 Puntuación: combina la precisión y la recuperación en un solo número. La puntuación F1 se calcula con la media armónica que se calcula mediante la fórmula: F1-score = 2 × (precision × recall)/(precision + recall)
    • Para regresión:
      • R2 (Valor por defecto): medida estadística que calcula la proximidad de los datos con la línea de regresión ajustada. En general, cuanto mayor sea el valor de R-cuadrado, mejor se ajustará el modelo a sus datos. El valor de R2 está siempre entre 0 y 1, donde:
        • 0 indica que el modelo no explica ninguna de la variabilidad de los datos de respuesta en torno a su media.
        • 1 indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.
      • Error Cuadrado Medio Negativo: Esta es la media de la diferencia cuadrada de los objetivos predichos y verdaderos.
      • Negative Mean Absolute Error: Es la media de la diferencia absoluta entre los objetivos predichos y los verdaderos.
      • Mediana Negativa Error Absoluto: Es la media de la diferencia absoluta entre los objetivos predichos y los verdaderos.

Funciones

La cuadrícula Funciones muestra las estadísticas de la tabla seleccionada para las estadísticas soportadas experiment.The: Valores Distintos, Mínimo, Máximo, Media y Desviación Estándar. Los orígenes de datos soportados para las funciones son tablas, vistas y vistas analíticas. La columna de destino seleccionada en Predict se resalta aquí. Una vez finalizada la ejecución de un experimento, la cuadrícula Funciones muestra una columna adicional Importancia. Importancia de la característica indica el nivel general de sensibilidad de la predicción a una característica en particular. Pase el cursor sobre el gráfico para ver el valor de Importancia.El valor siempre se representa en el rango de 0 a 1, siendo los valores más cercanos a 1 más importantes.

Figura 6-11 Características

Sección de características

6.3.1 Creación de blocs de notas a partir de modelos de interfaz de usuario AutoML

Puede crear blocs de notas mediante el código OML4Py que volverá a crear el modelo seleccionado con la misma configuración. También ilustra cómo puntuar datos mediante el modelo. Esta opción es útil si desea utilizar el código para volver a crear un modelo de aprendizaje automático similar.

Para crear un bloc de notas a partir de un modelo de interfaz de usuario AutoML:
  1. Seleccione el modelo en la tabla de clasificación en función del cual desea crear el bloc de notas y haga clic en Crear bloc de notas. Se abre el cuadro de diálogo Crear bloc de notas.

    Figura 6-12 Crear bloc de notas

    Crear portátil
  2. En el campo Nombre de bloc de notas, introduzca un nombre para el bloc de notas.
    El punto final de la API de REST deriva los metadatos del experimento y determina la siguiente configuración según corresponda:
    • Fuente de datos del experimento (schema.table)
    • ID de Caso. Si la ID. de caso del experimento no está disponible, se mostrará el mensaje correspondiente.
    • Se genera un nombre de modelo único basado en el nombre de modelo actual
    • Información relacionada con el párrafo de puntuación:
      • ID de caso: si está disponible, fusiona la columna ID de caso en la tabla de salida de puntuación
      • Generar un nombre de tabla de salida de predicción único basado en origen de datos de compilación y sufijo único
      • Nombre de columna de predicción: PREDICTION
      • Nombre de columna de probabilidad de predicción: PROBABILITY (aplicable solo para clasificación)
  3. Haga clic en Aceptar. El Notebook generado se muestra en la página Notebook. Haga clic para abrir el Notebook
    El bloc de notas generado muestra títulos de párrafos para cada párrafo junto con los códigos de python. Una vez ejecutado el bloc de notas, muestra información relacionada con el bloc de notas, así como el experimento AutoML, como el nombre del experimento, el espacio de trabajo y el proyecto en el que está presente el bloc de notas, el usuario, los datos, el tipo de predicción y el destino de predicción, el algoritmo y el registro de hora en el que se genera el bloc de notas. AutoML Cuaderno generado por la interfaz de usuario