Introducción a la supervisión de datos

7 Introducción a la supervisión de datos

Data Monitoring evalúa cómo evolucionan sus datos a lo largo del tiempo. Le ayuda con información sobre tendencias y dependencias multivariante en los datos. También le da una advertencia temprana sobre la deriva de datos.

El cambio de datos se produce cuando los datos difieren de los datos de línea base originales a lo largo del tiempo. El cambio de datos puede ocurrir por una variedad de razones, como un entorno empresarial cambiante, un comportamiento e interés del usuario en evolución, modificaciones de datos de fuentes de terceros, problemas de calidad de datos o problemas con pipelines de procesamiento de datos ascendentes.

La clave para interpretar con precisión sus modelos y garantizar que los modelos puedan resolver problemas empresariales es comprender cómo evolucionan los datos a lo largo del tiempo. El monitoreo de datos es complementario al monitoreo exitoso del modelo, ya que comprender los cambios en los datos es fundamental para comprender los cambios en la eficacia de los modelos. La capacidad de detectar de forma rápida y fiable los cambios en las propiedades estadísticas de los datos garantiza que los modelos de aprendizaje automático sean capaces de cumplir los objetivos empresariales.

Puede supervisar los datos mediante la funcionalidad de supervisión de datos de la interfaz de usuario de Oracle Machine Learning. Para supervisar los datos, haga clic en el menú Nube de la página de inicio de la interfaz de usuario de Oracle Machine Learning, haga clic en Supervisión y, a continuación, haga clic en Datos para abrir la página Supervisión de datos. En la página Supervisión de Datos, puede realizar las siguientes tareas:

Figura 7-1 Supervisión de Datos, página

Crear: cree una supervisión de datos.

Note:
Los tipos de dato soportados para la supervisión de datos son NUMERIC y CATEGORICAL.
Editar: seleccione una supervisión de datos y haga clic en Editar para editarla.
Duplicar: seleccione una supervisión de datos y haga clic en Duplicar para crear una copia de la supervisión.
Suprimir: seleccione una supervisión de datos y haga clic en Suprimir para suprimirla.
Historial: seleccione un supervisor de datos y haga clic en Historial para ver los detalles del tiempo de ejecución. Haga clic en Volver a supervisiones para volver a la página Supervisión de datos.
Iniciar: inicie un supervisor de datos.
Parar: detiene un supervisor de datos que se está ejecutando.
Más: Haga clic en Más para obtener más información sobre:

Figura 7-2 Opción Más en Monitores de Datos
- Activar: seleccione una supervisión de datos y haga clic en Activar para activar una supervisión desactivada. Por defecto, un supervisor de datos está activado. El estado se muestra como SCHEDULED.
- Desactivar: seleccione una supervisión de datos y haga clic en Desactivar para desactivarla. El estado se muestra como DISABLED.
- Mostrar supervisiones gestionadas: haga clic en esta opción para ver las supervisiones de datos creadas y gestionadas por la API de REST de servicios de OML y las supervisiones de modelos en la interfaz de usuario de Oracle Machine Learning. Los supervisores de datos gestionados por estos dos componentes tienen un nombre generado por el sistema y se indican mediante iconos específicos con su nombre.
  - Haga clic en el icono de enlace de un nombre de supervisor de datos gestionado para ver los detalles del supervisor de modelo asociado. Los detalles de supervisión de modelo asociados se muestran en un panel independiente que se desliza. El panel deslizante muestra el nombre del monitor de modelo con enlaces para ver los resultados y la configuración del monitor de modelo. Al hacer clic en el icono de enlace, también se muestran los detalles de cambio de datos en el panel inferior de la página Supervisión de datos. Haga clic en la X de la esquina superior izquierda para cerrar el panel.
    
    Figura 7-3 Página Monitores de Datos que muestra los resultados y la configuración del monitor de modelo asociado
    
    En este ejemplo, el panel deslizante muestra los detalles del monitor de modelo Power Consumption. En el panel deslizante:
    - Haga clic en Resultados de supervisión de modelo para ver los resultados calculados por la supervisión de modelo: configuración, modelos, cambio de modelo, métrica y estadísticas de predicción. Haga clic en Supervisores para volver a la página Supervisores de datos. Consulte Ver resultados de supervisión de modelos.
    - Haga clic en Configuración de supervisión de modelo para ver y editar la configuración, los detalles y los modelos supervisados por la supervisión de modelo en la página Editar supervisión de modelo. Haga clic en Cancelar para volver a la página Supervisores de datos. Haga clic en Guardar para guardar los cambios.
  - Haga clic en la casilla de control del nombre del supervisor de datos para ver los valores de cambio de datos en el panel inferior.
    
    Figura 7-4 Seleccionar un monitor de datos gestionado
  - Haga clic en el nombre del monitor de datos para ver los detalles del monitor de datos: configuración, valores de cambio de datos y funciones supervisadas.
    
    Figura 7-5 Clic en el monitor de datos

La página Supervisión de Datos muestra la información sobre la supervisión seleccionada: Nombre de Supervisión, Datos de Línea Base, Nuevos Datos, Fecha de Último Inicio, Último Estado, Datos de Siguiente Ejecución, Estado y Programa. La página también muestra el cambio de datos, si el supervisor de datos se ha ejecutado correctamente. Para ver el cambio de datos:

Figura 7-6 Vista previa de Data Drift en la página Monitores de Datos

Vista previa de cambio de datos en la página Monitores de datos

Seleccione un supervisor de datos que se haya ejecutado correctamente, como se muestra en la captura de pantalla. En el panel inferior, se muestra el cambio de datos del monitor seleccionado. El eje X representa el período de análisis y el eje Y representa los valores de deriva de datos. La línea punteada horizontal es el valor de umbral y la línea representa el valor de deriva para cada punto en el tiempo del período de análisis. Pase el mouse sobre la línea para ver los valores de deriva. Para obtener más información sobre este ejemplo, consulte Visualización de resultados de supervisión de datos.

Creación de un supervisor de datos
La supervisión de datos permite detectar el cambio de datos a lo largo del tiempo y el impacto potencialmente negativo en el rendimiento de los modelos de aprendizaje automático. En la página Supervisión de datos, puede crear, ejecutar y realizar un seguimiento de los supervisores de datos y los resultados.
Ver resultados de supervisión de datos
La página Resultados de supervisión de datos muestra la información de la supervisión de datos seleccionada que se ha ejecutado correctamente, junto con los detalles de cambio de datos para cada función supervisada.
Ver historial
La página Historial muestra los detalles de tiempo de ejecución de las supervisiones de datos.

Temas relacionados

Ver historial

7.1 Creación de un supervisor de datos

La supervisión de datos le permite detectar el cambio de datos a lo largo del tiempo y el impacto potencialmente negativo en el rendimiento de sus modelos de aprendizaje automático. En la página Supervisión de datos, puede crear, ejecutar y realizar un seguimiento de los supervisores de datos y los resultados.

Para crear una supervisión de datos:

En el menú de navegación izquierdo de la interfaz de usuario de Oracle Machine Learning, amplíe Monitoring y, a continuación, haga clic en Data para abrir la página Data Monitoring.
En la página Supervisión de datos, haga clic en Crear para abrir la página Nueva supervisión de datos.
En la página New Data Monitor, introduzca los siguientes detalles:

Figura 7-7 Nuevo Monitor de Datos
1. Nombre del Monitor: introduzca un nombre para el monitor de datos.
2. Comentarios: introduzca comentarios. Este campo es opcional.
3. Datos de base: tabla o vista que contiene datos de línea base para supervisar. Haga clic en el icono de búsqueda para abrir el cuadro de diálogo Seleccionar tabla. Aquí, seleccione un esquema y, a continuación, una tabla.
  
  Note:
  Los tipos de dato soportados para la supervisión de datos son NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, y NVARCHAR2 con la longitud <=4000.
4. Nuevos datos: esta es una tabla o vista con nuevos datos que se compararán con los datos base. Haga clic en el icono de búsqueda para abrir el cuadro de diálogo Seleccionar tabla. Seleccione un esquema y, a continuación, una tabla.
  
  Note:
  Los tipos de dato soportados para la supervisión de datos son NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, y NVARCHAR2 con la longitud <=4000.
5. Matriz: seleccione un atributo en la lista desplegable. Este atributo de la línea base y los datos nuevos actúa como anclaje o destino para el análisis bivariante de los datos.
  
  Note:
  La columna de destino de los problemas supervisados se puede transferir como una columna fija en este campo. Para problemas no supervisados, puede ser cualquier columna de interés. Sin embargo, será específico de la aplicación.
6. ID de caso: este campo es opcional. Introduzca un identificador de caso para la línea base y los datos nuevos para mejorar la repetibilidad de los resultados.
7. Columna de tiempo: nombre de una columna que almacena información de tiempo en la tabla o vista Nuevos datos. Seleccione la columna de hora de la lista desplegable.
  
  Note:
  Si la columna de tiempo está en blanco, todos los datos nuevos se tratan como un periodo.
8. Período de análisis: período durante el cual se realiza la supervisión de datos en los nuevos datos. Seleccione el período de análisis para la supervisión de datos. Las opciones son Day, Week, Month, Year.
9. Fecha de Inicio: es la fecha de inicio del programa de supervisión de datos. Si no proporciona una fecha de inicio, la fecha actual se utilizará como fecha de inicio.
10. Repetir: este valor define el número de veces que se repetirá la ejecución del supervisor de datos para la frecuencia definida. Introduzca un número entre 1 y 99. Por ejemplo, si introduce 2 en el campo Repetir aquí y Minutes en el campo Frecuencia, el supervisor de datos se ejecutará cada 2 minutos.
11. Frecuencia: este valor determina la frecuencia con la que se ejecutará la supervisión de datos en los nuevos datos. Seleccione una frecuencia para la supervisión de datos. Las opciones son Minutos, Horas, Días, Semanas y Meses. Por ejemplo, si selecciona Minutes en el campo Frecuencia, 2 en el campo Repetir y 5/30/23 en el campo Fecha de inicio, según el programa, el supervisor de datos se ejecutará del 30/5/23 cada 2 minutos.
Haga clic en Recomcular: seleccione esta opción para volver a calcular el análisis para el período de tiempo ya calculado. Por defecto, el nuevo cálculo está desactivado.
- Cuando está activada, el análisis de cambio de datos se realiza para el período especificado en el campo Fecha de inicio y la hora de finalización. El análisis sobrescribirá los resultados ya existentes para el período de tiempo especificado. Esto significa que el análisis se calculará para el período de tiempo con nuevos datos que no sean los datos actuales. Los nuevos resultados de análisis pueden solaparse con los resultados existentes en función de la frecuencia seleccionada.
- Si se desactiva, los datos del período de tiempo presente en la tabla de resultados se conservarán tal cual. Solo se tendrán en cuenta para el análisis los nuevos datos del período de tiempo más reciente y los resultados se agregarán a la tabla de resultados.
Haga clic en Configuración adicional para ampliar esta sección y proporcionar una configuración avanzada para la supervisión de datos:

Figura 7-8 Configuración adicional de supervisión de datos
1. Umbral de cambio: el cambio captura el cambio relativo en el rendimiento entre los datos de línea base y el nuevo período de datos. En función de su problema específico de aprendizaje automático, defina el valor de umbral para la detección de cambios de datos. El valor por defecto es 0.7.
  
  Note:
  Puede ajustar el valor de umbral en función de su caso de uso. El aumento del valor generará menos alertas, mientras que la disminución del valor generará más alertas.
  - Un cambio por encima de este umbral indica un cambio significativo en los datos. Si se supera el umbral, es posible que sea necesario volver a crear y desplegar el modelo.
  - Una desviación por debajo de este umbral indica que no hay suficientes cambios en los datos para justificar una investigación o una acción adicionales.
2. Nivel de servicio de base de datos: niveles de servicio de Autonomous Database: Low, Medium, High. El valor por defecto es Low. El nivel de servicio Medium proporciona más recursos para la ejecución de supervisión de datos en comparación con Low. El nivel de servicio High proporciona más recursos para la ejecución de supervisión de datos en comparación con Medium.
3. Filtro de análisis: active esta opción si desea el análisis de supervisión de datos para un período de tiempo específico. Mueva el control deslizante a la derecha para activarlo y, a continuación, seleccione una fecha en los campos De fecha y A fecha respectivamente. Este campo está desactivado de forma predeterminada.
  - De fecha: fecha de inicio o registro de hora de la supervisión en Nuevos datos. Asume la existencia de una columna de tiempo en la tabla. Este campo es obligatorio si utiliza la opción Filtro de análisis.
  - Hasta la fecha: es la fecha de finalización o el registro de hora de la supervisión en los nuevos datos. Asume la existencia de una columna de tiempo en la tabla. Este campo es obligatorio si utiliza la opción Filtro de análisis.
4. Número máximo de ejecuciones: número máximo de veces que se puede ejecutar el supervisor de datos según este programa. El valor por defecto es 3.
La cuadrícula Funciones muestra la lista de funciones que se van a supervisar. Aquí, puede seleccionar o anular la selección de las funciones que desea incluir o excluir de la supervisión. Por defecto, todas las funciones están seleccionadas. Se proporcionan estadísticas de funciones si los datos seleccionados son una tabla y tiene estadísticas de RDBMS recopiladas automáticamente por Autonomous Database. Oracle Machine Learning Services calcula las estadísticas de la primera ejecución para las tablas y vistas, y los cálculos se muestran aquí después de la primera ejecución. Las estadísticas se actualizan mediante ejecuciones posteriores.

Figura 7-9 Cuadrícula de características en Monitor de datos

Note:
Las columnas ID de caso y Ficha cruzada no se pueden seleccionar.
Haga clic en Guardar. Esta acción finaliza la tarea de crear el supervisor de datos.

Note:
Ahora debe ir a la página Supervisión de datos, seleccionar la supervisión de datos y hacer clic en Iniciar para iniciar la supervisión de datos.

Después de que la supervisión de datos se ejecute correctamente, seleccione la supervisión en la página Supervisión de datos para ver el cambio de datos y otros detalles de la supervisión de datos. Consulte Introducción a la supervisión de datos para obtener más información.

Tema principal: Introducción a la supervisión de datos

7.2 Visualización de Resultados de Supervisión de Datos

La página Resultados de Supervisión de Datos muestra la información del supervisor de datos seleccionado que se ha ejecutado correctamente, junto con los detalles de cambio de datos para cada función supervisada.

En la página Supervisión de datos, haga clic en una supervisión de datos que se haya ejecutado correctamente. En este ejemplo, se selecciona el supervisor de datos Power Consumption (Consumo de energía). Los resultados del monitor de datos se muestran en la página Resultados del Monitor de Datos, que consta de las siguientes secciones:

Configuración: la sección Configuración muestra la configuración del supervisor de datos. Haga clic en la flecha de Configuración para ampliar esta sección. Puede editar la configuración del supervisor de datos haciendo clic en Editar en la esquina superior derecha de la página. En esta captura de pantalla, se muestra la configuración de la supervisión de datos Power Consumption (Consumo de energía).

Figura 7-10 Sección Configuración de la página Resultados de Supervisión de Datos
Cambio: la sección Cambio muestra los detalles del cambio de datos para cada función supervisada. En este ejemplo, se selecciona el monitor de datos de consumo de energía del supervisor de datos. El eje X representa el período de análisis y el eje Y representa los valores de deriva de datos. La línea punteada horizontal es el valor de umbral y la línea representa el valor de deriva para cada punto en el tiempo del período de análisis. Pase el mouse sobre la línea para ver los valores de deriva.

Figura 7-11 Sección Data Drift de la página Data Monitor Results
Funciones: la sección Funciones muestra las funciones supervisadas junto con las estadísticas calculadas.

Figura 7-12 Sección Funciones de la página Resultados de Supervisión de Datos

El valor de la columna Importancia indica el impacto que ha tenido la función en el cambio de datos durante un período de tiempo especificado.
Para los datos numéricos, se calculan las siguientes estadísticas:
- Media
- Desviación estándar
- Rango (mínimo, máximo)
- Número de Nulos
Para los datos categóricos, se calculan las siguientes estadísticas:
- Número de valores únicos
- Número de Nulos
Para cada función supervisada, pase el mouse para ver los siguientes detalles adicionales, como se muestra en la captura de pantalla aquí.
- Primero: Este es el primer valor de las estadísticas calculadas para el período de análisis.
- Último: es el último valor de las estadísticas calculadas para el período de análisis.
- Max: es el valor más alto de las estadísticas calculadas para el período de análisis.
- Min: es el valor más bajo de las estadísticas calculadas para el período de análisis.
Haga clic en cualquier función supervisada de la sección Funciones para ver la métrica, las estadísticas, la distribución y la distribución con columna de matriz, como se muestra en la captura de pantalla aquí. En la captura de pantalla aquí, se muestra el índice de estabilidad de población para la función GLOBAL_REACTIVE_POWER.

Figura 7-13 Índice de Estabilidad de Población
Los cálculos incluyen:
- Métrica: se calculan las siguientes métricas:
  - Índice de Estabilidad de la Población (ISP): Esta es una medida de cuánto ha cambiado una población con el tiempo o entre dos muestras diferentes de una población en un solo número. Las dos distribuciones se agrupan en bloques y la PSI compara el porcentaje de artículos de cada uno de ellos. PSI se calcula como
    PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
    La interpretación del valor de la ISP es:
    - PSI < 0.1 no implica un cambio significativo de población
    - 0.1 <= PSI < 0.2 implica un cambio moderado de la población
    - PSI >= 0.2 implica un cambio significativo de población
  - Jenson Shannon Distancia (JSD): Esta es una medida de la similitud entre dos distribuciones de probabilidad. JSD es la raíz cuadrada de la Divergencia Jensen-Shannon que está relacionada con la Divergencia Kullbach-Leibler (KLD). JSD se calcula de la siguiente forma:
    SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
    
    Donde, P y Q son las 2 distribuciones, M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
    
    El valor de JSD oscila entre 0 y 1.
  - Índice de Estabilidad de Población de Matriz: Este es el PSI para dos variables.
  - Crosstab Jenson Shannon Distancia: Este es el JSD para dos variables.
- Estadísticas: puede ver estadísticas de hasta 3 períodos seleccionados. La deriva de datos se cuantifica mediante estos cálculos estadísticos.
  
  Figura 7-14 Estadísticas
  Para los datos numéricos, se calculan las siguientes estadísticas:
  - Media
  - Desviación estándar
  - Rango (mínimo, máximo)
  - Número de Nulos
  Para los datos categóricos, se calculan las siguientes estadísticas:
  - Número de valores únicos
  - Número de Nulos
- Distribución: el gráfico de distribución de funciones con leyenda muestra los depósitos de la función para los períodos seleccionados y la línea base (opcional).
  
  Figura 7-15 Gráfico de Distribución y Distribución con Columna de Matriz
- Distribución con Columna de Matriz: el mapa de riesgos indica la densidad de distribución de la matriz seleccionada y la columna de función. El rojo indica la densidad más alta.
  
  Note:
  En la supervisión de cambios de datos, se realiza un seguimiento de nulls por separado como number_of_missing_values.

Tema principal: Introducción a la supervisión de datos

7.3 Historial de Vistas

La página Historial muestra los detalles de tiempo de ejecución de los supervisores de datos.

Seleccione un supervisor de datos y haga clic en Historial para ver los detalles del tiempo de ejecución. La página de historial muestra la siguiente información sobre el tiempo de ejecución del supervisor de datos:

Figura 7-16 Historial de Supervisión de Datos, página

Fecha de inicio real: fecha en la que se inició realmente la supervisión de datos.
Fecha de inicio solicitada: es la fecha introducida en el campo Start Date al crear la supervisión de datos.
Estado: los estados son SUCCEEDED y FAILED.
Detalle: si falla un supervisor de datos, los detalles se muestran aquí.
Duración: tiempo que se tarda en ejecutar la supervisión de datos.

Haga clic en Volver a supervisiones para volver a la página Supervisión de datos.

Tema principal: Introducción a la supervisión de datos