7 Introducción a la supervisión de datos
Data Monitoring evalúa cómo evolucionan sus datos a lo largo del tiempo. Le ayuda con información sobre tendencias y dependencias multivariante en los datos. También le da una advertencia temprana sobre la deriva de datos.
El cambio de datos se produce cuando los datos difieren de los datos de línea base originales a lo largo del tiempo. El cambio de datos puede ocurrir por una variedad de razones, como un entorno empresarial cambiante, un comportamiento e interés del usuario en evolución, modificaciones de datos de fuentes de terceros, problemas de calidad de datos o problemas con pipelines de procesamiento de datos ascendentes.
La clave para interpretar con precisión sus modelos y garantizar que los modelos puedan resolver problemas empresariales es comprender cómo evolucionan los datos a lo largo del tiempo. El monitoreo de datos es complementario al monitoreo exitoso del modelo, ya que comprender los cambios en los datos es fundamental para comprender los cambios en la eficacia de los modelos. La capacidad de detectar de forma rápida y fiable los cambios en las propiedades estadísticas de los datos garantiza que los modelos de aprendizaje automático sean capaces de cumplir los objetivos empresariales.
Figura 7-1 Supervisión de Datos, página
- Crear: cree una supervisión de datos.
Note:
Los tipos de dato soportados para la supervisión de datos son NUMERIC y CATEGORICAL. - Editar: seleccione una supervisión de datos y haga clic en Editar para editarla.
- Duplicar: seleccione una supervisión de datos y haga clic en Duplicar para crear una copia de la supervisión.
- Suprimir: seleccione una supervisión de datos y haga clic en Suprimir para suprimirla.
- Historial: seleccione un supervisor de datos y haga clic en Historial para ver los detalles del tiempo de ejecución. Haga clic en Volver a supervisiones para volver a la página Supervisión de datos.
- Iniciar: inicie un supervisor de datos.
- Parar: detiene un supervisor de datos que se está ejecutando.
- Más: Haga clic en Más para obtener más información sobre:
Figura 7-2 Opción Más en Monitores de Datos
- Activar: seleccione una supervisión de datos y haga clic en Activar para activar una supervisión desactivada. Por defecto, un supervisor de datos está activado. El estado se muestra como
SCHEDULED
. - Desactivar: seleccione una supervisión de datos y haga clic en Desactivar para desactivarla. El estado se muestra como
DISABLED
. - Mostrar supervisiones gestionadas: haga clic en esta opción para ver las supervisiones de datos creadas y gestionadas por la API de REST de servicios de OML y las supervisiones de modelos en la interfaz de usuario de Oracle Machine Learning. Los supervisores de datos gestionados por estos dos componentes tienen un nombre generado por el sistema y se indican mediante iconos específicos con su nombre.
- Haga clic en el icono de enlace de un nombre de supervisor de datos gestionado para ver los detalles del supervisor de modelo asociado. Los detalles de supervisión de modelo asociados se muestran en un panel independiente que se desliza. El panel deslizante muestra el nombre del monitor de modelo con enlaces para ver los resultados y la configuración del monitor de modelo. Al hacer clic en el icono de enlace, también se muestran los detalles de cambio de datos en el panel inferior de la página Supervisión de datos. Haga clic en la X de la esquina superior izquierda para cerrar el panel.
Figura 7-3 Página Monitores de Datos que muestra los resultados y la configuración del monitor de modelo asociado
En este ejemplo, el panel deslizante muestra los detalles del monitor de modelo Power Consumption. En el panel deslizante:
- Haga clic en Resultados de supervisión de modelo para ver los resultados calculados por la supervisión de modelo: configuración, modelos, cambio de modelo, métrica y estadísticas de predicción. Haga clic en Supervisores para volver a la página Supervisores de datos. Consulte Ver resultados de supervisión de modelos.
- Haga clic en Configuración de supervisión de modelo para ver y editar la configuración, los detalles y los modelos supervisados por la supervisión de modelo en la página Editar supervisión de modelo. Haga clic en Cancelar para volver a la página Supervisores de datos. Haga clic en Guardar para guardar los cambios.
- Haga clic en la casilla de control del nombre del supervisor de datos para ver los valores de cambio de datos en el panel inferior.
Figura 7-4 Seleccionar un monitor de datos gestionado
- Haga clic en el nombre del monitor de datos para ver los detalles del monitor de datos: configuración, valores de cambio de datos y funciones supervisadas.
Figura 7-5 Clic en el monitor de datos
- Haga clic en el icono de enlace de un nombre de supervisor de datos gestionado para ver los detalles del supervisor de modelo asociado. Los detalles de supervisión de modelo asociados se muestran en un panel independiente que se desliza. El panel deslizante muestra el nombre del monitor de modelo con enlaces para ver los resultados y la configuración del monitor de modelo. Al hacer clic en el icono de enlace, también se muestran los detalles de cambio de datos en el panel inferior de la página Supervisión de datos. Haga clic en la X de la esquina superior izquierda para cerrar el panel.
- Activar: seleccione una supervisión de datos y haga clic en Activar para activar una supervisión desactivada. Por defecto, un supervisor de datos está activado. El estado se muestra como
La página Supervisión de Datos muestra la información sobre la supervisión seleccionada: Nombre de Supervisión, Datos de Línea Base, Nuevos Datos, Fecha de Último Inicio, Último Estado, Datos de Siguiente Ejecución, Estado y Programa. La página también muestra el cambio de datos, si el supervisor de datos se ha ejecutado correctamente. Para ver el cambio de datos:
Figura 7-6 Vista previa de Data Drift en la página Monitores de Datos
Seleccione un supervisor de datos que se haya ejecutado correctamente, como se muestra en la captura de pantalla. En el panel inferior, se muestra el cambio de datos del monitor seleccionado. El eje X representa el período de análisis y el eje Y representa los valores de deriva de datos. La línea punteada horizontal es el valor de umbral y la línea representa el valor de deriva para cada punto en el tiempo del período de análisis. Pase el mouse sobre la línea para ver los valores de deriva. Para obtener más información sobre este ejemplo, consulte Visualización de resultados de supervisión de datos.
- Creación de un supervisor de datos
La supervisión de datos permite detectar el cambio de datos a lo largo del tiempo y el impacto potencialmente negativo en el rendimiento de los modelos de aprendizaje automático. En la página Supervisión de datos, puede crear, ejecutar y realizar un seguimiento de los supervisores de datos y los resultados. - Ver resultados de supervisión de datos
La página Resultados de supervisión de datos muestra la información de la supervisión de datos seleccionada que se ha ejecutado correctamente, junto con los detalles de cambio de datos para cada función supervisada. - Ver historial
La página Historial muestra los detalles de tiempo de ejecución de las supervisiones de datos.
Temas relacionados
7.1 Creación de un supervisor de datos
La supervisión de datos le permite detectar el cambio de datos a lo largo del tiempo y el impacto potencialmente negativo en el rendimiento de sus modelos de aprendizaje automático. En la página Supervisión de datos, puede crear, ejecutar y realizar un seguimiento de los supervisores de datos y los resultados.
Tema principal: Introducción a la supervisión de datos
7.2 Visualización de Resultados de Supervisión de Datos
La página Resultados de Supervisión de Datos muestra la información del supervisor de datos seleccionado que se ha ejecutado correctamente, junto con los detalles de cambio de datos para cada función supervisada.
- Configuración: la sección Configuración muestra la configuración del supervisor de datos. Haga clic en la flecha de Configuración para ampliar esta sección. Puede editar la configuración del supervisor de datos haciendo clic en Editar en la esquina superior derecha de la página. En esta captura de pantalla, se muestra la configuración de la supervisión de datos Power Consumption (Consumo de energía).
Figura 7-10 Sección Configuración de la página Resultados de Supervisión de Datos
- Cambio: la sección Cambio muestra los detalles del cambio de datos para cada función supervisada. En este ejemplo, se selecciona el monitor de datos de consumo de energía del supervisor de datos. El eje X representa el período de análisis y el eje Y representa los valores de deriva de datos. La línea punteada horizontal es el valor de umbral y la línea representa el valor de deriva para cada punto en el tiempo del período de análisis. Pase el mouse sobre la línea para ver los valores de deriva.
Figura 7-11 Sección Data Drift de la página Data Monitor Results
-
Funciones: la sección Funciones muestra las funciones supervisadas junto con las estadísticas calculadas.
Figura 7-12 Sección Funciones de la página Resultados de Supervisión de Datos
El valor de la columna Importancia indica el impacto que ha tenido la función en el cambio de datos durante un período de tiempo especificado.
Para los datos numéricos, se calculan las siguientes estadísticas:- Media
- Desviación estándar
- Rango (mínimo, máximo)
- Número de Nulos
Para los datos categóricos, se calculan las siguientes estadísticas:- Número de valores únicos
- Número de Nulos
Para cada función supervisada, pase el mouse para ver los siguientes detalles adicionales, como se muestra en la captura de pantalla aquí.
- Primero: Este es el primer valor de las estadísticas calculadas para el período de análisis.
- Último: es el último valor de las estadísticas calculadas para el período de análisis.
- Max: es el valor más alto de las estadísticas calculadas para el período de análisis.
- Min: es el valor más bajo de las estadísticas calculadas para el período de análisis.
- Haga clic en cualquier función supervisada de la sección Funciones para ver la métrica, las estadísticas, la distribución y la distribución con columna de matriz, como se muestra en la captura de pantalla aquí. En la captura de pantalla aquí, se muestra el índice de estabilidad de población para la función GLOBAL_REACTIVE_POWER.
Figura 7-13 Índice de Estabilidad de Población
Los cálculos incluyen:- Métrica: se calculan las siguientes métricas:
- Índice de Estabilidad de la Población (ISP): Esta es una medida de cuánto ha cambiado una población con el tiempo o entre dos muestras diferentes de una población en un solo número. Las dos distribuciones se agrupan en bloques y la PSI compara el porcentaje de artículos de cada uno de ellos. PSI se calcula como
La interpretación del valor de la ISP es:PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
no implica un cambio significativo de población0.1 <= PSI < 0.2
implica un cambio moderado de la poblaciónPSI >= 0.2
implica un cambio significativo de población
- Jenson Shannon Distancia (JSD): Esta es una medida de la similitud entre dos distribuciones de probabilidad. JSD es la raíz cuadrada de la Divergencia Jensen-Shannon que está relacionada con la Divergencia Kullbach-Leibler (KLD). JSD se calcula de la siguiente forma:
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
Donde, P y Q son las 2 distribuciones,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
El valor de JSD oscila entre 0 y 1.
- Índice de Estabilidad de Población de Matriz: Este es el PSI para dos variables.
- Crosstab Jenson Shannon Distancia: Este es el JSD para dos variables.
- Índice de Estabilidad de la Población (ISP): Esta es una medida de cuánto ha cambiado una población con el tiempo o entre dos muestras diferentes de una población en un solo número. Las dos distribuciones se agrupan en bloques y la PSI compara el porcentaje de artículos de cada uno de ellos. PSI se calcula como
- Estadísticas: puede ver estadísticas de hasta 3 períodos seleccionados. La deriva de datos se cuantifica mediante estos cálculos estadísticos.
Figura 7-14 Estadísticas
Para los datos numéricos, se calculan las siguientes estadísticas:- Media
- Desviación estándar
- Rango (mínimo, máximo)
- Número de Nulos
Para los datos categóricos, se calculan las siguientes estadísticas:- Número de valores únicos
- Número de Nulos
- Distribución: el gráfico de distribución de funciones con leyenda muestra los depósitos de la función para los períodos seleccionados y la línea base (opcional).
Figura 7-15 Gráfico de Distribución y Distribución con Columna de Matriz
- Distribución con Columna de Matriz: el mapa de riesgos indica la densidad de distribución de la matriz seleccionada y la columna de función. El rojo indica la densidad más alta.
Note:
En la supervisión de cambios de datos, se realiza un seguimiento denulls
por separado comonumber_of_missing_values
.
- Métrica: se calculan las siguientes métricas:
Tema principal: Introducción a la supervisión de datos
7.3 Historial de Vistas
La página Historial muestra los detalles de tiempo de ejecución de los supervisores de datos.
Seleccione un supervisor de datos y haga clic en Historial para ver los detalles del tiempo de ejecución. La página de historial muestra la siguiente información sobre el tiempo de ejecución del supervisor de datos:
Figura 7-16 Historial de Supervisión de Datos, página
- Fecha de inicio real: fecha en la que se inició realmente la supervisión de datos.
- Fecha de inicio solicitada: es la fecha introducida en el campo
Start Date
al crear la supervisión de datos. - Estado: los estados son
SUCCEEDED
yFAILED
. - Detalle: si falla un supervisor de datos, los detalles se muestran aquí.
- Duración: tiempo que se tarda en ejecutar la supervisión de datos.
Haga clic en Volver a supervisiones para volver a la página Supervisión de datos.
Tema principal: Introducción a la supervisión de datos