Algoritmos de detección de anomalías

Anomaly Detection utiliza algoritmos de aprendizaje automático para conocer los patrones y detectar anomalías de un conjunto de datos.

Los algoritmos univariantes son los que funcionan con una sola señal o sensor. Normalmente, estos algoritmos construyen un modelo por señal que se utilizan para identificar anomalías en el sensor o la señal. Utilice el servicio Anomaly Detection para entrenar un único modelo para varias señales dentro de un conjunto de datos gestionando la asignación del sensor o la señal al modelo internamente.

Por defecto, el entrenamiento de modelo se realiza mediante algoritmos univariados. Sin embargo, puede sustituir este comportamiento mediante la API de detección de anomalías.

Algoritmo univariante

Anomaly Detection le ayuda a identificar anomalías en un conjunto de datos univariado.

Los datos de entrenamiento y prueba solo pueden contener registros de hora y otros atributos numéricos que normalmente representan lecturas de sensores o señales.

Gráfico en el que se muestran los niveles de azúcar en sangre durante un período de tiempo, incluidos los registros de hora
  • Tipos de patrones de series temporales univariables que Anomaly Detection puede identificar con precisión:

    • Patrones Estacionales

    • Tendencia plana

    • Conjuntos de datos de tendencias lineales en constante aumento y disminución

  • Tipos de anomalías que Anomaly Detection puede identificar con precisión:

    • Anomalías de puntos

    • Spike

El algoritmo univariante crea un modelo por señal, y es uno de los mejores algoritmos clásicos de ML. Las señales consideradas como correlaciones bajas por MSET2 se tratan automáticamente como univariantes utilizando este algoritmo.

El algoritmo univariante no es independiente y utiliza la API basada en multivariante existente con el mismo formato de entrada de datos. El modelo de una variable para cada señal de una variable se crea, optimiza y se guarda independientemente. Además, los modelos se utilizan para inferir por separado.

Capacidad

Detecta anomalías en una señal considerando sus patrones de series temporales y trabaja en anomalías puntiagudas o contextuales.

Requisitos
  • El conjunto de datos de detección puede tener puntos de datos anómalos.

  • Juego de datos de entrenamiento e inferencias que contiene solo valores numéricos. No están soportados los valores categóricos o nominales.
  • El algoritmo utiliza un enfoque de ingeniería de funciones basado en ventanas. Se necesita un tamaño de una ventana adicional de datos antes del entrenamiento real o la detección de datos para conocer los patrones o las anomalías de detección. El número total mínimo de registros de hora es 80.
  • Todos los diferentes escenarios de negocio normales se incluyen en el juego de datos de entrenamiento. Por ejemplo, al menos un ciclo de negocio en la parte de entrenamiento.
Casos de uso

Los casos de uso de detección de anomalías univariante se encuentran en todos los sectores. Las señales univariantes no están correlacionadas con otras señales y tienen que ser supervisadas individualmente.

Restricciones
  • El algoritmo solo trata una señal a la vez, por lo que no se abordan las anomalías colectivas entre múltiples señales.
  • El algoritmo univariante no es independiente y utiliza la API basada en multivariante existente con el mismo formato de entrada de datos.

Algoritmo multivariante

El algoritmo mulitvariante le ayuda a identificar anomalías en un conjunto de datos multivariante.

Anomaly Detection analiza automáticamente el conjunto de datos para crear modelos o señales de aprendizaje automático multivariante considerando sus correlaciones entre ellos. Anomaly Detection ayuda a supervisar sistemas complejos con un gran número de señales.

Gráfico de sensores que muestra la advertencia temprana que MSET-2 proporciona en la detección de anomalías.

El servicio Anomaly Detection utiliza MSET2 como núcleo principal para detectar anomalías de series temporales multivariantes de los juegos de datos. MSET2 permite tres técnicas:

  • Técnica de estimación de estado multivariante (MSET)

  • Prueba de ratio de probabilidad secuencial (SPRT)

  • Procesamiento de datos inteligente (IDP)

Todas estas técnicas se han inventado en Oracle Labs. El algoritmo MSET2 se utiliza correctamente en varios sectores para el análisis de pronóstico.

Capacidad

Funciona para detectar anomalías puntiagudas, contextuales y colectivas en conjuntos de datos multivariantes con señales numéricas altamente correlacionadas. Puede manejar un juego de datos con un nivel moderado de valores que faltan y proporciona valores estimados.

Requisitos
  • El juego de datos de entrenamiento e inferencias solo puede contener valores numéricos. No están soportados los valores categóricos o nominales.
  • Las correlaciones entre señales son relativamente altas. Por ejemplo, la correlación de Pearson media por pares entre una señal y el resto de señales no es menor que 0,1. El núcleo excluye señales con correlaciones más bajas y las trata con modelado de una variable.
  • El juego de datos de entrenamiento no debe contener anomalías. Por ejemplo, el juego de datos contiene escenarios de negocio normales y valores de datos sin eventos de anomalías raras.
  • Todos los diferentes escenarios de negocio normales se incluyen en el juego de datos de entrenamiento. Por ejemplo, al menos un ciclo de negocio en la parte de entrenamiento. La falta de algunos patrones de negocio normales puede provocar falsos positivos durante la inferencia.
Casos de uso

Los casos de uso típicos de MSET2 están en las industrias de fabricación, IoT, transporte, petróleo y gas, energía porque los datos provienen de un sistema de señales o activo con señales bien correlacionadas.

Restricciones

Los casos de uso con juegos de datos que no sean numéricos, altamente correlacionados o que no estén basados en series temporales no deben utilizar MSET2 para detectar anomalías.