Algoritmos do Serviço Anomaly Detection

O serviço Anomaly Detection usa algoritmos de aprendizado de máquina (ML) para aprender os padrões e detectar anomalias de um conjunto de dados.

Algoritmos univariados são aqueles que funcionam com apenas um sinal ou sensor. Normalmente, esses algoritmos criam um modelo por sinal que é usado para identificar anomalias no sensor ou sinal. Use o serviço Anomaly Detection para treinar um único modelo para vários sinais dentro de um conjunto de dados gerenciando o mapeamento do sensor ou do sinal para modelar internamente.

Por padrão, o treinamento de modelo acontece usando algoritmos univariados. No entanto, você pode substituir esse comportamento usando a API do serviço Anomaly Detection.

Algoritmo Univariado

O serviço Anomaly Detection ajuda a identificar anomalias em um conjunto de dados univariado.

Os dados de treinamento e teste podem conter timestamps e outros atributos numéricos que geralmente representam leituras de sensor ou sinal.

gráfico mostrando os níveis de açúcar no sangue durante um período de tempo, incluindo os timestamps
  • Tipos de padrões de séries temporais univariados que o serviço Anomaly Detection pode identificar com precisão:

    • Padrões sazonais

    • Tendência uniforme

    • Conjuntos de dados de tendência linear de aumento e redução contínuos

  • Tipos de anomalias que o serviço Anomaly Detection pode identificar com precisão:

    • Anomalias pontuais

    • Pico

O algoritmo univariado cria um modelo por sinal e é um dos melhores algoritmos de ML clássicos. Os sinais considerados como correlações baixas por MSET2 são tratados automaticamente como univariados usando esse algoritmo.

O algoritmo univariado não é independente e usa a API baseada em multivariáveis existente com o mesmo formato de entrada de dados. O modelo univariado para cada sinal univariado é construído, otimizado e salvo de forma independente. Além disso, os modelos são usados para inferir separadamente.

Capacidade

Ele detecta anomalias em um sinal considerando seus padrões de série temporal e funciona em anomalias pontuais ou contextuais.

Requisitos
  • O conjunto de dados de detecção pode ter pontos de dados anômalos.

  • O conjunto de dados de treinamento e dedução que contém somente valores numéricos. Não há suporte para valores categóricos ou nominais.
  • O algoritmo usa uma abordagem de engenharia de recursos baseada em janela. Ele exige um tamanho de janela extra de dados antes do treinamento real ou da detecção de dados para aprender os padrões ou as anomalias de detecção. O número mínimo total de timestamps é 80.
  • Todos os diversos cenários de negócios normais são incluídos no conjunto de dados de treinamento. Por exemplo, pelo menos um ciclo de negócios na parte de treinamento.
Casos de Uso

Casos de uso de detecção de anomalias univariadas são encontrados em todos os setores. Sinais univariados não estão correlacionados com outros sinais e precisam ser monitorados individualmente.

restrições
  • O algoritmo trata apenas um sinal de cada vez para que as anomalias coletivas entre vários sinais não sejam tratadas.
  • O algoritmo univariado não é independente e usa a API baseada em multivariáveis existente com o mesmo formato de entrada de dados.

Algoritmo Multivariado

O algoritmo mulitvariate ajuda a identificar anomalias em um conjunto de dados multivariado.

O serviço Anomaly Detection analisa automaticamente o conjunto de dados para criar modelos ou sinais de aprendizado de máquina multivariados, considerando suas correlações entre eles. O serviço Anomaly Detection ajuda você a monitorar sistemas complexos com um grande número de sinais.

Um gráfico de sensores que mostra a advertência antecipada MSET-2 fornece detecção de anomalias.

O serviço Anomaly Detection usa MSET2 como o kernel principal para detectar anomalias de séries temporais multivariadas de conjuntos de dados. A sigla MSET2 significa três técnicas:

  • Técnica de Estimativa de Estado Multivariada (MSET)

  • Teste do Índice de Probabilidade Sequencial (SPRT)

  • Processamento Inteligente de Dados (IDP)

Todas essas técnicas foram inventadas pelos Oracle Labs. O algoritmo MSET2 é usado com sucesso em vários setores para análise de prognóstico.

Capacidade

Ele trabalha para detectar anomalias pontuais, contextuais e coletivas em conjuntos de dados multivariados com sinais numéricos altamente correlacionados. Ele pode lidar com um conjunto de dados com um nível moderado de valores ausentes e fornece valores estimados.

Requisitos
  • O conjunto de dados de treinamento e dedução pode conter valores numéricos. Não há suporte para valores categóricos ou nominais.
  • As correlações entre sinais são relativamente altas. Por exemplo, a correlação média de Pearson par a par entre um sinal e o restante dos sinais não é inferior a 0,1. O kernel exclui sinais com correlações mais baixas e os trata com modelagem univariada.
  • O conjunto de dados de treinamento deve estar livre de anomalias. Por exemplo, o conjunto de dados contém cenários de negócios normais e valores de dados sem eventos de anomalia raros.
  • Todos os diversos cenários de negócios normais são incluídos no conjunto de dados de treinamento. Por exemplo, pelo menos um ciclo de negócios na parte de treinamento. A ausência de alguns padrões de negócios normais pode levar a falsos positivos durante a dedução.
Casos de Uso

Os casos de uso típicos do MSET2 estão nos setores de manufatura, IoT, transporte, petróleo e gás, energia porque os dados são de um sistema de sinal ou ativo com sinais bem correlacionados.

restrições

Casos de uso com conjuntos de dados que não são numéricos, altamente correlacionados ou não são baseados em séries temporais não devem usar MSET2 para detectar anomalias.