Requisitos y preparación de datos

El algoritmo oracle MSET puede detectar síntomas tempranos de fallo, como anomalías de temperatura y cambios en los perfiles de vibración.

Para detectar eficazmente los síntomas tempranos, el perfil de datos debe cumplir ciertos criterios. Los criterios se explican con mayor detalle más adelante, pero brevemente, las lecturas del sensor deben ser secuenciales. Los registros de hora no son esenciales, pero las lecturas del sensor deben estar en orden cronológico estricto y deben ser numéricas. Además, los datos de entrenamiento deben estar formados por lecturas de sensores libres de anomalías y que estén dentro de los parámetros normales de funcionamiento.

Los requisitos significan que es posible que necesite procesar los datos no procesados de los sensores antes de introducirlos en el modelo de detección de anomalías.

Requisitos de servicio

Para obtener resultados válidos del servicio, debe preparar la formación adecuada y los datos de prueba.

Los datos de formación y prueba solo deben contener registros de hora y otros atributos numéricos. Los datos suelen proceder de lecturas de sensores y señales. Los campos categóricos no están soportados en la versión actual.

En un nivel alto, el servicio tiene tres requisitos importantes de calidad de los datos de formación:

  • Los datos de formación deben estar libres de anomalías y sin valores atípicos. Debe contener observaciones únicamente de las condiciones normales de funcionamiento.
  • Los datos de formación deben abarcar todos los escenarios de negocio normales que contengan rangos de valores completos en todos los atributos.
  • Los atributos de los datos deben estar bien relacionados o pertenecer al mismo sistema o activo. Recomendamos entrenar modelos independientes si los atributos proceden de diferentes sistemas.

Los datos de detección deben tener los mismos atributos que los datos de formación. Además, debe proceder del mismo sistema o activo que los datos de formación. Los datos de detección pueden tener puntos de datos anómalos.

Calidad de datos

Los datos de entrenamiento y pruebas de modelo deben representar valores de varios atributos, como señales y sensores, registrados en orden cronológico.

Para crear un modelo de alta calidad, asegúrese de que los datos del juego de formación cumplen con la siguiente lista de requisitos.

Registros de hora
Una columna de registro de hora es opcional. Sin embargo, si está presente, debe ser la primera columna de la tabla.
  • La columna de registro de hora debe tener la etiqueta "timestamp", todas en minúscula sin espacios.
  • Los registros de hora se deben ordenar en orden ascendente.
  • No debe haber registros de hora duplicados.
  • Los registros de hora pueden tener una frecuencia variable. Por ejemplo, 50 observaciones en una hora y 200 observaciones en la próxima hora.
  • Si no hay ninguna columna de registro de hora, se supone que los datos se ordenan secuencialmente por hora.
Atributos
Cada fila de datos es una única observación en el registro de hora especificado.
  • El valor del atributo debe ser numérico. Para valores booleanos, utilice 1 para Verdadero y 0 para Falso.
  • Los valores que faltan se representan mediante null en archivos JSON y por un campo vacío en archivos CSV.
  • Cada fila debe tener al menos un atributo que no falta. Es decir, no puede tener una fila que sea sólo el registro de hora.
  • Los datos deben tener al menos tres atributos muy correlacionados.
  • Cada nombre de atributo debe ser único.
  • El número de atributos no debe ser mayor que 300.
Formación
Para determinar el número de filas que debe tener en el conjunto de formación, multiplique el número de atributos por ocho. Debe tener un mínimo de 40 filas en el conjunto de formación.
Por ejemplo, si tiene 100 sensores, el número de filas es 8000. Si solo tiene 4 sensores, el número de filas es 40.
Detección
Cuando se utiliza el proceso en batch, el número máximo de puntos de datos del lote es de 30.000. El número de puntos de datos es el número de señales veces el número de filas.
Por ejemplo, si tiene 50 sensores, se permite un máximo de 30 000/50 = 600 filas en un solo lote.
Otras consideraciones
Si se agregan uno o más atributos en algún momento en el futuro, el modelo se debe volver a entrenar con los nuevos atributos en el juego de formación.
Durante el entrenamiento, los atributos que se determinan como señales planas, señales monotónicas, señales correlacionadas bajas o señales duplicadas son eliminados automáticamente por el servicio de detección de anomalías. El atributo borrado puede estar presente en los datos de detección, pero se ignorará.

Esquema de Datos

El servicio de detección de anomalías acepta dos formatos de datos: CSV y JSON.

Para los archivos CSV, cada columna representa los datos del sensor. Cada fila representa los valores correspondientes a cada sensor en un momento determinado.

Los valores de registro de hora deben estar en formato ISO 8601. Utilice el tiempo más preciso posible para evitar duplicados en los datos de formación.

Los datos con formato CSV deben tener líneas separadas por comas, con la primera línea como cabecera y otras líneas como datos. La primera columna es la columna de registro de hora. A continuación, se muestra un ejemplo de datos con formato CSV:

timestamp,sensor1,sensor2,sensor3,sensor4,sensor5
2020-07-13T14:03:46Z,,0.6459,-0.0016,-0.6792,0
2020-07-13T14:04:46Z,0.1756,-0.5364,-0.1524,-0.6792,1
2020-07-13T14:05:46Z,0.4132,-0.029,,0.679,0

Nota:

El archivo CSV no debe tener líneas en blanco, incluida la última línea.

Estos son los mismos datos, excepto en formato JSON:

{
    "requestType": "INLINE",
    "signalNames": ["sensor1", "sensor2", "sensor3", "sensor4", "sensor5"],
    "data": [{
            "timestamp": "2020-07-13T14:03:46Z",
            "values": [null, 0.6459, -0.0016, -0.6792, 0]
        },
        {
            "timestamp": "2020-07-13T14:04:46Z",
            "values": [0.1756, -0.5364, -0.1524, -0.6792, 1]
        },
        {
            "timestamp": "2020-07-13T14:05:46Z",
            "values": [0.4132, -0.029, null, 0.679, 0]
        }
    ]
}