Requisiti e preparazione dati

L'algoritmo oracle MSET è in grado di rilevare i primi sintomi di un errore, come anomalie di temperatura e modifiche nei profili di vibrazione.

Per rilevare efficacemente i sintomi iniziali, il profilo dati deve soddisfare determinati criteri. I criteri vengono spiegati più dettagliatamente in seguito, ma brevemente le letture dei sensori devono essere sequenziali. Gli indicatori orari non sono essenziali, ma le letture dei sensori devono essere in ordine cronologico rigoroso e devono essere tutti numerici. Inoltre, i dati di addestramento devono consistere in letture di sensori prive di anomalie e che rientrano nei normali parametri operativi.

I requisiti indicano che potrebbe essere necessario elaborare i dati di tipo RAW dai sensori prima di inserirli nel modello di rilevamento dell'anomalia.

Requisiti del servizio

Per ottenere risultati validi dal servizio, è necessario preparare dati di formazione e test adeguati.

I dati di formazione e test devono contenere solo indicatori orari e altri attributi numerici. I dati sono generalmente tratti da letture di sensori e segnali. I campi di categoria non sono supportati nella versione corrente.

A un livello elevato, il servizio prevede tre importanti requisiti di qualità dei dati per i dati di formazione:

  • I dati di formazione dovrebbero essere privi di anomalie e privi di valori anomali. Esso dovrebbe contenere osservazioni solo da condizioni operative normali.
  • I dati relativi alla formazione devono coprire tutti gli scenari aziendali normali che contengono gli intervalli di valori completi su tutti gli attributi.
  • Gli attributi nei dati devono essere ben correlati o appartenere allo stesso sistema o allo stesso asset. Si consiglia di formare modelli separati se gli attributi provengono da sistemi diversi.

I dati di rilevamento devono avere gli stessi attributi dei dati di formazione. Inoltre, deve provenire dallo stesso sistema o asset dei dati di formazione. I dati di rilevamento possono avere datapoint di anomalia.

Qualità dati

I dati di addestramento e test dei modelli devono rappresentare i valori di più attributi, quali segnali e sensori, registrati in ordine cronologico.

Per creare un modello di alta qualità, assicurarsi che i dati nel set di formazione siano conformi al seguente elenco di requisiti.

Indicatori orari
Una colonna di indicatore orario è facoltativa. Tuttavia, se presente, deve essere la prima colonna della tabella.
  • La colonna indicatore orario deve avere l'etichetta "indicatore orario", tutte lettere minuscole senza spazi.
  • Gli indicatori orari devono essere ordinati in ordine crescente.
  • Non devono essere presenti indicatori orari duplicati.
  • Gli indicatori orari possono avere frequenza variabile. Ad esempio, 50 osservazioni in un'ora e 200 nell'ora successiva.
  • Se non è presente alcuna colonna con indicatore orario, si presume che i dati vengano ordinati in sequenza in base all'ora.
Attributi
Ogni riga di dati è un'osservazione singola in corrispondenza dell'indicatore orario specificato.
  • Il valore dell'attributo deve essere numerico. Per i valori booleani, utilizzare 1 per True e 0 per False.
  • I valori mancanti sono rappresentati da null nei file JSON e da un campo vuoto nei file CSV.
  • Ogni riga deve avere almeno un attributo non mancante. In altre parole, non è possibile disporre di una riga che sia solo l'indicatore orario.
  • I dati devono avere almeno tre attributi altamente correlati.
  • Ogni nome attributo deve essere univoco.
  • Il numero di attributi non deve essere superiore a 300.
Formazione
Per determinare il numero di righe che è necessario includere nel set di formazione, moltiplicare il numero di attributi per otto. Il set di formazione deve contenere almeno 40 righe.
Ad esempio, se si dispone di 100 sensori, il numero di righe è 8000. Se hai solo 4 sensori, il numero di righe è 40.
Detection
Quando si utilizza l'elaborazione batch, il numero massimo di datapoint nel batch è 30.000. Il numero di datapoint è il numero di segnali moltiplicato per il numero di righe.
Ad esempio, se si dispone di 50 sensori, un massimo di 30.000/50 = 600 righe sono consentite in un singolo batch.
Altre considerazioni
Se uno o più attributi vengono aggiunti in un momento successivo, il modello deve essere rielaborato con i nuovi attributi nel set di formazione.
Durante l'allenamento, gli attributi che sono determinati per essere un segnale piatto, i segnali monotonici, i bassi segnali correlati o i segnali duplicati vengono automaticamente eliminati dal servizio di rilevamento anomalie. L'attributo eliminato può essere presente nei dati di rilevamento, ma verrà ignorato.

Schema dati

Il servizio di rilevamento anomalie accetta due formati di dati: CSV e JSON.

Per i file CSV, ogni colonna rappresenta i dati dei sensori. Ogni riga rappresenta i valori corrispondenti a ciascun sensore in un determinato momento.

I valori dell'indicatore orario devono essere in formato ISO 8601. Utilizzare il più preciso possibile per evitare duplicati nei dati di formazione.

I dati in formato CSV devono avere righe separate da virgole, con la prima riga come intestazione e altre righe come dati. La prima colonna è la colonna di indicatore orario. Di seguito è riportato un esempio di dati in formato CSV:

timestamp,sensor1,sensor2,sensor3,sensor4,sensor5
2020-07-13T14:03:46Z,,0.6459,-0.0016,-0.6792,0
2020-07-13T14:04:46Z,0.1756,-0.5364,-0.1524,-0.6792,1
2020-07-13T14:05:46Z,0.4132,-0.029,,0.679,0

Nota:

Il file CSV non deve avere righe vuote, inclusa l'ultima riga.

Di seguito sono riportati gli stessi dati, ad eccezione del formato JSON:

{
    "requestType": "INLINE",
    "signalNames": ["sensor1", "sensor2", "sensor3", "sensor4", "sensor5"],
    "data": [{
            "timestamp": "2020-07-13T14:03:46Z",
            "values": [null, 0.6459, -0.0016, -0.6792, 0]
        },
        {
            "timestamp": "2020-07-13T14:04:46Z",
            "values": [0.1756, -0.5364, -0.1524, -0.6792, 1]
        },
        {
            "timestamp": "2020-07-13T14:05:46Z",
            "values": [0.4132, -0.029, null, 0.679, 0]
        }
    ]
}