Anforderungen und Datenvorbereitung

Der oracle MSET-Algorithmus kann Frühsymptome von Ausfällen wie Temperaturanomalien und Schwingungsprofiländerungen erkennen.

Um die Frühsymptome wirksam zu erkennen, muss das Datenprofil bestimmten Kriterien entsprechen. Die Kriterien werden später näher erläutert, aber kurzzeitig müssen die Sensorwerte sequentiell sein. Zeitstempel sind nicht wesentlich, aber die Sensorwerte müssen in strikter chronologischer Reihenfolge und numerisch sein. Außerdem sollten die Trainingsdaten aus Sensorwerten bestehen, die frei von Anomalien sind und innerhalb normaler Betriebsparameter liegen.

Die Anforderungen bedeuten, dass Sie die Rohdaten der Sensoren verarbeiten müssen, bevor Sie sie in das Anomalieerkennungsmodell einspeisen.

Serviceanforderungen

Um gültige Ergebnisse aus dem Service zu erhalten, müssen Sie geeignete Schulungs- und Testdaten vorbereiten.

Die Schulungs- und Testdaten dürfen nur Zeitstempel und andere numerische Attribute enthalten. Die Daten stammen typischerweise aus Sensor- und Signalmesswerten. Kategorische Felder werden in der aktuellen Version nicht unterstützt.

Auf hoher Ebene verfügt der Service über drei wesentliche Datenqualitätsanforderungen für die Trainingsdaten:

  • Die Trainingsdaten sollten anomaliefrei und ohne Ausreißer sein. Sie sollte nur Beobachtungen aus normalen Betriebsbedingungen enthalten.
  • Die Weiterbildungsdaten sollten alle normalen Geschäftsszenarien abdecken, die alle Wertebereiche aller Attribute enthalten.
  • Die Attribute in den Daten müssen gut verknüpft sein oder zum selben System oder Asset gehören. Es wird empfohlen, separate Modelle zu trainieren, wenn die Attribute von verschiedenen Systemen stammen.

Die Erkennungsdaten müssen dieselben Attribute wie die Schulungsdaten aufweisen. Außerdem sollte sie aus demselben System oder Asset stammen wie die Schulungsdaten. Die Erkennungsdaten können Anomaliedatenpunkte aufweisen.

Datenqualität

Modellschulungs- und Testdaten müssen Werte aus mehreren Attributen, wie Signalen und Sensoren, darstellen, die in chronologischer Reihenfolge erfasst werden.

Um ein hochwertiges Modell zu erstellen, stellen Sie sicher, dass die Daten in Ihrem Schulungsset der folgenden Anforderungsliste entsprechen.

Zeitstempel
Eine Zeitstempelspalte ist optional. Falls vorhanden, muss es sich jedoch um die erste Spalte in der Tabelle handeln.
  • Die Zeitstempelspalte muss das Label "Timestamp" enthalten, in Kleinbuchstaben ohne Leerzeichen.
  • Die Zeitstempel müssen in aufsteigender Reihenfolge sortiert werden.
  • Es dürfen keine doppelten Zeitstempel vorhanden sein.
  • Die Zeitstempel können eine variable Häufigkeit aufweisen. Beispiel: 50 Beobachtungen in einer Stunde und 200 Beobachtungen in der nächsten Stunde.
  • Wenn keine Zeitstempelspalte vorhanden ist, wird davon ausgegangen, dass die Daten nach Zeit sequenziell sortiert werden.
Attribute
Jeder Datensatz ist eine einzelne Beobachtung am angegebenen Zeitstempel.
  • Der Attributwert muss numerisch sein. Für Boolesche Werte verwenden Sie 1 für True und 0 für False.
  • Fehlende Werte werden in JSON-Dateien durch null und in CSV-Dateien durch ein leeres Feld dargestellt.
  • Jede Zeile muss mindestens ein Attribut aufweisen, das nicht fehlt. Das heißt, Sie können keine Zeile haben, die nur der Zeitstempel ist.
  • Die Daten müssen mindestens drei hoch korrelierte Attribute aufweisen.
  • Jeder Attributname muss eindeutig sein.
  • Die Anzahl der Attribute darf nicht größer als 300 sein.
Schulung
Um die Anzahl der Datensätze zu bestimmen, die im Weiterbildungsset enthalten sein sollen, multiplizieren Sie die Anzahl der Attribute mit acht. Die Weiterbildungsgruppe muss mindestens 40 Datensätze enthalten.
Wenn Sie beispielsweise 100 Sensoren haben, beträgt die Anzahl der Zeilen 8000. Wenn Sie nur 4 Sensoren haben, beträgt die Anzahl der Zeilen 40.
Detektion
Bei der Batch-Verarbeitung beträgt die maximale Anzahl der Datenpunkte im Batch 30.000. Die Anzahl der Datenpunkte ist die Anzahl der Signale multipliziert mit der Anzahl der Zeilen.
Beispiel: Wenn Sie über 50 Sensoren verfügen, sind maximal 30.000/50 = 600 Zeilen in einem Batch zulässig.
Weitere Aspekte
Wenn ein oder mehrere Attribute zu einem späteren Zeitpunkt hinzugefügt werden, muss das Modell mit den neuen Attributen im Trainingsset neu trainiert werden.
Während der Schulung werden Attribute, die als flache Signale, monotonische Signale, niedrige korrelierte Signale oder doppelte Signale bestimmt werden, automatisch von Anomaly Detection Service verworfen. Das gelöschte Attribut kann in den Erkennungsdaten vorhanden sein, wird jedoch ignoriert.

Datenschema

Anomalieerkennung Service akzeptiert zwei Datenformate: CSV und JSON.

Bei CSV-Dateien stellt jede Spalte Sensordaten dar. Jede Zeile stellt die den einzelnen Sensoren zu einem bestimmten Zeitpunkt entsprechenden Werte dar.

Zeitstempelwerte müssen im ISO 8601-Format vorliegen. Verwenden Sie so präzise wie möglich, um Duplikate in den Weiterbildungsdaten zu vermeiden.

CSV-formatierte Daten müssen durch Komma getrennte Zeilen aufweisen, wobei die erste Zeile als Header und andere Zeilen als Daten verwendet werden. Die erste Spalte ist die Zeitstempelspalte. Im Folgenden finden Sie ein Beispiel für Daten im CSV-Format:

timestamp,sensor1,sensor2,sensor3,sensor4,sensor5
2020-07-13T14:03:46Z,,0.6459,-0.0016,-0.6792,0
2020-07-13T14:04:46Z,0.1756,-0.5364,-0.1524,-0.6792,1
2020-07-13T14:05:46Z,0.4132,-0.029,,0.679,0

Hinweis:

Die CSV-Datei darf keine leeren Zeilen einschließlich der letzten Zeile enthalten.

Dies sind dieselben Daten, außer im JSON-Format:

{
    "requestType": "INLINE",
    "signalNames": ["sensor1", "sensor2", "sensor3", "sensor4", "sensor5"],
    "data": [{
            "timestamp": "2020-07-13T14:03:46Z",
            "values": [null, 0.6459, -0.0016, -0.6792, 0]
        },
        {
            "timestamp": "2020-07-13T14:04:46Z",
            "values": [0.1756, -0.5364, -0.1524, -0.6792, 1]
        },
        {
            "timestamp": "2020-07-13T14:05:46Z",
            "values": [0.4132, -0.029, null, 0.679, 0]
        }
    ]
}