Exigences et préparation des données
L'algorithme MSET oracle peut détecter les premiers symptômes de défaillance, tels que les anomalies de température et les changements de profils de vibrations.
Pour détecter efficacement les symptômes précoces, le profil de données doit répondre à certains critères. Les critères sont expliqués plus en détail ultérieurement, mais brièvement, les lectures des capteurs doivent être séquentielles. Les horodatages ne sont pas essentiels, mais les lectures des capteurs doivent être dans un ordre chronologique strict et doivent toutes être numériques. En outre, les données d'entraînement doivent se composer de lectures de capteurs exemptes d'anomalies et conformes aux paramètres de fonctionnement normaux.
Les exigences signifient que vous devrez peut-être traiter les données brutes des capteurs avant de les insérer dans le modèle de détection d'anomalies.
Exigences de service
Pour obtenir des résultats valides à partir du service, vous devez préparer les données de formation et de test appropriées.
Les données de formation et de test ne doivent contenir que des horodatages et d'autres attributs numériques. Les données proviennent généralement de lectures de capteurs et de signaux. Les champs de catégorie ne sont pas pris en charge dans la version actuelle.
A un niveau élevé, le service a trois exigences majeures en matière de qualité des données de formation :
- Les données d'entraînement doivent être exemptes d'anomalies et sans valeurs aberrantes. Il ne doit contenir que des observations provenant de conditions de fonctionnement normales.
- Les données de formation doivent couvrir tous les scénarios commerciaux normaux contenant les fourchettes de valeurs complètes sur tous les attributs.
- Les attributs des données doivent être bien liés ou appartenir au même système ou au même actif. Nous vous recommandons d'entraîner des modèles distincts si les attributs proviennent de systèmes différents.
Les données de détection doivent avoir les mêmes attributs que les données d'entraînement. En outre, il doit provenir du même système ou équipement que les données de formation. Les données de détection peuvent avoir des points de données d'anomalie.
Qualité des données
Les données d'entraînement et de test des modèles doivent représenter des valeurs provenant de plusieurs attributs, tels que des signaux et des capteurs, enregistrés dans un ordre chronologique.
Pour créer un modèle de haute qualité, assurez-vous que les données de votre jeu de formation sont conformes à la liste d'exigences suivante.
- Timestampes
- Une colonne d'horodatage est facultative. Toutefois, s'il est présent, il doit s'agir de la première colonne de la table.
- La colonne d'horodatage doit avoir le libellé "horodatage", tous en minuscules sans espace.
- Les horodatages doivent être triés par ordre croissant.
- Il ne doit pas y avoir d'horodatage en double.
- Les horodatages peuvent avoir une fréquence variable. Par exemple, 50 observations en une heure et 200 observations à l'heure suivante.
- En l'absence de colonne d'horodatage, les données sont supposées être triées séquentiellement par heure.
- Attributs
- Chaque ligne de données est une seule observation à l'horodatage donné.
- La valeur de l'attribut doit être numérique. Pour les valeurs booléennes, utilisez 1 pour True et 0 pour False.
- Les valeurs manquantes sont représentées par
null
dans les fichiers JSON et par un champ vide dans les fichiers CSV. - Chaque ligne doit avoir au moins un attribut qui n'est pas manquant. Autrement dit, vous ne pouvez pas avoir de ligne correspondant uniquement à l'horodatage.
- Les données doivent avoir au moins trois attributs fortement corrélés.
- Chaque nom d'attribut doit être unique.
- Le nombre d'attributs ne doit pas dépasser 300.
- Formation
- Pour déterminer le nombre de lignes que vous devez avoir dans le jeu de formations, multipliez le nombre d'attributs par huit. Vous devez avoir au moins 40 lignes dans le groupe de formation.
- Détection
- Lorsque vous utilisez le traitement par lots, le nombre maximum de points de données dans le lot est de 30 000. Le nombre de points de données est le nombre de signaux multiplié par le nombre de lignes.
- Autres remarques
- Si un ou plusieurs attributs sont ajoutés ultérieurement, le modèle doit faire l'objet d'une nouvelle formation avec les nouveaux attributs du jeu.
Schéma de données
Le service de détection d'anomalies accepte deux formats de données : CSV et JSON.
Pour les fichiers CSV, chaque colonne représente les données du capteur. Chaque ligne représente les valeurs correspondant à chaque capteur à un moment donné.
Les valeurs d'horodatage doivent être au format ISO 8601. Utilisez une durée aussi précise que possible pour éviter les doublons dans les données d'entraînement.
Les données au format CSV doivent comporter des lignes séparées par des virgules, la première ligne étant l'en-tête et les autres lignes en tant que données. La première colonne est la colonne d'horodatage. Voici un exemple de données au format CSV :
timestamp,sensor1,sensor2,sensor3,sensor4,sensor5
2020-07-13T14:03:46Z,,0.6459,-0.0016,-0.6792,0
2020-07-13T14:04:46Z,0.1756,-0.5364,-0.1524,-0.6792,1
2020-07-13T14:05:46Z,0.4132,-0.029,,0.679,0
Remarque :
Le fichier CSV ne doit comporter aucune ligne vide, y compris la dernière ligne.Voici les mêmes données, sauf au format JSON :
{
"requestType": "INLINE",
"signalNames": ["sensor1", "sensor2", "sensor3", "sensor4", "sensor5"],
"data": [{
"timestamp": "2020-07-13T14:03:46Z",
"values": [null, 0.6459, -0.0016, -0.6792, 0]
},
{
"timestamp": "2020-07-13T14:04:46Z",
"values": [0.1756, -0.5364, -0.1524, -0.6792, 1]
},
{
"timestamp": "2020-07-13T14:05:46Z",
"values": [0.4132, -0.029, null, 0.679, 0]
}
]
}