7 Introduction à la surveillance des données
Data Monitoring évalue l'évolution de vos données au fil du temps. Il vous aide à obtenir des informations sur les tendances et les dépendances multivariées dans les données. Il vous donne également un avertissement précoce sur la dérive de données.
La dérive de données se produit lorsque les données divergent des données de référence initiales au fil du temps. La dérive de données peut survenir pour diverses raisons, comme un environnement d'affaires changeant, un comportement et des intérêts changeants des utilisateurs, des modifications de données provenant de sources de tiers, des problèmes de qualité des données ou des problèmes liés aux pipelines de traitement de données en amont.
La clé pour interpréter vos modèles avec précision et s'assurer que les modèles sont en mesure de résoudre les problèmes d'affaires est de comprendre comment les données évoluent au fil du temps. La surveillance des données est complémentaire à la surveillance réussie des modèles, car la compréhension des changements dans les données est essentielle pour comprendre les changements dans l'efficacité des modèles. La capacité de détecter rapidement et de manière fiable les changements dans les propriétés statistiques de vos données garantit que vos modèles d'apprentissage automatique sont en mesure de répondre aux objectifs d'affaires.
Figure 7-1 : Moniteurs de données
- Créer : Créez un moniteur de données.
Note :
Les types de données pris en charge pour la surveillance des données sont NUMERIC et CATEGORICAL. - Modifier : Sélectionnez un moniteur de données et cliquez sur Modifier pour modifier un moniteur de données.
- Dupliquer : Sélectionnez un moniteur de données et cliquez sur Dupliquer pour créer une copie du moniteur.
- Supprimer : Sélectionnez un moniteur de données et cliquez sur Supprimer pour supprimer un moniteur de données.
- Historique : Sélectionnez un moniteur de données et cliquez sur Historique pour voir les détails de l'exécution. Cliquez sur Retour aux moniteurs pour retourner à la page Surveillance des données.
- Démarrer : Démarrez un moniteur de données.
- Arrêter : Arrêtez un moniteur de données en cours d'exécution.
- Plus : Cliquez sur Plus pour obtenir des options supplémentaires afin de :
Figure 7-2 Option supplémentaire sous Moniteurs de données
- Activer : Sélectionnez un moniteur de données et cliquez sur Activer pour activer un moniteur désactivé. Par défaut, un moniteur de données est activé. Le statut est
SCHEDULED
. - Désactiver : Sélectionnez un moniteur de données et cliquez sur Désactiver pour désactiver un moniteur de données. Le statut est
DISABLED
. - Afficher les moniteurs gérés : Cliquez sur cette option pour voir les moniteurs de données créés et gérés par l'API REST des services OML et les moniteurs de modèle dans l'interface utilisateur d'Oracle Machine Learning. Les moniteurs de données gérés par ces deux composants ont un nom généré par le système et sont indiqués par des icônes spécifiques par rapport à leur nom.
- Cliquez sur l'icône de lien correspondant au nom d'un moniteur de données géré pour voir les détails du moniteur de modèles associé. Les détails du moniteur de modèles associés s'affichent dans un volet distinct qui s'affiche. Le panneau déroulant affiche le nom du moniteur de modèles avec des liens permettant d'afficher les résultats et les paramètres du moniteur de modèles. Cliquer sur l'icône de lien affiche également les détails de la dérive de données dans le volet inférieur de la page Moniteurs de données. Cliquez sur le X en haut à gauche pour fermer le volet.
Figure 7-3 Page Moniteurs de données affichant les résultats et paramètres du moniteur de modèle associé
Dans cet exemple, le volet du diaporama affiche les détails de la consommation d'énergie du moniteur de modèle. Dans le volet du diaporama :
- Cliquez sur Résultats de la surveillance de modèle pour voir les résultats calculés par le moniteur de modèle - paramètres, modèles, dérive de modèle, mesures et statistiques de prédiction. Cliquez sur Moniteurs pour retourner à la page Moniteurs de données. Voir Voir les résultats du moniteur de modèles.
- Cliquez sur Paramètres du moniteur de modèle pour voir et modifier les paramètres, les détails et les modèles surveillés par le moniteur de modèle dans la page Modifier le moniteur de modèle. Cliquez sur Annuler pour retourner à la page Moniteurs de données. Cliquez sur Enregistrer pour enregistrer les modifications.
- Cochez la case correspondant au nom du moniteur de données pour afficher les valeurs de dérive de données dans le volet inférieur.
Figure 7-4 Sélectionner un moniteur de données géré
- Cliquez sur le nom du moniteur de données pour voir les détails du moniteur de données - paramètres, valeurs de dérive de données et fonctions surveillées.
Figure 7-5 Clic sur le moniteur de données
- Cliquez sur l'icône de lien correspondant au nom d'un moniteur de données géré pour voir les détails du moniteur de modèles associé. Les détails du moniteur de modèles associés s'affichent dans un volet distinct qui s'affiche. Le panneau déroulant affiche le nom du moniteur de modèles avec des liens permettant d'afficher les résultats et les paramètres du moniteur de modèles. Cliquer sur l'icône de lien affiche également les détails de la dérive de données dans le volet inférieur de la page Moniteurs de données. Cliquez sur le X en haut à gauche pour fermer le volet.
- Activer : Sélectionnez un moniteur de données et cliquez sur Activer pour activer un moniteur désactivé. Par défaut, un moniteur de données est activé. Le statut est
La page Moniteurs de données affiche les informations sur le moniteur sélectionné : nom du moniteur, données de référence, nouvelles données, date de début, statut, données de prochaine exécution, statut et calendrier. La page affiche également la dérive de données, si le moniteur de données a été exécuté avec succès. Pour voir la dérive de données :
Figure 7-6 Aperçu de la dérive de données sur la page Moniteurs de données
Sélectionnez un moniteur de données exécuté avec succès, comme illustré dans la capture d'écran. Dans le volet inférieur, la dérive de données du moniteur sélectionné s'affiche. L'axe des X représente la période d'analyse et l'axe des Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil, et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour voir les valeurs de dérive. Pour plus d'informations sur cet exemple, voir Voir les résultats du moniteur de données.
- Créer un moniteur de données
La surveillance des données vous permet de détecter la dérive de données au fil du temps et l'incidence potentiellement négative sur la performance de vos modèles d'apprentissage automatique. Dans la page Data Monitor, vous pouvez créer, exécuter et suivre des moniteurs de données et les résultats. - Voir les résultats du moniteur de données
La page Résultats du moniteur de données affiche les informations sur le moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonction surveillée. - Voir l'historique
La page Historique affiche les détails d'exécution des moniteurs de données.
Rubriques connexes
7.1 Créer un moniteur de données
La surveillance de données vous permet de détecter la dérive de données au fil du temps et l'incidence potentiellement négative sur la performance de vos modèles d'apprentissage automatique. Dans la page Data Monitor, vous pouvez créer, exécuter et suivre des moniteurs de données et les résultats.
Sujet parent : Inémarrer avec le service de surveillance de données
7.2 Voir les résultats du moniteur de données
La page Résultats du moniteur de données affiche les informations du moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonction surveillée.
- Paramètres - La section Paramètres affiche les paramètres du moniteur de données. Cliquez sur la flèche sur Paramètres pour développer cette section. Vous pouvez modifier les paramètres du moniteur de données en cliquant sur Modifier dans le coin supérieur droit de la page. Dans cette capture d'écran, les paramètres de la consommation de puissance du moniteur de données sont affichés.
Figure 7-10 Section Paramètres de la page Résultats du moniteur de données
- Dérive - La section Dérive affiche les détails de la dérive de données pour chaque fonction surveillée. Dans cet exemple, le moniteur de données Consommation électrique du moniteur de données est sélectionné. L'axe des X représente la période d'analyse et l'axe des Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil, et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour voir les valeurs de dérive.
Figure 7-11 Section Data Drift (Dérive de données) dans la page Data Monitor Results (Résultats du moniteur
-
Fonctions - La section Caractéristiques affiche les fonctions surveillées ainsi que les statistiques calculées.
Figure 7-12 Section Fonctions de la page Résultats du moniteur de données
La valeur de la colonne Importance indique l'incidence de la fonction sur la dérive de données au cours d'une période spécifiée.
Pour les données numériques, les statistiques suivantes sont calculées :- Mean
- Écart-type
- Intervalle (Minimum, Maximum)
- Nombre de valeurs nulles
Pour les données catégorielles, les statistiques suivantes sont calculées :- Nombre de valeurs uniques
- Nombre de valeurs nulles
Pour chaque fonction surveillée, pointez la souris pour afficher les détails supplémentaires suivants, comme indiqué dans la capture d'écran ici.
- Premièrement : Il s'agit de la première valeur des statistiques calculées pour la période d'analyse.
- Last : Il s'agit de la dernière valeur des statistiques calculées pour la période d'analyse.
- Max : Valeur la plus élevée des statistiques calculées pour la période d'analyse.
- Min : Il s'agit de la valeur la plus faible des statistiques calculées pour la période d'analyse.
- Cliquez sur une fonction surveillée dans la section Fonctions pour voir la mesure, les statistiques, la distribution et la distribution avec colonne de tableau croisé, comme illustré dans la capture d'écran ici. Dans la capture d'écran ici, l'indice de stabilité de la population est affiché pour la fonction GLOBAL_REACTIVE_POWER.
Figure 7-13 Indice de stabilité de la population
Les calculs sont les suivants :- Mesure : Les mesures suivantes sont calculées :
- Indice de stabilité de la population (ISP) : Il s'agit d'une mesure de l'évolution d'une population au fil du temps ou entre deux échantillons différents d'une population en un seul nombre. Les deux répartitions sont subdivisées en intervalles et PSI compare les pourcentages d'articles de chacun des intervalles. PSI est calculé comme
L'interprétation de la valeur PSI est la suivante :PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
n'implique aucun changement de population significatif0.1 <= PSI < 0.2
implique un changement modéré de la populationPSI >= 0.2
implique un changement de population important
- Jenson Shannon Distance (JSD) : Il s'agit d'une mesure de la similitude entre deux distributions de probabilité. JSD est la racine carrée de la divergence Jensen-Shannon qui est liée à la divergence Kullbach-Leibler (KLD). JSD est calculé comme suit :
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
Où, P et Q sont les 2 distributions,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
La valeur de JSD est comprise entre 0 et 1.
- Indice de stabilité de la population du tableau croisé : Il s'agit de l'ISP pour deux variables.
- Distance de Jenson Shannon : Il s'agit du JSD pour deux variables.
- Indice de stabilité de la population (ISP) : Il s'agit d'une mesure de l'évolution d'une population au fil du temps ou entre deux échantillons différents d'une population en un seul nombre. Les deux répartitions sont subdivisées en intervalles et PSI compare les pourcentages d'articles de chacun des intervalles. PSI est calculé comme
- Statistiques : Vous pouvez voir les statistiques pour un maximum de 3 périodes sélectionnées. La dérive des données est quantifiée à l'aide de ces calculs statistiques.
Figure 7-14 Statistiques
Pour les données numériques, les statistiques suivantes sont calculées :- Mean
- Écart-type
- Intervalle (Minimum, Maximum)
- Nombre de valeurs nulles
Pour les données catégorielles, les statistiques suivantes sont calculées :- Nombre de valeurs uniques
- Nombre de valeurs nulles
- Répartition : Le graphique de répartition des fonctions avec légende affiche les sections de fonction pour les périodes sélectionnées et la référence (facultatif).
Figure 7-15 Graphique de répartition et répartition avec colonne de tableau croisé
- Distribution avec colonne de tableau croisé : La carte thermique indique la densité de distribution pour le tableau croisé sélectionné et la colonne de fonction. Le rouge indique la densité la plus élevée.
Note :
Dans la surveillance de la dérive de données,nulls
est suivi séparément en tant quenumber_of_missing_values
.
- Mesure : Les mesures suivantes sont calculées :
Sujet parent : Inémarrer avec le service de surveillance de données
7.3 Consulter l'historique
La page Historique affiche les détails d'exécution des moniteurs de données.
Sélectionnez un moniteur de données et cliquez sur Historique pour voir les détails de l'exécution. La page d'historique affiche les informations suivantes sur l'exécution du moniteur de données :
Figure 7-16 Page Historique du moniteur de données
- Date de début réelle : Il s'agit de la date à laquelle le moniteur de données a réellement démarré.
- Date de début demandée : Il s'agit de la date entrée dans le champ
Start Date
lors de la création du moniteur de données. - Statut : Les statuts sont
SUCCEEDED
etFAILED
. - Détails : Si un moniteur de données échoue, les détails sont listés ici.
- Durée : Temps nécessaire pour exécuter le moniteur de données.
Cliquez sur Retour aux moniteurs pour retourner à la page Surveillance des données.
Sujet parent : Inémarrer avec le service de surveillance de données