7 Introduction à la surveillance des données
Data Monitoring évalue l'évolution de vos données au fil du temps. Il vous aide à obtenir des informations sur les tendances et les dépendances multivariées dans les données. Il vous donne également un avertissement précoce sur la dérive des données.
La dérive des données se produit lorsque les données divergent des données de référence d'origine au fil du temps. La dérive des données peut se produire pour diverses raisons, telles que l'évolution de l'environnement commercial, l'évolution du comportement et de l'intérêt des utilisateurs, les modifications de données provenant de sources tierces, les problèmes de qualité des données ou les problèmes liés aux pipelines de traitement de données en amont.
La clé pour interpréter avec précision vos modèles et s'assurer que les modèles sont en mesure de résoudre les problèmes commerciaux est de comprendre comment les données évoluent au fil du temps. La surveillance des données est complémentaire à la surveillance réussie des modèles, car la compréhension des changements dans les données est essentielle pour comprendre les changements dans l'efficacité des modèles. La capacité de détecter rapidement et de manière fiable les changements dans les propriétés statistiques de vos données garantit que vos modèles de machine learning sont en mesure d'atteindre les objectifs de l'entreprise.
Figure 7-1 Page Moniteurs de données
- Créer : créez un moniteur de données.
Remarques :
Les types de données pris en charge pour la surveillance des données sont NUMERIC et CATEGORICAL. - Modifier : sélectionnez un moniteur de données et cliquez sur Modifier pour modifier un moniteur de données.
- Dupliquer : sélectionnez un moniteur de données et cliquez sur Dupliquer pour créer une copie du moniteur.
- Supprimer : sélectionnez un moniteur de données et cliquez sur Supprimer pour supprimer un moniteur de données.
- Historique : sélectionnez un moniteur de données et cliquez sur Historique pour visualiser les détails d'exécution. Cliquez sur Retour aux moniteurs pour revenir à la page Surveillance des données.
- Démarrer : démarrez un moniteur de données.
- Arrêter : arrêtez un moniteur de données en cours d'exécution.
- Plus : cliquez sur Plus pour obtenir d'autres options permettant de :
Figure 7-2 Option Plus sous Moniteurs de données
- Activer : sélectionnez un moniteur de données et cliquez sur Activer pour activer un moniteur désactivé. Par défaut, un moniteur de données est activé. Le statut est
SCHEDULED
. - Désactiver : sélectionnez un moniteur de données et cliquez sur Désactiver pour désactiver un moniteur de données. Le statut est
DISABLED
. - Afficher les moniteurs gérés : cliquez sur cette option pour visualiser les moniteurs de données créés et gérés par l'API REST des services OML et les moniteurs de modèle dans l'interface utilisateur Oracle Machine Learning. Les moniteurs de données gérés par ces deux composants ont un nom généré par le système et sont indiqués par des icônes spécifiques en regard de leur nom.
- Cliquez sur l'icône de lien en regard d'un nom de moniteur de données géré pour afficher les détails du moniteur de modèle associé. Les détails du moniteur de modèle associé s'affichent dans un volet distinct qui s'affiche. Le volet coulissant affiche le nom du moniteur de modèle avec des liens permettant d'afficher les résultats et les paramètres du moniteur de modèle. Cliquez sur l'icône de lien pour afficher également les détails de la dérive des données dans le volet inférieur de la page Moniteurs de données. Cliquez sur le X en haut à gauche pour fermer le volet.
Figure 7-3 Page Moniteurs de données affichant les résultats et les paramètres du moniteur de modèle associé
Dans cet exemple, le panneau coulissant affiche les détails du moniteur de modèle Power Consumption. Dans le volet coulissant :
- Cliquez sur Résultats du moniteur de modèle pour visualiser les résultats calculés par le moniteur de modèle : paramètres, modèles, dérive de modèle, mesure et statistiques de prédiction. Cliquez sur Moniteurs pour revenir à la page Moniteurs de données. Reportez-vous à la section View Model Monitor Results.
- Cliquez sur Paramètres du moniteur de modèle pour visualiser et modifier les paramètres, les détails et les modèles surveillés par le moniteur de modèle sur la page Modifier le moniteur de modèle. Cliquez sur Annuler pour revenir à la page Moniteurs de données. Cliquez sur Enregistrer pour enregistrer les modifications éventuellement apportées.
- Cochez la case en regard du nom du moniteur de données pour afficher les valeurs de dérive des données dans le volet inférieur.
Figure 7-4 Sélectionner un moniteur de données géré
- Cliquez sur le nom du moniteur de données pour visualiser les détails du moniteur de données : paramètres, valeurs de dérive de données et fonctionnalités surveillées.
Figure 7-5 Cliquez sur le moniteur de données
- Cliquez sur l'icône de lien en regard d'un nom de moniteur de données géré pour afficher les détails du moniteur de modèle associé. Les détails du moniteur de modèle associé s'affichent dans un volet distinct qui s'affiche. Le volet coulissant affiche le nom du moniteur de modèle avec des liens permettant d'afficher les résultats et les paramètres du moniteur de modèle. Cliquez sur l'icône de lien pour afficher également les détails de la dérive des données dans le volet inférieur de la page Moniteurs de données. Cliquez sur le X en haut à gauche pour fermer le volet.
- Activer : sélectionnez un moniteur de données et cliquez sur Activer pour activer un moniteur désactivé. Par défaut, un moniteur de données est activé. Le statut est
La page Moniteurs de données affiche les informations relatives au moniteur sélectionné : nom du moniteur, données de référence, nouvelles données, date de début, dernier statut, données de prochaine exécution, statut et programmation. La page affiche également la dérive des données, si le moniteur de données a été exécuté avec succès. Pour afficher la dérive des données :
Figure 7-6 Aperçu de la dérive de données sur la page Moniteurs de données
Sélectionnez un moniteur de données qui s'est exécuté correctement, comme illustré dans la capture d'écran. Dans le volet inférieur, la dérive de données du moniteur sélectionné s'affiche. L'axe X représente la période d'analyse et l'axe Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour afficher les valeurs de dérive. Pour plus d'informations sur cet exemple, voir Afficher les résultats du moniteur de données.
- Création d'un moniteur de données
Data Monitoring vous permet de détecter la dérive des données au fil du temps et l'impact potentiellement négatif sur les performances de vos modèles d'apprentissage automatique. Sur la page Moniteur de données, vous pouvez créer, exécuter et suivre les moniteurs de données et les résultats. - Affichage des résultats du moniteur de données
La page Résultats du moniteur de données affiche les informations sur le moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonctionnalité surveillée. - Visualiser l'historique
La page Historique affiche les détails d'exécution des moniteurs de données.
Rubriques connexes
7.1 Création d'un moniteur de données
La surveillance des données vous permet de détecter la dérive des données au fil du temps et l'impact potentiellement négatif sur les performances de vos modèles d'apprentissage automatique. Sur la page Moniteur de données, vous pouvez créer, exécuter et suivre les moniteurs de données et les résultats.
Thème parent : Mise en route de la surveillance des données
7.2 Afficher les résultats du moniteur de données
La page Résultats du moniteur de données affiche les informations sur le moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonctionnalité surveillée.
- Paramètres - La section Paramètres affiche les paramètres du moniteur de données. Cliquez sur la flèche en regard de Paramètres pour développer cette section. Vous pouvez modifier les paramètres du moniteur de données en cliquant sur Modifier dans l'angle supérieur droit de la page. Dans cette capture d'écran, les paramètres du moniteur de données Power Consumption sont affichés.
Figure 7-10 Section Paramètres de la page Résultats du contrôleur de données
- Drift - La section Drift affiche les détails de la dérive de données pour chaque fonction surveillée. Dans cet exemple, le moniteur de données de consommation d'énergie du moniteur de données est sélectionné. L'axe X représente la période d'analyse et l'axe Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour afficher les valeurs de dérive.
Figure 7-11 Section Dérive de données de la page Résultats du contrôleur de données
-
Fonctionnalités - La section Fonctionnalités affiche les fonctions surveillées ainsi que les statistiques calculées.
Figure 7-12 Section Fonctionnalités de la page Résultats du contrôleur de données
La valeur de la colonne Importance indique l'impact de la fonctionnalité sur la dérive des données au cours d'une période donnée.
Pour les données numériques, les statistiques suivantes sont calculées :- Moyenne
- Ecart type
- Plage (minimum, maximum)
- Nombre de valeurs NULL
Pour les données catégoriques, les statistiques suivantes sont calculées :- Nombre de valeurs uniques
- Nombre de valeurs NULL
Pour chaque fonctionnalité surveillée, positionnez le pointeur de la souris pour afficher les détails supplémentaires suivants, comme illustré dans la capture d'écran ci-dessous.
- Il s'agit de la première valeur des statistiques calculées pour la période d'analyse.
- Last : Il s'agit de la dernière valeur des statistiques calculées pour la période d'analyse.
- Max : Il s'agit de la valeur la plus élevée des statistiques calculées pour la période d'analyse.
- Min : Il s'agit de la valeur la plus basse des statistiques calculées pour la période d'analyse.
- Cliquez sur une fonctionnalité surveillée dans la section Caractéristiques pour afficher la mesure, les statistiques, la distribution et la distribution avec colonne de matrice, comme illustré dans la capture d'écran ici. Dans la capture d'écran ci-dessous, l'indice de stabilité de la population est affiché pour la fonctionnalité GLOBAL_REACTIVE_POWER.
Figure 7-13 Indice de stabilité de la population
Les calculs sont les suivants :- Mesure : les mesures suivantes sont calculées :
- Indice de stabilité de la population (IPP) : Il s'agit d'une mesure du déplacement d'une population au fil du temps ou entre deux échantillons différents d'une population en un seul nombre. Les deux distributions sont regroupées en regroupements et PSI compare les pourcentages d'articles dans chacun des regroupements. PSI est calculé comme suit :
L'interprétation de la valeur de l'ISP est la suivante :PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
n'implique aucun changement significatif de population0.1 <= PSI < 0.2
implique une modification modérée de la populationPSI >= 0.2
implique un changement significatif de population
- Jenson Shannon Distance (JSD) : Il s'agit d'une mesure de la similarité entre deux distributions de probabilité. JSD est la racine carrée de la divergence Jensen-Shannon qui est liée à la divergence Kullbach-Leibler (KLD). JSD est calculé comme suit :
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
Où, P et Q sont les 2 distributions,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
La valeur de JSD est comprise entre 0 et 1.
- Indice de stabilité de la population de la matrice : Il s'agit de l'ISP pour deux variables.
- Crosstab Jenson Shannon Distance : C'est le JSD pour deux variables.
- Indice de stabilité de la population (IPP) : Il s'agit d'une mesure du déplacement d'une population au fil du temps ou entre deux échantillons différents d'une population en un seul nombre. Les deux distributions sont regroupées en regroupements et PSI compare les pourcentages d'articles dans chacun des regroupements. PSI est calculé comme suit :
- Statistiques : vous pouvez afficher les statistiques pour un maximum de 3 périodes sélectionnées. La dérive des données est quantifiée à l'aide de ces calculs statistiques.
Figure 7-14 Statistiques
Pour les données numériques, les statistiques suivantes sont calculées :- Moyenne
- Ecart type
- Plage (minimum, maximum)
- Nombre de valeurs NULL
Pour les données catégoriques, les statistiques suivantes sont calculées :- Nombre de valeurs uniques
- Nombre de valeurs NULL
- Distribution : Le graphique de distribution des fonctions avec légende affiche les emplacements de la fonction pour les périodes sélectionnées et la référence (facultatif).
Figure 7-15 Diagramme de distribution et distribution avec colonne de tableau croisé
- Distribution avec colonne de matrice : La carte d'activité indique la densité de distribution pour la matrice sélectionnée et la colonne de caractéristique. Le rouge indique la densité la plus élevée.
Remarques :
Dans la surveillance de la dérive des données,nulls
est suivi séparément en tant quenumber_of_missing_values
.
- Mesure : les mesures suivantes sont calculées :
Thème parent : Mise en route de la surveillance des données
7.3 Voir l'historique
La page Historique affiche les détails d'exécution des moniteurs de données.
Sélectionnez un moniteur de données et cliquez sur Historique pour visualiser les détails d'exécution. La page d'historique affiche les informations suivantes sur l'exécution du moniteur de données :
Figure 7-16 Page Historique du contrôleur de données
- Date de début réelle : Date à laquelle le moniteur de données a réellement démarré.
- Date de début demandée : Il s'agit de la date saisie dans le champ
Start Date
lors de la création du moniteur de données. - Statut : les statuts sont
SUCCEEDED
etFAILED
. - Détails : en cas d'échec d'un moniteur de données, les détails sont répertoriés ici.
- Durée : il s'agit du temps nécessaire à l'exécution du moniteur de données.
Cliquez sur Retour aux moniteurs pour revenir à la page Surveillance des données.
Thème parent : Mise en route de la surveillance des données