Démarrage avec la surveillance de données

7 Introduction à la surveillance des données

Data Monitoring évalue l'évolution de vos données au fil du temps. Il vous aide à obtenir des informations sur les tendances et les dépendances multivariées dans les données. Il vous donne également un avertissement précoce sur la dérive de données.

La dérive de données se produit lorsque les données divergent des données de référence initiales au fil du temps. La dérive de données peut survenir pour diverses raisons, comme un environnement d'affaires changeant, un comportement et des intérêts changeants des utilisateurs, des modifications de données provenant de sources de tiers, des problèmes de qualité des données ou des problèmes liés aux pipelines de traitement de données en amont.

La clé pour interpréter vos modèles avec précision et s'assurer que les modèles sont en mesure de résoudre les problèmes d'affaires est de comprendre comment les données évoluent au fil du temps. La surveillance des données est complémentaire à la surveillance réussie des modèles, car la compréhension des changements dans les données est essentielle pour comprendre les changements dans l'efficacité des modèles. La capacité de détecter rapidement et de manière fiable les changements dans les propriétés statistiques de vos données garantit que vos modèles d'apprentissage automatique sont en mesure de répondre aux objectifs d'affaires.

Vous pouvez surveiller vos données à l'aide de la fonctionnalité de surveillance des données de l'interface utilisateur d'Oracle Machine Learning. Pour surveiller vos données, cliquez sur le menu Cloud de la page d'accueil de l'interface utilisateur d'Oracle Machine Learning, cliquez sur Surveillance, puis sur Données pour ouvrir la page Moniteurs de données. Dans la page Data Monitors, vous pouvez effectuer les tâches suivantes :

Figure 7-1 : Moniteurs de données

Créer : Créez un moniteur de données.

Note :
Les types de données pris en charge pour la surveillance des données sont NUMERIC et CATEGORICAL.
Modifier : Sélectionnez un moniteur de données et cliquez sur Modifier pour modifier un moniteur de données.
Dupliquer : Sélectionnez un moniteur de données et cliquez sur Dupliquer pour créer une copie du moniteur.
Supprimer : Sélectionnez un moniteur de données et cliquez sur Supprimer pour supprimer un moniteur de données.
Historique : Sélectionnez un moniteur de données et cliquez sur Historique pour voir les détails de l'exécution. Cliquez sur Retour aux moniteurs pour retourner à la page Surveillance des données.
Démarrer : Démarrez un moniteur de données.
Arrêter : Arrêtez un moniteur de données en cours d'exécution.
Plus : Cliquez sur Plus pour obtenir des options supplémentaires afin de :

Figure 7-2 Option supplémentaire sous Moniteurs de données
- Activer : Sélectionnez un moniteur de données et cliquez sur Activer pour activer un moniteur désactivé. Par défaut, un moniteur de données est activé. Le statut est SCHEDULED.
- Désactiver : Sélectionnez un moniteur de données et cliquez sur Désactiver pour désactiver un moniteur de données. Le statut est DISABLED.
- Afficher les moniteurs gérés : Cliquez sur cette option pour voir les moniteurs de données créés et gérés par l'API REST des services OML et les moniteurs de modèle dans l'interface utilisateur d'Oracle Machine Learning. Les moniteurs de données gérés par ces deux composants ont un nom généré par le système et sont indiqués par des icônes spécifiques par rapport à leur nom.
  - Cliquez sur l'icône de lien correspondant au nom d'un moniteur de données géré pour voir les détails du moniteur de modèles associé. Les détails du moniteur de modèles associés s'affichent dans un volet distinct qui s'affiche. Le panneau déroulant affiche le nom du moniteur de modèles avec des liens permettant d'afficher les résultats et les paramètres du moniteur de modèles. Cliquer sur l'icône de lien affiche également les détails de la dérive de données dans le volet inférieur de la page Moniteurs de données. Cliquez sur le X en haut à gauche pour fermer le volet.
    
    Figure 7-3 Page Moniteurs de données affichant les résultats et paramètres du moniteur de modèle associé
    
    Dans cet exemple, le volet du diaporama affiche les détails de la consommation d'énergie du moniteur de modèle. Dans le volet du diaporama :
    - Cliquez sur Résultats de la surveillance de modèle pour voir les résultats calculés par le moniteur de modèle - paramètres, modèles, dérive de modèle, mesures et statistiques de prédiction. Cliquez sur Moniteurs pour retourner à la page Moniteurs de données. Voir Voir les résultats du moniteur de modèles.
    - Cliquez sur Paramètres du moniteur de modèle pour voir et modifier les paramètres, les détails et les modèles surveillés par le moniteur de modèle dans la page Modifier le moniteur de modèle. Cliquez sur Annuler pour retourner à la page Moniteurs de données. Cliquez sur Enregistrer pour enregistrer les modifications.
  - Cochez la case correspondant au nom du moniteur de données pour afficher les valeurs de dérive de données dans le volet inférieur.
    
    Figure 7-4 Sélectionner un moniteur de données géré
  - Cliquez sur le nom du moniteur de données pour voir les détails du moniteur de données - paramètres, valeurs de dérive de données et fonctions surveillées.
    
    Figure 7-5 Clic sur le moniteur de données

La page Moniteurs de données affiche les informations sur le moniteur sélectionné : nom du moniteur, données de référence, nouvelles données, date de début, statut, données de prochaine exécution, statut et calendrier. La page affiche également la dérive de données, si le moniteur de données a été exécuté avec succès. Pour voir la dérive de données :

Figure 7-6 Aperçu de la dérive de données sur la page Moniteurs de données

Aperçu de la dérive de données dans la page Moniteurs de données

Sélectionnez un moniteur de données exécuté avec succès, comme illustré dans la capture d'écran. Dans le volet inférieur, la dérive de données du moniteur sélectionné s'affiche. L'axe des X représente la période d'analyse et l'axe des Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil, et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour voir les valeurs de dérive. Pour plus d'informations sur cet exemple, voir Voir les résultats du moniteur de données.

Créer un moniteur de données
La surveillance des données vous permet de détecter la dérive de données au fil du temps et l'incidence potentiellement négative sur la performance de vos modèles d'apprentissage automatique. Dans la page Data Monitor, vous pouvez créer, exécuter et suivre des moniteurs de données et les résultats.
Voir les résultats du moniteur de données
La page Résultats du moniteur de données affiche les informations sur le moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonction surveillée.
Voir l'historique
La page Historique affiche les détails d'exécution des moniteurs de données.

Rubriques connexes

Voir l'historique

7.1 Créer un moniteur de données

La surveillance de données vous permet de détecter la dérive de données au fil du temps et l'incidence potentiellement négative sur la performance de vos modèles d'apprentissage automatique. Dans la page Data Monitor, vous pouvez créer, exécuter et suivre des moniteurs de données et les résultats.

Pour créer un moniteur de données :

Dans le menu de navigation de gauche de l'interface utilisateur d'Oracle Machine Learning, développez Surveillance, puis cliquez sur Données pour ouvrir la page Surveillance des données.
Dans la page Surveillance des données, cliquez sur Créer pour ouvrir la page Nouveau moniteur de données.
Dans la page New Data Monitor, entrez les détails suivants :

Figure 7-7 Nouveau moniteur de données
1. Nom du moniteur : Entrez un nom pour le moniteur de données.
2. Commentaires : Entrez des commentaires. Ce champ est facultatif.
3. Données de référence : Il s'agit d'une table ou d'une vue qui contient des données de référence à surveiller. Cliquez sur l'icône de recherche pour ouvrir la boîte de dialogue Sélectionner une table. Sélectionnez ici un schéma, puis une table.
  
  Note :
  Les types de données pris en charge pour la surveillance des données sont NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, et NVARCHAR2 avec une longueur de <=4000.
4. Nouvelles données : Il s'agit d'une table ou d'une vue contenant de nouvelles données à comparer aux données de référence. Cliquez sur l'icône de recherche pour ouvrir la boîte de dialogue Sélectionner une table. Sélectionnez un schéma, puis une table.
  
  Note :
  Les types de données pris en charge pour la surveillance des données sont NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, et NVARCHAR2 avec une longueur de <=4000.
5. Tableau croisé : Sélectionnez un attribut dans la liste déroulante. Cet attribut de la référence et des nouvelles données sert d'ancre ou de cible pour l'analyse à deux variables de vos données.
  
  Note :
  La colonne cible des problèmes supervisés peut être transmise en tant que colonne d'ancrage dans ce champ. Pour les problèmes non supervisés, il peut s'agir de n'importe quelle colonne d'intérêt. Toutefois, il sera propre à l'application.
6. ID cas : Ce champ est facultatif. Entrez un identificateur de cas pour la référence et les nouvelles données afin d'améliorer la répétabilité des résultats.
7. Colonne de temps : Nom d'une colonne stockant des informations de temps dans la table ou la vue des nouvelles données. Sélectionnez la colonne de temps dans la liste déroulante.
  
  Note :
  Si la colonne de temps est vide, toutes les nouvelles données sont traitées comme une seule période.
8. Période d'analyse : Durée pendant laquelle la surveillance des données est effectuée sur les nouvelles données. Sélectionnez la période d'analyse pour la surveillance des données. Les options sont Day, Week, Month, Year.
9. Date de début : Il s'agit de la date de début de la programmation du moniteur de données. Si vous n'indiquez pas de date de début, la date courante sera utilisée comme date de début.
10. Répéter : Cette valeur définit le nombre de répétitions de l'exécution du moniteur de données pour la fréquence définie. Entrez un nombre compris entre 1 et 99. Par exemple, si vous entrez 2 dans le champ Répéter ici et Minutes dans le champ Fréquence, le moniteur de données s'exécute toutes les 2 minutes.
11. Fréquence : Cette valeur détermine la fréquence d'exécution du moniteur de données sur les nouvelles données. Sélectionnez une fréquence pour la surveillance des données. Les options sont Minutes, Heures, Jours, Semaines, Mois. Par exemple, si vous sélectionnez Minutes dans le champ Fréquence, 2 dans le champ Répéter et 5/30/23 dans le champ Date de début, selon le programme, le moniteur de données s'exécutera à partir de 5/30/23 toutes les 2 minutes.
Cliquez sur Recalculer : Sélectionnez cette option pour recalculer l'analyse pour la période déjà calculée. Par défaut, Recalculer est désactivé.
- Lorsque cette option est activée, l'analyse de la dérive de données est effectuée pour la période spécifiée dans le champ Date de début et l'heure de fin. L'analyse remplacera les résultats déjà existants pour la période spécifiée. Cela signifie que l'analyse sera calculée pour la période avec de nouvelles données autres que les données courantes. Les nouveaux résultats d'analyse peuvent chevaucher les résultats existants en fonction de la fréquence sélectionnée.
- Lorsqu'elle est désactivée, les données de la période présente dans la table des résultats sont conservées telles quelles. Seules les nouvelles données pour la période la plus récente seront prises en compte pour l'analyse et les résultats seront ajoutés au tableau des résultats.
Cliquez sur Paramètres supplémentaires pour développer cette section et fournir des paramètres avancés pour votre moniteur de données :

Figure 7-8 Paramètres supplémentaires de surveillance des données
1. Seuil de dérive : La dérive capture la variation relative de la performance entre les données de référence et la nouvelle période de données. En fonction de votre problème d'apprentissage automatique spécifique, définissez la valeur de seuil pour la détection de dérive de données. La valeur par défaut est 0.7.
  
  Note :
  Vous pouvez ajuster la valeur de seuil en fonction de votre cas d'utilisation. L'augmentation de la valeur génère moins d'alertes, tandis que la diminution de la valeur génère plus d'alertes.
  - Une dérive au-dessus de ce seuil indique une modification importante de vos données. Le dépassement du seuil indique que la reconstruction et le redéploiement du modèle peuvent être nécessaires.
  - Une dérive en dessous de ce seuil indique qu'il n'y a pas suffisamment de changements dans les données pour justifier une enquête ou une action plus approfondie.
2. Niveau de service de base de données : Il s'agit des niveaux de service Autonomous Database - Low, Medium, High. La valeur par défaut est Low. Le niveau de service Medium fournit plus de ressources à l'exécution du moniteur de données que Low. Le niveau de service High fournit plus de ressources à l'exécution du moniteur de données que Medium.
3. Filtre d'analyse : Activez cette option si vous voulez que l'analyse de surveillance des données soit effectuée pour une période spécifique. Déplacez le curseur vers la droite pour l'activer, puis sélectionnez une date dans les champs Date de début et Date de fin respectivement. Par défaut, ce champ est désactivé.
  - Date de début : Il s'agit de la date de début ou de l'horodatage de la surveillance dans les nouvelles données. Il suppose l'existence d'une colonne de temps dans la table. Il s'agit d'un champ obligatoire si vous utilisez l'option Filtre d'analyse.
  - Date de fin : Il s'agit de la date de fin ou de l'horodatage de la surveillance dans les nouvelles données. Il suppose l'existence d'une colonne de temps dans la table. Il s'agit d'un champ obligatoire si vous utilisez l'option Filtre d'analyse.
4. Nombre maximal d'exécutions : Il s'agit du nombre maximal de fois où le moniteur de données peut être exécuté conformément à ce programme. La valeur par défaut est 3.
La grille Caractéristiques affiche la liste des fonctions à surveiller. Ici, vous pouvez sélectionner ou désélectionner des fonctions à inclure ou exclure de la surveillance. Par défaut, toutes les fonctions sont sélectionnées. Des statistiques sur les fonctions sont fournies si les données sélectionnées sont une table et si des statistiques SGBDR sont collectées automatiquement par Autonomous Database. Oracle Machine Learning Services calcule les statistiques de la première exécution pour les deux, les tables et les vues, et les calculs sont affichés ici après la première exécution. Les statistiques sont mises à jour par les exécutions suivantes.

Figure 7-9 Grille de fonctions dans Data Monitor

Note :
Les colonnes ID cas et Tous les onglets ne peuvent pas être sélectionnées.
Cliquez sur Enregistrer. La tâche de création de votre moniteur de données est terminée.

Note :
Vous devez maintenant aller à la page Surveillance des données, sélectionner le moniteur de données et cliquer sur Démarrer pour commencer la surveillance des données.

Une fois le moniteur de données exécuté avec succès, sélectionnez-le dans la page Surveillance des données pour voir la dérive de données et d'autres détails du moniteur de données. Voir Introduction au service de surveillance de données pour plus d'informations.

Sujet parent : Inémarrer avec le service de surveillance de données

7.2 Voir les résultats du moniteur de données

La page Résultats du moniteur de données affiche les informations du moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonction surveillée.

Dans la page Data Monitors, cliquez sur un moniteur de données exécuté avec succès. Dans cet exemple, l'option Consommation de puissance du moniteur de données est sélectionnée. Les résultats du moniteur de données sont affichés dans la page Résultats du moniteur de données, qui comprend les sections suivantes :

Paramètres - La section Paramètres affiche les paramètres du moniteur de données. Cliquez sur la flèche sur Paramètres pour développer cette section. Vous pouvez modifier les paramètres du moniteur de données en cliquant sur Modifier dans le coin supérieur droit de la page. Dans cette capture d'écran, les paramètres de la consommation de puissance du moniteur de données sont affichés.

Figure 7-10 Section Paramètres de la page Résultats du moniteur de données
Dérive - La section Dérive affiche les détails de la dérive de données pour chaque fonction surveillée. Dans cet exemple, le moniteur de données Consommation électrique du moniteur de données est sélectionné. L'axe des X représente la période d'analyse et l'axe des Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil, et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour voir les valeurs de dérive.

Figure 7-11 Section Data Drift (Dérive de données) dans la page Data Monitor Results (Résultats du moniteur
Fonctions - La section Caractéristiques affiche les fonctions surveillées ainsi que les statistiques calculées.

Figure 7-12 Section Fonctions de la page Résultats du moniteur de données

La valeur de la colonne Importance indique l'incidence de la fonction sur la dérive de données au cours d'une période spécifiée.
Pour les données numériques, les statistiques suivantes sont calculées :
- Mean
- Écart-type
- Intervalle (Minimum, Maximum)
- Nombre de valeurs nulles
Pour les données catégorielles, les statistiques suivantes sont calculées :
- Nombre de valeurs uniques
- Nombre de valeurs nulles
Pour chaque fonction surveillée, pointez la souris pour afficher les détails supplémentaires suivants, comme indiqué dans la capture d'écran ici.
- Premièrement : Il s'agit de la première valeur des statistiques calculées pour la période d'analyse.
- Last : Il s'agit de la dernière valeur des statistiques calculées pour la période d'analyse.
- Max : Valeur la plus élevée des statistiques calculées pour la période d'analyse.
- Min : Il s'agit de la valeur la plus faible des statistiques calculées pour la période d'analyse.
Cliquez sur une fonction surveillée dans la section Fonctions pour voir la mesure, les statistiques, la distribution et la distribution avec colonne de tableau croisé, comme illustré dans la capture d'écran ici. Dans la capture d'écran ici, l'indice de stabilité de la population est affiché pour la fonction GLOBAL_REACTIVE_POWER.

Figure 7-13 Indice de stabilité de la population
Les calculs sont les suivants :
- Mesure : Les mesures suivantes sont calculées :
  - Indice de stabilité de la population (ISP) : Il s'agit d'une mesure de l'évolution d'une population au fil du temps ou entre deux échantillons différents d'une population en un seul nombre. Les deux répartitions sont subdivisées en intervalles et PSI compare les pourcentages d'articles de chacun des intervalles. PSI est calculé comme
    PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
    L'interprétation de la valeur PSI est la suivante :
    - PSI < 0.1 n'implique aucun changement de population significatif
    - 0.1 <= PSI < 0.2 implique un changement modéré de la population
    - PSI >= 0.2 implique un changement de population important
  - Jenson Shannon Distance (JSD) : Il s'agit d'une mesure de la similitude entre deux distributions de probabilité. JSD est la racine carrée de la divergence Jensen-Shannon qui est liée à la divergence Kullbach-Leibler (KLD). JSD est calculé comme suit :
    SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
    
    Où, P et Q sont les 2 distributions, M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
    
    La valeur de JSD est comprise entre 0 et 1.
  - Indice de stabilité de la population du tableau croisé : Il s'agit de l'ISP pour deux variables.
  - Distance de Jenson Shannon : Il s'agit du JSD pour deux variables.
- Statistiques : Vous pouvez voir les statistiques pour un maximum de 3 périodes sélectionnées. La dérive des données est quantifiée à l'aide de ces calculs statistiques.
  
  Figure 7-14 Statistiques
  Pour les données numériques, les statistiques suivantes sont calculées :
  - Mean
  - Écart-type
  - Intervalle (Minimum, Maximum)
  - Nombre de valeurs nulles
  Pour les données catégorielles, les statistiques suivantes sont calculées :
  - Nombre de valeurs uniques
  - Nombre de valeurs nulles
- Répartition : Le graphique de répartition des fonctions avec légende affiche les sections de fonction pour les périodes sélectionnées et la référence (facultatif).
  
  Figure 7-15 Graphique de répartition et répartition avec colonne de tableau croisé
- Distribution avec colonne de tableau croisé : La carte thermique indique la densité de distribution pour le tableau croisé sélectionné et la colonne de fonction. Le rouge indique la densité la plus élevée.
  
  Note :
  Dans la surveillance de la dérive de données, nulls est suivi séparément en tant que number_of_missing_values.

Sujet parent : Inémarrer avec le service de surveillance de données

7.3 Consulter l'historique

La page Historique affiche les détails d'exécution des moniteurs de données.

Sélectionnez un moniteur de données et cliquez sur Historique pour voir les détails de l'exécution. La page d'historique affiche les informations suivantes sur l'exécution du moniteur de données :

Figure 7-16 Page Historique du moniteur de données

Date de début réelle : Il s'agit de la date à laquelle le moniteur de données a réellement démarré.
Date de début demandée : Il s'agit de la date entrée dans le champ Start Date lors de la création du moniteur de données.
Statut : Les statuts sont SUCCEEDED et FAILED.
Détails : Si un moniteur de données échoue, les détails sont listés ici.
Durée : Temps nécessaire pour exécuter le moniteur de données.

Cliquez sur Retour aux moniteurs pour retourner à la page Surveillance des données.

Sujet parent : Inémarrer avec le service de surveillance de données