Introduction à la surveillance des données

7 Introduction à la surveillance des données

Data Monitoring évalue l'évolution de vos données au fil du temps. Il vous aide à obtenir des informations sur les tendances et les dépendances multivariées dans les données. Il vous donne également un avertissement précoce sur la dérive des données.

La dérive des données se produit lorsque les données divergent des données de référence d'origine au fil du temps. La dérive des données peut se produire pour diverses raisons, telles que l'évolution de l'environnement commercial, l'évolution du comportement et de l'intérêt des utilisateurs, les modifications de données provenant de sources tierces, les problèmes de qualité des données ou les problèmes liés aux pipelines de traitement de données en amont.

La clé pour interpréter avec précision vos modèles et s'assurer que les modèles sont en mesure de résoudre les problèmes commerciaux est de comprendre comment les données évoluent au fil du temps. La surveillance des données est complémentaire à la surveillance réussie des modèles, car la compréhension des changements dans les données est essentielle pour comprendre les changements dans l'efficacité des modèles. La capacité de détecter rapidement et de manière fiable les changements dans les propriétés statistiques de vos données garantit que vos modèles de machine learning sont en mesure d'atteindre les objectifs de l'entreprise.

Vous pouvez surveiller vos données à l'aide de la fonctionnalité de surveillance des données de l'interface utilisateur d'Oracle Machine Learning. Pour surveiller les données, cliquez sur le menu Cloud sur la page d'accueil de l'interface utilisateur Oracle Machine Learning, cliquez sur Surveillance, puis sur Données pour ouvrir la page Moniteurs de données. Sur la page Data Monitors, vous pouvez effectuer les tâches suivantes :

Figure 7-1 Page Moniteurs de données

Créer : créez un moniteur de données.

Remarques :
Les types de données pris en charge pour la surveillance des données sont NUMERIC et CATEGORICAL.
Modifier : sélectionnez un moniteur de données et cliquez sur Modifier pour modifier un moniteur de données.
Dupliquer : sélectionnez un moniteur de données et cliquez sur Dupliquer pour créer une copie du moniteur.
Supprimer : sélectionnez un moniteur de données et cliquez sur Supprimer pour supprimer un moniteur de données.
Historique : sélectionnez un moniteur de données et cliquez sur Historique pour visualiser les détails d'exécution. Cliquez sur Retour aux moniteurs pour revenir à la page Surveillance des données.
Démarrer : démarrez un moniteur de données.
Arrêter : arrêtez un moniteur de données en cours d'exécution.
Plus : cliquez sur Plus pour obtenir d'autres options permettant de :

Figure 7-2 Option Plus sous Moniteurs de données
- Activer : sélectionnez un moniteur de données et cliquez sur Activer pour activer un moniteur désactivé. Par défaut, un moniteur de données est activé. Le statut est SCHEDULED.
- Désactiver : sélectionnez un moniteur de données et cliquez sur Désactiver pour désactiver un moniteur de données. Le statut est DISABLED.
- Afficher les moniteurs gérés : cliquez sur cette option pour visualiser les moniteurs de données créés et gérés par l'API REST des services OML et les moniteurs de modèle dans l'interface utilisateur Oracle Machine Learning. Les moniteurs de données gérés par ces deux composants ont un nom généré par le système et sont indiqués par des icônes spécifiques en regard de leur nom.
  - Cliquez sur l'icône de lien en regard d'un nom de moniteur de données géré pour afficher les détails du moniteur de modèle associé. Les détails du moniteur de modèle associé s'affichent dans un volet distinct qui s'affiche. Le volet coulissant affiche le nom du moniteur de modèle avec des liens permettant d'afficher les résultats et les paramètres du moniteur de modèle. Cliquez sur l'icône de lien pour afficher également les détails de la dérive des données dans le volet inférieur de la page Moniteurs de données. Cliquez sur le X en haut à gauche pour fermer le volet.
    
    Figure 7-3 Page Moniteurs de données affichant les résultats et les paramètres du moniteur de modèle associé
    
    Dans cet exemple, le panneau coulissant affiche les détails du moniteur de modèle Power Consumption. Dans le volet coulissant :
    - Cliquez sur Résultats du moniteur de modèle pour visualiser les résultats calculés par le moniteur de modèle : paramètres, modèles, dérive de modèle, mesure et statistiques de prédiction. Cliquez sur Moniteurs pour revenir à la page Moniteurs de données. Reportez-vous à la section View Model Monitor Results.
    - Cliquez sur Paramètres du moniteur de modèle pour visualiser et modifier les paramètres, les détails et les modèles surveillés par le moniteur de modèle sur la page Modifier le moniteur de modèle. Cliquez sur Annuler pour revenir à la page Moniteurs de données. Cliquez sur Enregistrer pour enregistrer les modifications éventuellement apportées.
  - Cochez la case en regard du nom du moniteur de données pour afficher les valeurs de dérive des données dans le volet inférieur.
    
    Figure 7-4 Sélectionner un moniteur de données géré
  - Cliquez sur le nom du moniteur de données pour visualiser les détails du moniteur de données : paramètres, valeurs de dérive de données et fonctionnalités surveillées.
    
    Figure 7-5 Cliquez sur le moniteur de données

La page Moniteurs de données affiche les informations relatives au moniteur sélectionné : nom du moniteur, données de référence, nouvelles données, date de début, dernier statut, données de prochaine exécution, statut et programmation. La page affiche également la dérive des données, si le moniteur de données a été exécuté avec succès. Pour afficher la dérive des données :

Figure 7-6 Aperçu de la dérive de données sur la page Moniteurs de données

Aperçu de la dérive des données sur la page Moniteurs de données

Sélectionnez un moniteur de données qui s'est exécuté correctement, comme illustré dans la capture d'écran. Dans le volet inférieur, la dérive de données du moniteur sélectionné s'affiche. L'axe X représente la période d'analyse et l'axe Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour afficher les valeurs de dérive. Pour plus d'informations sur cet exemple, voir Afficher les résultats du moniteur de données.

Création d'un moniteur de données
Data Monitoring vous permet de détecter la dérive des données au fil du temps et l'impact potentiellement négatif sur les performances de vos modèles d'apprentissage automatique. Sur la page Moniteur de données, vous pouvez créer, exécuter et suivre les moniteurs de données et les résultats.
Affichage des résultats du moniteur de données
La page Résultats du moniteur de données affiche les informations sur le moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonctionnalité surveillée.
Visualiser l'historique
La page Historique affiche les détails d'exécution des moniteurs de données.

Rubriques connexes

Afficher l'historique

7.1 Création d'un moniteur de données

La surveillance des données vous permet de détecter la dérive des données au fil du temps et l'impact potentiellement négatif sur les performances de vos modèles d'apprentissage automatique. Sur la page Moniteur de données, vous pouvez créer, exécuter et suivre les moniteurs de données et les résultats.

Pour créer un moniteur de données, procédez comme suit :

Dans le menu de navigation de gauche de l'interface utilisateur Oracle Machine Learning, développez Surveillance, puis cliquez sur Données pour ouvrir la page Surveillance des données.
Sur la page Surveillance des données, cliquez sur Créer pour ouvrir la page Nouveau moniteur de données.
Sur la page Nouveau moniteur de données, entrez les détails suivants :

Figure 7-7 Nouveau contrôleur de données
1. Nom du moniteur : entrez le nom du moniteur de données.
2. Commentaires : Entrez des commentaires. Il s'agit d'un champ optionnel.
3. Données de référence : table ou vue contenant les données de référence à surveiller. Cliquez sur l'icône de recherche pour ouvrir la boîte de dialogue Sélectionner une table. Sélectionnez un schéma, puis une table.
  
  Remarques :
  Les types de données pris en charge pour la surveillance des données sont NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, et NVARCHAR2 avec la longueur <=4000.
4. Nouvelles données : Il s'agit d'une table ou d'une vue avec de nouvelles données à comparer aux données de référence. Cliquez sur l'icône de recherche pour ouvrir la boîte de dialogue Sélectionner une table. Sélectionnez un schéma, puis une table.
  
  Remarques :
  Les types de données pris en charge pour la surveillance des données sont NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, et NVARCHAR2 avec la longueur <=4000.
5. Matrice : sélectionnez un attribut dans la liste déroulante. Cet attribut de la ligne de base et des nouvelles données sert d'ancrage ou de cible pour l'analyse bi-variable de vos données.
  
  Remarques :
  La colonne cible dans les problèmes supervisés peut être transmise en tant que colonne d'ancrage dans ce champ. Pour les problèmes non supervisés, il peut s'agir de n'importe quelle colonne d'intérêt. Cependant, il sera spécifique à l'application.
6. ID de cas : Ce champ est facultatif. Entrez un identifiant de cas pour la référence et de nouvelles données afin d'améliorer la répétabilité des résultats.
7. Colonne de temps : Nom d'une colonne stockant les informations de temps dans la table ou la vue Nouvelles données. Sélectionnez la colonne d'heure dans la liste déroulante.
  
  Remarques :
  Si la colonne de temps est vide, l'ensemble des nouvelles données est traité comme une période.
8. Période d'analyse : Durée pendant laquelle la surveillance des données est effectuée sur les nouvelles données. Sélectionnez la période d'analyse pour la surveillance des données. Les options sont Day, Week, Month, Year.
9. Date de début : Il s'agit de la date de début de la programmation de votre moniteur de données. Si vous n'indiquez pas de date de début, la date courante sera utilisée comme date de début.
10. Répéter : Cette valeur définit le nombre de fois où l'exécution du moniteur de données sera répétée pour la fréquence définie. Saisissez un nombre compris entre 1 et 99. Par exemple, si vous entrez 2 dans le champ Répéter ici et Minutes dans le champ Fréquence, le moniteur de données est exécuté toutes les 2 minutes.
11. Fréquence : Cette valeur détermine la fréquence d'exécution du moniteur de données sur les nouvelles données. Sélectionnez une fréquence pour la surveillance des données. Les options sont Minutes, Heures, Jours, Semaines, Mois. Par exemple, si vous sélectionnez Minutes dans le champ Fréquence, 2 dans le champ Répéter et 5/30/23 dans le champ Date de début, le moniteur de données est exécuté à partir du 30/5/23 toutes les 2 minutes.
Cliquez sur Recalculer : sélectionnez cette option pour recalculer l'analyse pour la période déjà calculée. Par défaut, le recalcul est désactivé.
- Lorsque cette option est activée, l'analyse de la dérive des données est effectuée pour la période indiquée dans le champ Date de début et l'heure de fin. L'analyse remplacera les résultats déjà existants pour la période indiquée. Cela signifie que l'analyse sera calculée pour la période avec de nouvelles données autres que les données actuelles. Les nouveaux résultats d'analyse peuvent chevaucher les résultats existants en fonction de la fréquence sélectionnée.
- Lorsque cette option est désactivée, les données de la période présente dans la table de résultats sont conservées telles quelles. Seules les nouvelles données de la période la plus récente seront prises en compte pour l'analyse et les résultats seront ajoutés à la table des résultats.
Cliquez sur Paramètres supplémentaires pour développer cette section et fournir des paramètres avancés pour votre moniteur de données :

Figure 7-8 Paramètres supplémentaires de la surveillance des données
1. Seuil de dérive : La dérive capture l'évolution relative des performances entre les données de référence et la nouvelle période de données. En fonction de votre problème d'apprentissage automatique spécifique, définissez la valeur de seuil pour la détection de dérive des données. La valeur par défaut est 0.7.
  
  Remarques :
  Vous pouvez ajuster la valeur de seuil en fonction de votre cas d'emploi. L'augmentation de la valeur générera moins d'alertes, tandis que la diminution de la valeur générera plus d'alertes.
  - Une dérive au-dessus de ce seuil indique une modification significative de vos données. Le dépassement du seuil indique que la reconstruction et le redéploiement de votre modèle peuvent être nécessaires.
  - Une dérive en dessous de ce seuil indique qu'il n'y a pas suffisamment de changements dans les données pour justifier une enquête ou une action plus approfondie.
2. Niveau de service Database : niveaux de service Autonomous Database : Low, Medium, High. La valeur par défaut est Low. Le niveau de service Medium fournit davantage de ressources à l'exécution du moniteur de données que Low. Le niveau de service High fournit davantage de ressources à l'exécution du moniteur de données par rapport à Medium.
3. Filtre d'analyse : activez cette option si vous souhaitez que l'analyse de surveillance des données porte sur une période spécifique. Déplacez le curseur vers la droite pour l'activer, puis sélectionnez une date dans les champs Date de début et Date de fin respectivement. Par défaut, ce champ est désactivé.
  - Date de début : Il s'agit de la date de début ou de l'horodatage de la surveillance dans les nouvelles données. Elle suppose l'existence d'une colonne de temps dans la table. Ce champ est obligatoire si vous utilisez l'option Filtre d'analyse.
  - Date de fin : Date de fin ou horodatage de la surveillance dans les nouvelles données. Elle suppose l'existence d'une colonne de temps dans la table. Ce champ est obligatoire si vous utilisez l'option Filtre d'analyse.
4. Nombre maximal d'exécutions : Nombre maximal d'exécutions du moniteur de données selon cette programmation. La valeur par défaut est 3.
La grille Fonctionnalités affiche la liste des fonctions à surveiller. Ici, vous pouvez sélectionner ou désélectionner des fonctions à inclure ou exclure de la surveillance. Par défaut, toutes les fonctionnalités sont sélectionnées. Les statistiques de fonctionnalité sont fournies si les données sélectionnées sont une table et si des statistiques SGBDR sont collectées automatiquement par Autonomous Database. Oracle Machine Learning Services calcule les statistiques de la première exécution pour les tables et les vues, et les calculs sont affichés ici après la première exécution. Les statistiques sont mises à jour par les exécutions suivantes.

Figure 7-9 Grille des fonctions dans le contrôleur de données

Remarques :
Il est impossible de sélectionner les colonnes ID de cas et A onglets croisés.
Cliquez sur Enregistrer. Cette opération termine la tâche de création du moniteur de données.

Remarques :
Vous devez maintenant accéder à la page Surveillance des données, sélectionner le moniteur de données et cliquer sur Démarrer pour commencer la surveillance des données.

Une fois le moniteur de données exécuté, sélectionnez-le sur la page Surveillance des données pour visualiser la dérive des données et d'autres détails du moniteur de données. Pour plus d'informations, reportez-vous à Introduction à Data Monitoring.

Thème parent : Mise en route de la surveillance des données

7.2 Afficher les résultats du moniteur de données

La page Résultats du moniteur de données affiche les informations sur le moniteur de données sélectionné qui ont été exécutées avec succès, ainsi que les détails de dérive de données pour chaque fonctionnalité surveillée.

Dans la page Data Monitors, cliquez sur un moniteur de données exécuté avec succès. Dans cet exemple, le moniteur de données Power Consumption est sélectionné. Les résultats du moniteur de données s'affichent sur la page Résultats du moniteur de données, qui comprend les sections suivantes :

Paramètres - La section Paramètres affiche les paramètres du moniteur de données. Cliquez sur la flèche en regard de Paramètres pour développer cette section. Vous pouvez modifier les paramètres du moniteur de données en cliquant sur Modifier dans l'angle supérieur droit de la page. Dans cette capture d'écran, les paramètres du moniteur de données Power Consumption sont affichés.

Figure 7-10 Section Paramètres de la page Résultats du contrôleur de données
Drift - La section Drift affiche les détails de la dérive de données pour chaque fonction surveillée. Dans cet exemple, le moniteur de données de consommation d'énergie du moniteur de données est sélectionné. L'axe X représente la période d'analyse et l'axe Y représente les valeurs de dérive des données. La ligne horizontale en pointillés est la valeur de seuil et la ligne représente la valeur de dérive pour chaque point dans le temps pour la période d'analyse. Passez le pointeur de la souris sur la ligne pour afficher les valeurs de dérive.

Figure 7-11 Section Dérive de données de la page Résultats du contrôleur de données
Fonctionnalités - La section Fonctionnalités affiche les fonctions surveillées ainsi que les statistiques calculées.

Figure 7-12 Section Fonctionnalités de la page Résultats du contrôleur de données

La valeur de la colonne Importance indique l'impact de la fonctionnalité sur la dérive des données au cours d'une période donnée.
Pour les données numériques, les statistiques suivantes sont calculées :
- Moyenne
- Ecart type
- Plage (minimum, maximum)
- Nombre de valeurs NULL
Pour les données catégoriques, les statistiques suivantes sont calculées :
- Nombre de valeurs uniques
- Nombre de valeurs NULL
Pour chaque fonctionnalité surveillée, positionnez le pointeur de la souris pour afficher les détails supplémentaires suivants, comme illustré dans la capture d'écran ci-dessous.
- Il s'agit de la première valeur des statistiques calculées pour la période d'analyse.
- Last : Il s'agit de la dernière valeur des statistiques calculées pour la période d'analyse.
- Max : Il s'agit de la valeur la plus élevée des statistiques calculées pour la période d'analyse.
- Min : Il s'agit de la valeur la plus basse des statistiques calculées pour la période d'analyse.
Cliquez sur une fonctionnalité surveillée dans la section Caractéristiques pour afficher la mesure, les statistiques, la distribution et la distribution avec colonne de matrice, comme illustré dans la capture d'écran ici. Dans la capture d'écran ci-dessous, l'indice de stabilité de la population est affiché pour la fonctionnalité GLOBAL_REACTIVE_POWER.

Figure 7-13 Indice de stabilité de la population
Les calculs sont les suivants :
- Mesure : les mesures suivantes sont calculées :
  - Indice de stabilité de la population (IPP) : Il s'agit d'une mesure du déplacement d'une population au fil du temps ou entre deux échantillons différents d'une population en un seul nombre. Les deux distributions sont regroupées en regroupements et PSI compare les pourcentages d'articles dans chacun des regroupements. PSI est calculé comme suit :
    PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
    L'interprétation de la valeur de l'ISP est la suivante :
    - PSI < 0.1 n'implique aucun changement significatif de population
    - 0.1 <= PSI < 0.2 implique une modification modérée de la population
    - PSI >= 0.2 implique un changement significatif de population
  - Jenson Shannon Distance (JSD) : Il s'agit d'une mesure de la similarité entre deux distributions de probabilité. JSD est la racine carrée de la divergence Jensen-Shannon qui est liée à la divergence Kullbach-Leibler (KLD). JSD est calculé comme suit :
    SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
    
    Où, P et Q sont les 2 distributions, M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
    
    La valeur de JSD est comprise entre 0 et 1.
  - Indice de stabilité de la population de la matrice : Il s'agit de l'ISP pour deux variables.
  - Crosstab Jenson Shannon Distance : C'est le JSD pour deux variables.
- Statistiques : vous pouvez afficher les statistiques pour un maximum de 3 périodes sélectionnées. La dérive des données est quantifiée à l'aide de ces calculs statistiques.
  
  Figure 7-14 Statistiques
  Pour les données numériques, les statistiques suivantes sont calculées :
  - Moyenne
  - Ecart type
  - Plage (minimum, maximum)
  - Nombre de valeurs NULL
  Pour les données catégoriques, les statistiques suivantes sont calculées :
  - Nombre de valeurs uniques
  - Nombre de valeurs NULL
- Distribution : Le graphique de distribution des fonctions avec légende affiche les emplacements de la fonction pour les périodes sélectionnées et la référence (facultatif).
  
  Figure 7-15 Diagramme de distribution et distribution avec colonne de tableau croisé
- Distribution avec colonne de matrice : La carte d'activité indique la densité de distribution pour la matrice sélectionnée et la colonne de caractéristique. Le rouge indique la densité la plus élevée.
  
  Remarques :
  Dans la surveillance de la dérive des données, nulls est suivi séparément en tant que number_of_missing_values.

Thème parent : Mise en route de la surveillance des données

7.3 Voir l'historique

La page Historique affiche les détails d'exécution des moniteurs de données.

Sélectionnez un moniteur de données et cliquez sur Historique pour visualiser les détails d'exécution. La page d'historique affiche les informations suivantes sur l'exécution du moniteur de données :

Figure 7-16 Page Historique du contrôleur de données

Date de début réelle : Date à laquelle le moniteur de données a réellement démarré.
Date de début demandée : Il s'agit de la date saisie dans le champ Start Date lors de la création du moniteur de données.
Statut : les statuts sont SUCCEEDED et FAILED.
Détails : en cas d'échec d'un moniteur de données, les détails sont répertoriés ici.
Durée : il s'agit du temps nécessaire à l'exécution du moniteur de données.

Cliquez sur Retour aux moniteurs pour revenir à la page Surveillance des données.

Thème parent : Mise en route de la surveillance des données