7 Erste Schritte mit Datenüberwachung
Data Monitoring bewertet, wie sich Ihre Daten im Laufe der Zeit entwickeln. Es hilft Ihnen, Einblicke in Trends und multivariate Abhängigkeiten in den Daten zu erhalten. Außerdem erhalten Sie eine frühe Warnung vor Datenabweichungen.
Datenabweichung tritt auf, wenn Daten im Laufe der Zeit von den ursprünglichen Baseline-Daten abweichen. Datenabweichungen können aus einer Vielzahl von Gründen auftreten, wie z. B. einer sich ändernden Geschäftsumgebung, einem sich entwickelnden Benutzerverhalten und -interesse, Datenänderungen aus Quellen von Drittanbietern, Datenqualitätsproblemen oder Problemen mit vorgelagerten Datenverarbeitungspipelines.
Der Schlüssel zur genauen Interpretation Ihrer Modelle und zur Sicherstellung, dass die Modelle Geschäftsprobleme lösen können, besteht darin, zu verstehen, wie sich die Daten im Laufe der Zeit entwickeln. Die Datenüberwachung ergänzt die erfolgreiche Modellüberwachung, da das Verständnis der Datenänderungen für das Verständnis der Änderungen in der Wirksamkeit der Modelle von entscheidender Bedeutung ist. Die Fähigkeit, Änderungen der statistischen Eigenschaften Ihrer Daten schnell und zuverlässig zu erkennen, stellt sicher, dass Ihre ML-Modelle Geschäftsziele erreichen können.
Abbildung 7-1: Seite "Datenmonitore"
- Erstellen: Erstellen Sie einen Datenmonitor.
Hinweis:
Die unterstützten Datentypen für die Datenüberwachung sind NUMERIC und CATEGORICAL. - Bearbeiten: Wählen Sie einen Datenmonitor aus, und klicken Sie auf Bearbeiten, um einen Datenmonitor zu bearbeiten.
- Duplizieren: Wählen Sie einen Datenmonitor aus, und klicken Sie auf Duplizieren, um eine Kopie des Monitors zu erstellen.
- Löschen: Wählen Sie einen Datenmonitor aus, und klicken Sie auf Löschen, um einen Datenmonitor zu löschen.
- Historie: Wählen Sie einen Datenmonitor aus, und klicken Sie auf Historie, um die Laufzeitdetails anzuzeigen. Klicken Sie auf Zurück zu Monitoren, um zur Seite "Datenüberwachung" zurückzukehren.
- Starten: Starten Sie einen Datenmonitor.
- Stoppen: Stoppen Sie einen ausgeführten Datenmonitor.
- Mehr: Klicken Sie auf Mehr, um weitere Optionen zu erhalten:
Abbildung 7-2 Weitere Option unter Datenmonitore
- Aktivieren: Wählen Sie einen Datenmonitor aus, und klicken Sie auf Aktivieren, um einen deaktivierten Monitor zu aktivieren. Standardmäßig ist ein Datenmonitor aktiviert. Der Status wird als
SCHEDULED
angezeigt. - Disable: Select a data monitor and click Disable to disable a data monitor. Der Status wird als
DISABLED
angezeigt. - Verwaltete Monitore anzeigen: Klicken Sie auf diese Option, um die Datenmonitore anzuzeigen, die von der OML Services-REST-API und den Model Monitoren in der Oracle Machine Learning-UI erstellt und verwaltet werden. Die Datenmonitore, die von diesen beiden Komponenten verwaltet werden, haben einen systemgenerierten Namen und werden durch bestimmte Symbole für ihren Namen angegeben.
- Klicken Sie auf das Linksymbol für den Namen eines verwalteten Datenmonitors, um die Details des zugehörigen Modellmonitors anzuzeigen. Die zugehörigen Modellüberwachungsdetails werden in einem separaten Bereich angezeigt, der eingeblendet wird. Im Slide-in-Bereich wird der Name des Modellmonitors mit Links angezeigt, über die Sie die Ergebnisse und Einstellungen des Modellmonitors anzeigen können. Wenn Sie auf das Linksymbol klicken, werden auch die Datenabweichungsdetails im unteren Bereich der Seite "Datenmonitore" angezeigt. Klicken Sie oben links auf das X, um das Fenster zu schließen.
Abbildung 7-3 Seite "Datenmonitore" mit den Ergebnissen und Einstellungen des zugehörigen Modellmonitors
In diesem Beispiel werden im Slide-in-Bereich die Details des Modellmonitors Energieverbrauch angezeigt. Im Slide-in-Bereich:
- Klicken Sie auf Modellüberwachungsergebnisse, um die vom Modellmonitor berechneten Ergebnisse anzuzeigen: Einstellungen, Modelle, Modellabweichung, Metrik und Vorhersagestatistiken. Klicken Sie auf Monitore, um zur Seite Datenmonitore zurückzukehren. Siehe Modellüberwachungsergebnisse anzeigen.
- Klicken Sie auf Modelmonitoreinstellungen, um die vom Modellmonitor überwachten Einstellungen, Details und Modelle auf der Seite Modellmonitor bearbeiten anzuzeigen und zu bearbeiten. Klicken Sie auf Abbrechen, um zur Seite Datenmonitore zurückzukehren. Klicken Sie auf Speichern, um etwaige Änderungen zu speichern.
- Klicken Sie auf das Kontrollkästchen für den Datenmonitornamen, um die Datenabweichungswerte im unteren Bereich anzuzeigen.
Abbildung 7-4 Wählen Sie einen verwalteten Datenmonitor aus
- Klicken Sie auf den Namen des Datenmonitors, um die Details des Datenmonitors anzuzeigen - Einstellungen, Datenabweichungswerte und überwachte Features.
Abbildung 7-5 Datenmonitorklick
- Klicken Sie auf das Linksymbol für den Namen eines verwalteten Datenmonitors, um die Details des zugehörigen Modellmonitors anzuzeigen. Die zugehörigen Modellüberwachungsdetails werden in einem separaten Bereich angezeigt, der eingeblendet wird. Im Slide-in-Bereich wird der Name des Modellmonitors mit Links angezeigt, über die Sie die Ergebnisse und Einstellungen des Modellmonitors anzeigen können. Wenn Sie auf das Linksymbol klicken, werden auch die Datenabweichungsdetails im unteren Bereich der Seite "Datenmonitore" angezeigt. Klicken Sie oben links auf das X, um das Fenster zu schließen.
- Aktivieren: Wählen Sie einen Datenmonitor aus, und klicken Sie auf Aktivieren, um einen deaktivierten Monitor zu aktivieren. Standardmäßig ist ein Datenmonitor aktiviert. Der Status wird als
Auf der Seite "Datenmonitore" werden die Informationen zum ausgewählten Monitor angezeigt: Name überwachen, Basisplandaten, Neue Daten, Letztes Startdatum, Letzter Status, Nächste Ausführungsdaten, Status und Zeitplan. Auf der Seite wird auch die Datenabweichung angezeigt, wenn der Datenmonitor erfolgreich ausgeführt wurde. So zeigen Sie Datenabweichungen an:
Abbildung 7-6: Vorschau der Datenabweichung auf der Seite "Datenmonitore"
Wählen Sie einen Datenmonitor, der erfolgreich ausgeführt wurde (siehe Screenshot). Im unteren Bereich wird die Datenabweichung des ausgewählten Monitors angezeigt. Die X-Achse zeigt den Analysezeitraum, und die Y-Achse zeigt die Datenabweichungswerte. Die horizontale gepunktete Linie ist der Schwellenwert, und die Linie zeigt den Abweichungswert für jeden Zeitpunkt für den Analysezeitraum an. Bewegen Sie den Mauszeiger über die Linie, um die Abweichungswerte anzuzeigen. Weitere Informationen zu diesem Beispiel finden Sie unter Datenüberwachungsergebnisse anzeigen.
- Datenmonitor erstellen
Mit Data Monitoring können Sie Datenabweichungen im Zeitverlauf und die potenziell negativen Auswirkungen auf die Performance Ihrer Modelle für maschinelles Lernen erkennen. Auf der Seite "Data Monitor" können Sie Datenüberwachungen und die Ergebnisse erstellen, ausführen und verfolgen. - Datenüberwachungsergebnisse anzeigen
Auf der Seite "Datenüberwachungsergebnisse" werden die Informationen zum ausgewählten Datenmonitor angezeigt, die erfolgreich ausgeführt wurden, sowie Datenabweichungsdetails für jedes überwachte Feature. - Historie anzeigen
Auf der Seite "Historie" werden die Laufzeitdetails von Datenüberwachungen angezeigt.
Verwandte Themen
7.1 Datenmonitor erstellen
Mit Data Monitoring können Sie Datenabweichungen im Zeitverlauf und die potenziell negativen Auswirkungen auf die Performance Ihrer ML-Modelle erkennen. Auf der Seite "Data Monitor" können Sie Datenüberwachungen und die Ergebnisse erstellen, ausführen und verfolgen.
Übergeordnetes Thema: Erste Schritte mit Datenüberwachung
7.2 Datenüberwachungsergebnisse anzeigen
Auf der Seite "Datenüberwachungsergebnisse" werden die Informationen zum ausgewählten Datenmonitor angezeigt, der erfolgreich ausgeführt wurde, sowie Datenabweichungsdetails für jedes überwachte Feature.
- Einstellungen - Im Abschnitt "Einstellungen" werden die Datenüberwachungseinstellungen angezeigt. Klicken Sie auf den Pfeil unter Einstellungen, um diesen Abschnitt einzublenden. Sie können die Datenmonitoreinstellungen bearbeiten, indem Sie oben rechts auf der Seite auf Bearbeiten klicken. In diesem Screenshot werden die Einstellungen für den Datenmonitor Energieverbrauch angezeigt.
Abbildung 7-10 Abschnitt "Einstellungen" auf der Seite "Datenüberwachungsergebnisse"
- Abweichung - Im Abschnitt "Abweichung" werden die Details der Datenabweichung für jedes überwachte Feature angezeigt. In diesem Beispiel ist der Datenmonitor Leistungsaufnahme ausgewählt. Die X-Achse zeigt den Analysezeitraum, und die Y-Achse zeigt die Datenabweichungswerte. Die horizontale gepunktete Linie ist der Schwellenwert, und die Linie zeigt den Abweichungswert für jeden Zeitpunkt für den Analysezeitraum an. Bewegen Sie den Mauszeiger über die Linie, um die Abweichungswerte anzuzeigen.
Abbildung 7-11 Abschnitt "Datenabweichung" auf der Seite "Datenüberwachungsergebnisse"
-
Features - Im Abschnitt "Features" werden die überwachten Features zusammen mit den berechneten Statistiken angezeigt.
Abbildung 7-12 Abschnitt "Funktionen" auf der Seite "Ergebnisse des Datenmonitors"
Der Wert in der Spalte Wichtigkeit gibt an, wie wirksam das Feature bei der Datenabweichung über einen bestimmten Zeitraum war.
Bei numerischen Daten werden die folgenden Statistiken berechnet:- Mittel
- Standardabweichung
- Bereich (Minimum, Maximum)
- Anzahl Nullwerte
Für kategoriale Daten werden die folgenden Statistiken berechnet:- Anzahl eindeutige Werte
- Anzahl Nullwerte
Bewegen Sie den Mauszeiger für jede überwachte Funktion, um die folgenden zusätzlichen Details anzuzeigen, wie im Screenshot hier dargestellt.
- Erstens: Dies ist der erste Wert der berechneten Statistiken für den Analysezeitraum.
- Zuletzt: Dies ist der letzte Wert der berechneten Statistiken für den Analysezeitraum.
- Max: Dies ist der höchste Wert der berechneten Statistiken für den Analysezeitraum.
- Min: Dies ist der niedrigste Wert der berechneten Statistiken für den Analysezeitraum.
- Klicken Sie auf ein überwachtes Feature im Abschnitt Features, um Metrik, Statistiken, Verteilung und Verteilung mit Kreuztabellenspalte anzuzeigen, wie im Screenshot hier dargestellt. Im Screenshot hier wird der Populationsstabilitätsindex für das Feature GLOBAL_REACTIVE_POWER angezeigt.
Abbildung 7-13 Bevölkerungsstabilitätsindex
Die Berechnungen umfassen:- Metrik: Die folgenden Metriken werden berechnet:
- Population Stability Index (PSI): Dies ist ein Maß dafür, wie viel eine Population im Laufe der Zeit oder zwischen zwei verschiedenen Stichproben einer Population in einer einzigen Zahl verschoben hat. Die beiden Verteilungen werden in Buckets eingeteilt, und PSI vergleicht die Prozentsätze der Artikel in jedem Bucket. PSI wird berechnet als
Die Interpretation des PSI-Wertes lautet:PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
impliziert keine signifikante Bevölkerungsänderung0.1 <= PSI < 0.2
impliziert einen moderaten BevölkerungswechselPSI >= 0.2
impliziert einen signifikanten Bevölkerungswechsel
- Jenson Shannon Distance (JSD): Dies ist ein Maß für die Ähnlichkeit zwischen zwei Wahrscheinlichkeitsverteilungen. JSD ist die Quadratwurzel der Jensen-Shannon Divergenz, die mit der Kullbach-Leibler Divergenz (KLD) verbunden ist. JSD wird wie folgt berechnet:
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
Wo, P und Q die 2 Distributionen sind,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
Der Wert von JSD liegt zwischen 0 und 1.
- Crosstab Population Stability Index: Dies ist die PSI für zwei Variablen.
- Kreuztabelle Jenson Shannon Entfernung: Dies ist die JSD für zwei Variablen.
- Population Stability Index (PSI): Dies ist ein Maß dafür, wie viel eine Population im Laufe der Zeit oder zwischen zwei verschiedenen Stichproben einer Population in einer einzigen Zahl verschoben hat. Die beiden Verteilungen werden in Buckets eingeteilt, und PSI vergleicht die Prozentsätze der Artikel in jedem Bucket. PSI wird berechnet als
- Statistiken: Sie können Statistiken für bis zu 3 ausgewählte Perioden anzeigen. Die Datenabweichung wird anhand dieser statistischen Berechnungen quantifiziert.
Abbildung 7-14: Statistiken
Bei numerischen Daten werden die folgenden Statistiken berechnet:- Mittel
- Standardabweichung
- Bereich (Minimum, Maximum)
- Anzahl Nullwerte
Für kategoriale Daten werden die folgenden Statistiken berechnet:- Anzahl eindeutige Werte
- Anzahl Nullwerte
- Aufteilung: Das Funktionsverteilungsdiagramm mit der Legende zeigt die Funktionsablagen für ausgewählte Perioden und den Basisplan an (optional).
Abbildung 7-15: Verteilungsdiagramm und Verteilung mit Spalte "Kreuztabelle"
- Verteilung mit Kreuztabellenspalte: Die Heatmap gibt die Verteilungsdichte für die ausgewählte Kreuztabelle und die Feature-Spalte an. Rot bezeichnet die höchste Dichte.
Hinweis:
In der Datenabweichungsüberwachung werdennulls
separat alsnumber_of_missing_values
verfolgt.
- Metrik: Die folgenden Metriken werden berechnet:
Übergeordnetes Thema: Erste Schritte mit Datenüberwachung
7.3 Historie anzeigen
Auf der Seite "Historie" werden die Laufzeitdetails von Datenüberwachungen angezeigt.
Wählen Sie einen Datenmonitor aus, und klicken Sie auf Historie, um die Laufzeitdetails anzuzeigen. Auf der Seite "Historie" werden die folgenden Informationen zur Laufzeit des Datenmonitors angezeigt:
Abbildung 7-16: Seite "Data Monitor-Historie"
- Tatsächliches Startdatum: Dies ist das Datum, an dem die Datenüberwachung tatsächlich gestartet wurde.
- Angefordertes Startdatum: Dieses Datum wird beim Erstellen des Datenmonitors in das Feld
Start Date
eingegeben. - Status: Die Statusangaben lauten
SUCCEEDED
undFAILED
. - Details: Wenn ein Datenmonitor nicht erfolgreich verläuft, werden die Details hier aufgeführt.
- Dauer: Dies ist die Zeit, die zur Ausführung des Datenmonitors benötigt wird.
Klicken Sie auf Zurück zu Monitoren, um zur Seite "Datenüberwachung" zurückzukehren.
Übergeordnetes Thema: Erste Schritte mit Datenüberwachung