7 Guida introduttiva al monitoraggio dei dati
Data Monitoring valuta l'evoluzione dei dati nel tempo. Ti aiuta con insight su tendenze e dipendenze multivariate nei dati. Ti dà anche un preavviso sulla deriva dei dati.
La deviazione dei dati si verifica quando i dati divergono dai dati di base originali nel tempo. La deriva dei dati può verificarsi per una serie di motivi, come un ambiente aziendale in evoluzione, un comportamento e un interesse degli utenti in evoluzione, modifiche dei dati da fonti di terze parti, problemi di qualità dei dati o problemi con le pipeline di elaborazione dei dati a monte.
La chiave per interpretare con precisione i tuoi modelli e garantire che i modelli siano in grado di risolvere i problemi aziendali è capire come si evolvono i dati nel tempo. Il monitoraggio dei dati è complementare al monitoraggio dei modelli di successo, poiché la comprensione dei cambiamenti nei dati è fondamentale per comprendere i cambiamenti nell'efficacia dei modelli. La capacità di rilevare rapidamente e in modo affidabile i cambiamenti nelle proprietà statistiche dei dati garantisce che i modelli di machine learning siano in grado di soddisfare gli obiettivi aziendali.
Figura 7-1 Pagina Monitor dati
- Crea: crea un monitoraggio dati.
Nota
I tipi di dati supportati per il monitoraggio dei dati sono NUMERIC e CATEGORICAL. - Modifica: selezionare un monitoraggio dati e fare clic su Modifica per modificare un monitoraggio dati.
- Duplica: selezionare un monitoraggio dati e fare clic su Duplica per creare una copia del monitoraggio.
- Elimina: selezionare un monitoraggio dati e fare clic su Elimina per eliminare un monitoraggio dati.
- Cronologia: selezionare un monitoraggio dati e fare clic su Cronologia per visualizzare i dettagli del runtime. Fare clic su Torna ai monitoraggi per tornare alla pagina Monitoraggio dati.
- Avvia: avviare un monitoraggio dati.
- Arresta: arrestare un monitoraggio dati in esecuzione.
- Altro: fare clic su Altro per ulteriori opzioni per:
Figura 7-2 Altre opzioni in Monitor di dati
- Abilita: selezionare un monitoraggio dati e fare clic su Abilita per abilitare un monitoraggio disabilitato. Per impostazione predefinita, un monitoraggio dei dati è abilitato. Lo stato viene visualizzato come
SCHEDULED
. - Disabilita: selezionare un monitoraggio dati e fare clic su Disabilita per disabilitare un monitoraggio dati. Lo stato viene visualizzato come
DISABLED
. - Mostra monitoraggi gestiti: fare clic su questa opzione per visualizzare i monitoraggi dei dati creati e gestiti dall'API REST dei servizi OML e dai monitoraggi dei modelli nell'interfaccia utente di Oracle Machine Learning. I monitor dati gestiti da questi due componenti hanno un nome generato dal sistema e sono indicati da icone specifiche rispetto al nome.
- Fare clic sull'icona di collegamento relativa al nome di un monitoraggio dati gestito per visualizzare i dettagli del monitoraggio modello associato. I dettagli del monitoraggio del modello associato vengono visualizzati in un riquadro separato in cui è possibile eseguire la diapositiva. Nel riquadro a scorrimento viene visualizzato il nome del monitor modello con collegamenti per visualizzare i risultati e le impostazioni del monitor modello. Facendo clic sull'icona del collegamento vengono visualizzati anche i dettagli della deviazione dei dati nel riquadro inferiore della pagina Monitoraggi dati. Fare clic sulla X nell'angolo in alto a sinistra per chiudere il riquadro.
Figura 7-3 Pagina Monitor dati che visualizza i risultati e le impostazioni del monitor modello associato
In questo esempio, nel riquadro di scorrimento vengono visualizzati i dettagli del monitor modello Consumo energia. Nel riquadro di scorrimento:
- Fare clic su Risultati monitoraggio modello per visualizzare i risultati calcolati dal monitoraggio modello: impostazioni, modelli, deviazione del modello, metrica e statistiche di previsione. Fare clic su Monitor per tornare alla pagina Monitoraggi dati. Vedere Visualizza risultati monitoraggio modello.
- Fare clic su Impostazioni monitoraggio modello per visualizzare e modificare le impostazioni, i dettagli e i modelli monitorati dal monitoraggio modello nella pagina Modifica monitoraggio modello. Fare clic su Annulla per tornare alla pagina Monitoraggi dati. Fare clic su Salva per salvare le modifiche.
- Fare clic sulla casella di controllo relativa al nome del monitoraggio dei dati per visualizzare i valori di deviazione dei dati nel riquadro inferiore.
Figura 7-4 Selezionare un monitor dati gestito
- Fare clic sul nome del monitoraggio dati per visualizzare i dettagli del monitoraggio dati: impostazioni, valori di deviazione dati e funzioni monitorate.
Figura 7-5 Clic sul monitor dei dati
- Fare clic sull'icona di collegamento relativa al nome di un monitoraggio dati gestito per visualizzare i dettagli del monitoraggio modello associato. I dettagli del monitoraggio del modello associato vengono visualizzati in un riquadro separato in cui è possibile eseguire la diapositiva. Nel riquadro a scorrimento viene visualizzato il nome del monitor modello con collegamenti per visualizzare i risultati e le impostazioni del monitor modello. Facendo clic sull'icona del collegamento vengono visualizzati anche i dettagli della deviazione dei dati nel riquadro inferiore della pagina Monitoraggi dati. Fare clic sulla X nell'angolo in alto a sinistra per chiudere il riquadro.
- Abilita: selezionare un monitoraggio dati e fare clic su Abilita per abilitare un monitoraggio disabilitato. Per impostazione predefinita, un monitoraggio dei dati è abilitato. Lo stato viene visualizzato come
La pagina Controlli dati visualizza le informazioni sul monitoraggio selezionato: Nome monitoraggio, Dati baseline, Nuovi dati, Data ultimo inizio, Ultimo stato, Dati esecuzione successiva, Stato e Pianificazione. Se il monitoraggio dei dati è stato eseguito correttamente, nella pagina viene visualizzata anche la deviazione dei dati. Per visualizzare la deviazione dei dati:
Figura 7-6 Anteprima della deviazione dei dati nella pagina Monitor dei dati
Selezionare un monitoraggio dati eseguito correttamente, come mostrato nello screenshot. Nel riquadro inferiore viene visualizzata la deviazione dei dati del monitor selezionato. L'asse X rappresenta il periodo di analisi e l'asse Y rappresenta i valori di deviazione dei dati. La linea tratteggiata orizzontale rappresenta il valore di soglia e la linea rappresenta il valore di deriva per ciascun point in time per il periodo di analisi. Passare il puntatore del mouse sulla linea per visualizzare i valori di deviazione. Per ulteriori informazioni su questo esempio, vedere Visualizza risultati monitoraggio dati.
- Creare un monitoraggio dei dati
Il monitoraggio dei dati consente di rilevare la deviazione dei dati nel tempo e l'impatto potenzialmente negativo sulle prestazioni dei modelli di machine learning. Nella pagina Monitoraggio dati è possibile creare, eseguire e tenere traccia dei monitoraggi dei dati e dei risultati. - Visualizza risultati monitoraggio dati
La pagina Risultati monitoraggio dati visualizza le informazioni sul monitoraggio dati selezionato che sono state eseguite correttamente, insieme ai dettagli delle deviazioni dati per ogni funzione monitorata. - Visualizza cronologia
Nella pagina Cronologia vengono visualizzati i dettagli di runtime dei monitoraggi dei dati.
Argomenti correlati
7.1 Creare un monitoraggio dati
Il monitoraggio dei dati consente di rilevare la deriva dei dati nel tempo e l'impatto potenzialmente negativo sulle prestazioni dei modelli di machine learning. Nella pagina Monitoraggio dati è possibile creare, eseguire e tenere traccia dei monitoraggi dei dati e dei risultati.
Argomento padre: Guida introduttiva al monitoraggio dei dati
7.2 Visualizzare i risultati del monitoraggio dei dati
La pagina Risultati monitoraggio dati visualizza le informazioni sul monitoraggio dati selezionato che sono state eseguite correttamente, insieme ai dettagli delle deviazioni dati per ogni funzione monitorata.
- Impostazioni: nella sezione Impostazioni vengono visualizzate le impostazioni di monitoraggio dei dati. Fare clic sulla freccia contro Impostazioni per espandere questa sezione. È possibile modificare le impostazioni di monitoraggio dei dati facendo clic su Modifica nell'angolo superiore destro della pagina. In questo screenshot vengono visualizzate le impostazioni per il monitoraggio dei dati Power Consumption.
Figura 7-10 Sezione Impostazioni nella pagina Risultati monitoraggio dati
- Drift: nella sezione Drift vengono visualizzati i dettagli della deviazione dei dati per ciascuna funzione monitorata. In questo esempio è selezionato il monitoraggio dati Consumo energia del monitoraggio dati. L'asse X rappresenta il periodo di analisi e l'asse Y rappresenta i valori di deviazione dei dati. La linea tratteggiata orizzontale rappresenta il valore di soglia e la linea rappresenta il valore di deriva per ciascun point in time per il periodo di analisi. Passare il puntatore del mouse sulla linea per visualizzare i valori di deviazione.
Figura 7-11 Sezione deviazione dati nella pagina Risultati monitoraggio dati
-
Funzioni: nella sezione Funzioni vengono visualizzate le funzioni monitorate insieme alle statistiche calcolate.
Figura 7-12 Sezione Funzioni nella pagina Risultati monitoraggio dati
Il valore nella colonna Importanza indica l'impatto della funzione sulla deviazione dei dati in un periodo di tempo specificato.
Per i dati numerici vengono calcolate le seguenti statistiche:- Media
- Deviazione standard
- Intervallo (minimo, massimo)
- Numero di valori null
Per i dati di categoria vengono calcolate le seguenti statistiche:- Numero di valori univoci
- Numero di valori null
Per ogni funzione monitorata, passa il mouse per visualizzare i seguenti dettagli aggiuntivi, come mostrato nello screenshot qui.
- Primo: questo è il primo valore delle statistiche calcolate per il periodo di analisi.
- Ultimo: questo è l'ultimo valore delle statistiche calcolate per il periodo di analisi.
- Max: valore più alto delle statistiche calcolate per il periodo di analisi.
- Min: valore più basso delle statistiche calcolate per il periodo di analisi.
- Fare clic su qualsiasi funzione monitorata nella sezione Funzioni per visualizzare la metrica, le statistiche, la distribuzione e la distribuzione con colonna a campi incrociati, come mostrato nello screenshot qui. Nello screenshot qui, viene visualizzato l'indice di stabilità della popolazione per la funzione GLOBAL_REACTIVE_POWER.
Figura 7-13 Indice di stabilità della popolazione
I calcoli includono:- Metrica: vengono calcolate le metriche riportate di seguito.
- Indice di stabilità della popolazione (PSI): Questa è una misura di quanto una popolazione si è spostata nel tempo o tra due diversi campioni di una popolazione in un singolo numero. Le due distribuzioni sono raggruppate in periodi fissi e PSI confronta le percentuali degli articoli in ciascuno dei periodi fissi. PSI viene calcolato come
L'interpretazione del valore PSI è:PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
non implica alcun cambiamento significativo della popolazione0.1 <= PSI < 0.2
implica un moderato cambiamento di popolazionePSI >= 0.2
implica un cambiamento significativo della popolazione
- Jenson Shannon Distance (JSD): Questa è una misura della somiglianza tra due distribuzioni di probabilità. Il JSD è la radice quadrata della Divergenza Jensen-Shannon che è correlata alla Divergenza Kullbach-Leibler (KLD). Il JSD viene calcolato come segue:
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
Dove, P e Q sono le 2 distribuzioni,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
Il valore di JSD è compreso tra 0 e 1.
- Indice di stabilità della popolazione a campi incrociati: questo è il PSI per due variabili.
- Crosstab Jenson Shannon Distanza: Questo è il JSD per due variabili.
- Indice di stabilità della popolazione (PSI): Questa è una misura di quanto una popolazione si è spostata nel tempo o tra due diversi campioni di una popolazione in un singolo numero. Le due distribuzioni sono raggruppate in periodi fissi e PSI confronta le percentuali degli articoli in ciascuno dei periodi fissi. PSI viene calcolato come
- Statistiche: è possibile visualizzare le statistiche per un massimo di 3 periodi selezionati. La deriva dei dati viene quantificata utilizzando questi calcoli statistici.
Figura 7-14 Statistiche
Per i dati numerici vengono calcolate le seguenti statistiche:- Media
- Deviazione standard
- Intervallo (minimo, massimo)
- Numero di valori null
Per i dati di categoria vengono calcolate le seguenti statistiche:- Numero di valori univoci
- Numero di valori null
- Distribuzione: il grafico di distribuzione delle entità geografiche con legenda visualizza i bin delle entità geografiche per i periodi selezionati e la baseline (facoltativo).
Figura 7-15 Grafico di distribuzione e distribuzione con colonna Campi incrociati
- Distribuzione con colonna a campi incrociati: la mappa cromatica indica la densità di distribuzione per i campi incrociati selezionati e la colonna delle entità geografiche. Il rosso indica la densità più alta.
Nota
Nel monitoraggio della deviazione dei dati,nulls
viene tracciato separatamente comenumber_of_missing_values
.
- Metrica: vengono calcolate le metriche riportate di seguito.
Argomento padre: Guida introduttiva al monitoraggio dei dati
7.3 Visualizzazione della cronologia
La pagina Cronologia visualizza i dettagli di runtime dei monitoraggi dei dati.
Selezionare un monitoraggio dati e fare clic su Cronologia per visualizzare i dettagli di runtime. La pagina Cronologia visualizza le seguenti informazioni sul runtime del monitoraggio dati:
Figura 7-16 Pagina Cronologia monitoraggio dati
- Data inizio effettiva: questa è la data di inizio effettivo del monitoraggio dei dati.
- Data inizio richiesta: questa è la data immessa nel campo
Start Date
durante la creazione del monitoraggio dati. - Stato: gli stati sono
SUCCEEDED
eFAILED
. - Dettagli: se un monitoraggio dei dati non riesce, i dettagli vengono elencati qui.
- Durata: indica il tempo necessario per eseguire il monitoraggio dei dati.
Fare clic su Torna ai monitoraggi per tornare alla pagina Monitoraggio dati.
Argomento padre: Guida introduttiva al monitoraggio dei dati