7 Guida introduttiva al monitoraggio dei dati

Data Monitoring valuta l'evoluzione dei dati nel tempo. Ti aiuta con insight su tendenze e dipendenze multivariate nei dati. Ti dà anche un preavviso sulla deriva dei dati.

La deviazione dei dati si verifica quando i dati divergono dai dati di base originali nel tempo. La deriva dei dati può verificarsi per una serie di motivi, come un ambiente aziendale in evoluzione, un comportamento e un interesse degli utenti in evoluzione, modifiche dei dati da fonti di terze parti, problemi di qualità dei dati o problemi con le pipeline di elaborazione dei dati a monte.

La chiave per interpretare con precisione i tuoi modelli e garantire che i modelli siano in grado di risolvere i problemi aziendali è capire come si evolvono i dati nel tempo. Il monitoraggio dei dati è complementare al monitoraggio dei modelli di successo, poiché la comprensione dei cambiamenti nei dati è fondamentale per comprendere i cambiamenti nell'efficacia dei modelli. La capacità di rilevare rapidamente e in modo affidabile i cambiamenti nelle proprietà statistiche dei dati garantisce che i modelli di machine learning siano in grado di soddisfare gli obiettivi aziendali.

È possibile monitorare i dati utilizzando la funzionalità di monitoraggio dei dati dell'interfaccia utente di Oracle Machine Learning. Per monitorare i dati, fare clic sul menu Cloud nella home page dell'interfaccia utente di Oracle Machine Learning, fare clic su Monitoraggio, quindi su Dati per aprire la pagina Controlli dati. Nella pagina Controlli dati è possibile eseguire i task seguenti:

Figura 7-1 Pagina Monitor dati

Pagina Controlli dati
  • Crea: crea un monitoraggio dati.

    Nota

    I tipi di dati supportati per il monitoraggio dei dati sono NUMERIC e CATEGORICAL.
  • Modifica: selezionare un monitoraggio dati e fare clic su Modifica per modificare un monitoraggio dati.
  • Duplica: selezionare un monitoraggio dati e fare clic su Duplica per creare una copia del monitoraggio.
  • Elimina: selezionare un monitoraggio dati e fare clic su Elimina per eliminare un monitoraggio dati.
  • Cronologia: selezionare un monitoraggio dati e fare clic su Cronologia per visualizzare i dettagli del runtime. Fare clic su Torna ai monitoraggi per tornare alla pagina Monitoraggio dati.
  • Avvia: avviare un monitoraggio dati.
  • Arresta: arrestare un monitoraggio dati in esecuzione.
  • Altro: fare clic su Altro per ulteriori opzioni per:

    Figura 7-2 Altre opzioni in Monitor di dati

    Ulteriori opzioni sotto Monitoraggio dati
    • Abilita: selezionare un monitoraggio dati e fare clic su Abilita per abilitare un monitoraggio disabilitato. Per impostazione predefinita, un monitoraggio dei dati è abilitato. Lo stato viene visualizzato come SCHEDULED.
    • Disabilita: selezionare un monitoraggio dati e fare clic su Disabilita per disabilitare un monitoraggio dati. Lo stato viene visualizzato come DISABLED.
    • Mostra monitoraggi gestiti: fare clic su questa opzione per visualizzare i monitoraggi dei dati creati e gestiti dall'API REST dei servizi OML e dai monitoraggi dei modelli nell'interfaccia utente di Oracle Machine Learning. I monitor dati gestiti da questi due componenti hanno un nome generato dal sistema e sono indicati da icone specifiche rispetto al nome.
      • Fare clic sull'icona di collegamento relativa al nome di un monitoraggio dati gestito per visualizzare i dettagli del monitoraggio modello associato. I dettagli del monitoraggio del modello associato vengono visualizzati in un riquadro separato in cui è possibile eseguire la diapositiva. Nel riquadro a scorrimento viene visualizzato il nome del monitor modello con collegamenti per visualizzare i risultati e le impostazioni del monitor modello. Facendo clic sull'icona del collegamento vengono visualizzati anche i dettagli della deviazione dei dati nel riquadro inferiore della pagina Monitoraggi dati. Fare clic sulla X nell'angolo in alto a sinistra per chiudere il riquadro.

        Figura 7-3 Pagina Monitor dati che visualizza i risultati e le impostazioni del monitor modello associato

        Pagina Controlli dati che visualizza i risultati e le impostazioni del modello associato

        In questo esempio, nel riquadro di scorrimento vengono visualizzati i dettagli del monitor modello Consumo energia. Nel riquadro di scorrimento:

        • Fare clic su Risultati monitoraggio modello per visualizzare i risultati calcolati dal monitoraggio modello: impostazioni, modelli, deviazione del modello, metrica e statistiche di previsione. Fare clic su Monitor per tornare alla pagina Monitoraggi dati. Vedere Visualizza risultati monitoraggio modello.
        • Fare clic su Impostazioni monitoraggio modello per visualizzare e modificare le impostazioni, i dettagli e i modelli monitorati dal monitoraggio modello nella pagina Modifica monitoraggio modello. Fare clic su Annulla per tornare alla pagina Monitoraggi dati. Fare clic su Salva per salvare le modifiche.
      • Fare clic sulla casella di controllo relativa al nome del monitoraggio dei dati per visualizzare i valori di deviazione dei dati nel riquadro inferiore.

        Figura 7-4 Selezionare un monitor dati gestito

        Selezionare un monitoraggio dati gestito
      • Fare clic sul nome del monitoraggio dati per visualizzare i dettagli del monitoraggio dati: impostazioni, valori di deviazione dati e funzioni monitorate.

        Figura 7-5 Clic sul monitor dei dati

        Clic di monitoraggio dati

La pagina Controlli dati visualizza le informazioni sul monitoraggio selezionato: Nome monitoraggio, Dati baseline, Nuovi dati, Data ultimo inizio, Ultimo stato, Dati esecuzione successiva, Stato e Pianificazione. Se il monitoraggio dei dati è stato eseguito correttamente, nella pagina viene visualizzata anche la deviazione dei dati. Per visualizzare la deviazione dei dati:

Figura 7-6 Anteprima della deviazione dei dati nella pagina Monitor dei dati

Anteprima deviazione dati nella pagina Controlli dati

Selezionare un monitoraggio dati eseguito correttamente, come mostrato nello screenshot. Nel riquadro inferiore viene visualizzata la deviazione dei dati del monitor selezionato. L'asse X rappresenta il periodo di analisi e l'asse Y rappresenta i valori di deviazione dei dati. La linea tratteggiata orizzontale rappresenta il valore di soglia e la linea rappresenta il valore di deriva per ciascun point in time per il periodo di analisi. Passare il puntatore del mouse sulla linea per visualizzare i valori di deviazione. Per ulteriori informazioni su questo esempio, vedere Visualizza risultati monitoraggio dati.

Argomenti correlati

7.1 Creare un monitoraggio dati

Il monitoraggio dei dati consente di rilevare la deriva dei dati nel tempo e l'impatto potenzialmente negativo sulle prestazioni dei modelli di machine learning. Nella pagina Monitoraggio dati è possibile creare, eseguire e tenere traccia dei monitoraggi dei dati e dei risultati.

Per creare un monitoraggio dati:
  1. Nel menu di navigazione a sinistra dell'interfaccia utente di Oracle Machine Learning espandere Monitoraggio, quindi fare clic su Dati per aprire la pagina Monitoraggio dati.
  2. Nella pagina Monitoraggio dati, fare clic su Crea per aprire la pagina Nuovo monitoraggio dati.
  3. Inserire i dettagli seguenti nella pagina Monitoraggio nuovi dati:

    Figura 7-7 Nuovo monitor dati

    Nuovo monitoraggio dati
    1. Nome controllo: immettere un nome per il controllo dati.
    2. Commenti: inserire commenti. Questo campo è facoltativo.
    3. Dati di base: questa è una tabella o una vista che contiene dati di baseline da monitorare. Fare clic sull'icona di ricerca per aprire la finestra di dialogo Seleziona tabella. Selezionare uno schema, quindi una tabella.

      Nota

      I tipi di dati supportati per il monitoraggio dei dati sono NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, e NVARCHAR2 con lunghezza <=4000.
    4. Nuovi dati: questa è una tabella o una vista con nuovi dati da confrontare con i dati della baseline. Fare clic sull'icona di ricerca per aprire la finestra di dialogo Seleziona tabella. Selezionare uno schema, quindi una tabella.

      Nota

      I tipi di dati supportati per il monitoraggio dei dati sono NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, e NVARCHAR2 con lunghezza <=4000.
    5. Campi incrociati: selezionare un attributo dall'elenco a discesa. Questo attributo nella baseline e nei nuovi dati funge da ancoraggio o destinazione per l'analisi bi-variata dei dati.

      Nota

      La colonna di destinazione nei problemi supervisionati può essere passata come colonna di ancoraggio in questo campo. Per i problemi non supervisionati, può essere qualsiasi colonna di interesse. Tuttavia, sarà specifico per applicazione.
    6. ID caso: questo campo è facoltativo. Immettere un identificativo caso per la baseline e i nuovi dati per migliorare la ripetibilità dei risultati.
    7. Colonna temporale: nome di una colonna che memorizza le informazioni sull'ora nella tabella o vista Nuovi dati. Selezionare la colonna dell'ora dall'elenco a discesa.

      Nota

      Se la colonna temporale è vuota, tutti i nuovi dati vengono considerati come un periodo.
    8. Periodo analisi: indica il periodo di tempo durante il quale viene eseguito il monitoraggio dei dati sui nuovi dati. Selezionare il periodo di analisi per il monitoraggio dei dati. Le opzioni disponibili sono Day, Week, Month, Year.
    9. Data inizio: questa è la data di inizio della pianificazione del monitoraggio dati. Se non si specifica una data di inizio, come data di inizio verrà utilizzata la data corrente.
    10. Ripeti: questo valore definisce il numero di ripetizioni dell'esecuzione del monitoraggio dati per la frequenza definita. Immettere un numero compreso tra 1 e 99. Ad esempio, se si immette 2 nel campo Ripeti e Minutes nel campo Frequenza, il monitoraggio dei dati verrà eseguito ogni 2 minuti.
    11. Frequenza: questo valore determina la frequenza con cui l'esecuzione del monitoraggio dei dati verrà eseguita sui nuovi dati. Selezionare una frequenza per il monitoraggio dei dati. Le opzioni disponibili sono Minuti, Ore, Giorni, Settimane, Mesi. Ad esempio, se si seleziona Minutes nel campo Frequenza, 2 nel campo Ripeti e 5/30/23 nel campo Data inizio, in base alla pianificazione il monitoraggio dei dati verrà eseguito a partire dal 30/5/23 ogni 2 minuti.
  4. Fare clic su Ricalcola: selezionare questa opzione per ricalcolare l'analisi per il periodo di tempo già calcolato. Per impostazione predefinita, il ricalcolo è disabilitato.
    • Se abilitata, l'analisi della deviazione dei dati viene eseguita per il periodo di tempo specificato nei campi Data inizio e Ora fine. L'analisi sovrascriverà i risultati già esistenti per il periodo di tempo specificato. Ciò significa che l'analisi verrà calcolata per il periodo di tempo con nuovi dati diversi dai dati correnti. I nuovi risultati dell'analisi possono sovrapporsi ai risultati esistenti a seconda della frequenza selezionata.
    • Se l'opzione è disabilitata, i dati relativi al periodo di tempo presente nella tabella dei risultati verranno mantenuti invariati. Solo i nuovi dati per il periodo di tempo più recente verranno presi in considerazione per l'analisi e i risultati verranno aggiunti alla tabella dei risultati.
  5. Fare clic su Impostazioni aggiuntive per espandere questa sezione e fornire impostazioni avanzate per il monitoraggio dati:

    Figura 7-8 Impostazioni aggiuntive per il monitoraggio dei dati

    Sezione Impostazioni aggiuntive monitoraggio dati
    1. Soglia di deviazione: la deviazione acquisisce la variazione relativa delle prestazioni tra i dati della baseline e il nuovo periodo di dati. In base a un problema specifico di apprendimento automatico, impostare il valore di soglia per il rilevamento della deviazione dei dati. L'impostazione predefinita è 0.7.

      Nota

      È possibile modificare il valore di soglia in base al caso d'uso. L'aumento del valore genererà meno avvisi, mentre la riduzione del valore genererà più avvisi.
      • Una deviazione al di sopra di questa soglia indica una modifica significativa dei dati. Il superamento della soglia indica che potrebbe essere necessario ricreare e ridistribuire il modello.
      • Una deriva al di sotto di questa soglia indica che i dati non sono sufficientemente modificati per giustificare ulteriori indagini o azioni.
    2. Livello di servizio del database: si tratta dei livelli di servizio di Autonomous Database: Low, Medium, High. L'impostazione predefinita è Low. Il livello di servizio Medium fornisce più risorse per l'esecuzione del monitoraggio dei dati rispetto a Low. Il livello di servizio High fornisce più risorse all'esecuzione del monitoraggio dei dati rispetto a Medium.
    3. Filtro analisi: abilitare questa opzione se si desidera l'analisi del monitoraggio dei dati per un periodo di tempo specifico. Spostare il dispositivo di scorrimento a destra per abilitarlo, quindi selezionare una data rispettivamente nei campi Data - Da e Data - A. Questo campo è disabilitato per impostazione predefinita.
      • Data - Da: data di inizio o indicatore orario del monitoraggio in Nuovi dati. Si presuppone l'esistenza di una colonna temporale nella tabella. Questo campo è obbligatorio se si utilizza l'opzione Filtro analisi.
      • Data - A: data di fine o indicatore orario del monitoraggio nei nuovi dati. Si presuppone l'esistenza di una colonna temporale nella tabella. Questo campo è obbligatorio se si utilizza l'opzione Filtro analisi.
    4. Numero massimo di esecuzioni: indica il numero massimo di esecuzioni che il monitoraggio dati può essere eseguito in base a questa schedulazione. L'impostazione predefinita è 3.
  6. Nella griglia Funzioni viene visualizzato l'elenco delle funzioni da monitorare. Qui è possibile selezionare o deselezionare le funzioni da includere o escludere dal monitoraggio. Per impostazione predefinita, tutte le funzioni sono selezionate. Le statistiche delle funzioni vengono fornite se i dati selezionati sono una tabella e le statistiche RDBMS vengono raccolte automaticamente da Autonomous Database. Oracle Machine Learning Services calcola le statistiche alla prima esecuzione per entrambe, tabelle e viste e i calcoli vengono visualizzati qui dopo la prima esecuzione. Le statistiche vengono aggiornate dalle esecuzioni successive.

    Figura 7-9 Griglia delle funzioni in Data Monitor

    Griglia funzioni in Monitoraggio dati

    Nota

    Impossibile selezionare le colonne ID caso e Scheda incrociata.
  7. Fare clic su Salva. Il task di creazione del monitoraggio dati viene completato.

    Nota

    A questo punto, è necessario andare alla pagina Monitoraggio dati, selezionare il monitoraggio dati e fare clic su Avvia per avviare il monitoraggio dei dati.
    Dopo che il monitoraggio dei dati è stato eseguito correttamente, selezionare il monitoraggio nella pagina Monitoraggio dati per visualizzare la deviazione dei dati e altri dettagli del monitoraggio dei dati. Per ulteriori informazioni, vedere Introduzione al monitoraggio dei dati.

7.2 Visualizzare i risultati del monitoraggio dei dati

La pagina Risultati monitoraggio dati visualizza le informazioni sul monitoraggio dati selezionato che sono state eseguite correttamente, insieme ai dettagli delle deviazioni dati per ogni funzione monitorata.

Nella pagina Controlli dati, fare clic su un monitoraggio dati eseguito correttamente. In questo esempio, è selezionato il monitor dati Power Consumption. I risultati del monitoraggio dati vengono visualizzati nella pagina Risultati monitoraggio dati che comprende le sezioni riportate di seguito.
  • Impostazioni: nella sezione Impostazioni vengono visualizzate le impostazioni di monitoraggio dei dati. Fare clic sulla freccia contro Impostazioni per espandere questa sezione. È possibile modificare le impostazioni di monitoraggio dei dati facendo clic su Modifica nell'angolo superiore destro della pagina. In questo screenshot vengono visualizzate le impostazioni per il monitoraggio dei dati Power Consumption.

    Figura 7-10 Sezione Impostazioni nella pagina Risultati monitoraggio dati

    Sezione Impostazioni nella pagina Risultati monitoraggio dati
  • Drift: nella sezione Drift vengono visualizzati i dettagli della deviazione dei dati per ciascuna funzione monitorata. In questo esempio è selezionato il monitoraggio dati Consumo energia del monitoraggio dati. L'asse X rappresenta il periodo di analisi e l'asse Y rappresenta i valori di deviazione dei dati. La linea tratteggiata orizzontale rappresenta il valore di soglia e la linea rappresenta il valore di deriva per ciascun point in time per il periodo di analisi. Passare il puntatore del mouse sulla linea per visualizzare i valori di deviazione.

    Figura 7-11 Sezione deviazione dati nella pagina Risultati monitoraggio dati

    Sezione deviazione dati nella pagina Risultati monitoraggio dati
  • Funzioni: nella sezione Funzioni vengono visualizzate le funzioni monitorate insieme alle statistiche calcolate.

    Figura 7-12 Sezione Funzioni nella pagina Risultati monitoraggio dati

    Sezione Funzioni della pagina Risultati monitoraggio dati

    Il valore nella colonna Importanza indica l'impatto della funzione sulla deviazione dei dati in un periodo di tempo specificato.

    Per i dati numerici vengono calcolate le seguenti statistiche:
    • Media
    • Deviazione standard
    • Intervallo (minimo, massimo)
    • Numero di valori null
    Per i dati di categoria vengono calcolate le seguenti statistiche:
    • Numero di valori univoci
    • Numero di valori null

    Per ogni funzione monitorata, passa il mouse per visualizzare i seguenti dettagli aggiuntivi, come mostrato nello screenshot qui.

    • Primo: questo è il primo valore delle statistiche calcolate per il periodo di analisi.
    • Ultimo: questo è l'ultimo valore delle statistiche calcolate per il periodo di analisi.
    • Max: valore più alto delle statistiche calcolate per il periodo di analisi.
    • Min: valore più basso delle statistiche calcolate per il periodo di analisi.
  • Fare clic su qualsiasi funzione monitorata nella sezione Funzioni per visualizzare la metrica, le statistiche, la distribuzione e la distribuzione con colonna a campi incrociati, come mostrato nello screenshot qui. Nello screenshot qui, viene visualizzato l'indice di stabilità della popolazione per la funzione GLOBAL_REACTIVE_POWER.

    Figura 7-13 Indice di stabilità della popolazione

    Indice di stabilità popolazione
    I calcoli includono:
    • Metrica: vengono calcolate le metriche riportate di seguito.
      • Indice di stabilità della popolazione (PSI): Questa è una misura di quanto una popolazione si è spostata nel tempo o tra due diversi campioni di una popolazione in un singolo numero. Le due distribuzioni sono raggruppate in periodi fissi e PSI confronta le percentuali degli articoli in ciascuno dei periodi fissi. PSI viene calcolato come

        PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))

        L'interpretazione del valore PSI è:
        • PSI < 0.1 non implica alcun cambiamento significativo della popolazione
        • 0.1 <= PSI < 0.2 implica un moderato cambiamento di popolazione
        • PSI >= 0.2 implica un cambiamento significativo della popolazione
      • Jenson Shannon Distance (JSD): Questa è una misura della somiglianza tra due distribuzioni di probabilità. Il JSD è la radice quadrata della Divergenza Jensen-Shannon che è correlata alla Divergenza Kullbach-Leibler (KLD). Il JSD viene calcolato come segue:

        SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))

        Dove, P e Q sono le 2 distribuzioni, M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))

        Il valore di JSD è compreso tra 0 e 1.

      • Indice di stabilità della popolazione a campi incrociati: questo è il PSI per due variabili.
      • Crosstab Jenson Shannon Distanza: Questo è il JSD per due variabili.
    • Statistiche: è possibile visualizzare le statistiche per un massimo di 3 periodi selezionati. La deriva dei dati viene quantificata utilizzando questi calcoli statistici.

      Figura 7-14 Statistiche

      Statistiche
      Per i dati numerici vengono calcolate le seguenti statistiche:
      • Media
      • Deviazione standard
      • Intervallo (minimo, massimo)
      • Numero di valori null
      Per i dati di categoria vengono calcolate le seguenti statistiche:
      • Numero di valori univoci
      • Numero di valori null
    • Distribuzione: il grafico di distribuzione delle entità geografiche con legenda visualizza i bin delle entità geografiche per i periodi selezionati e la baseline (facoltativo).

      Figura 7-15 Grafico di distribuzione e distribuzione con colonna Campi incrociati

      Distribuzione con colonna a campi incrociati
    • Distribuzione con colonna a campi incrociati: la mappa cromatica indica la densità di distribuzione per i campi incrociati selezionati e la colonna delle entità geografiche. Il rosso indica la densità più alta.

      Nota

      Nel monitoraggio della deviazione dei dati, nulls viene tracciato separatamente come number_of_missing_values.

7.3 Visualizzazione della cronologia

La pagina Cronologia visualizza i dettagli di runtime dei monitoraggi dei dati.

Selezionare un monitoraggio dati e fare clic su Cronologia per visualizzare i dettagli di runtime. La pagina Cronologia visualizza le seguenti informazioni sul runtime del monitoraggio dati:

Figura 7-16 Pagina Cronologia monitoraggio dati

Pagina Cronologia monitoraggio dati
  • Data inizio effettiva: questa è la data di inizio effettivo del monitoraggio dei dati.
  • Data inizio richiesta: questa è la data immessa nel campo Start Date durante la creazione del monitoraggio dati.
  • Stato: gli stati sono SUCCEEDED e FAILED.
  • Dettagli: se un monitoraggio dei dati non riesce, i dettagli vengono elencati qui.
  • Durata: indica il tempo necessario per eseguire il monitoraggio dei dati.

Fare clic su Torna ai monitoraggi per tornare alla pagina Monitoraggio dati.