Valutare i modelli di apprendimento automatico mediante i grafici Lift e Guadagni

I grafici Lift e Guadagni consentono di confrontare modelli di apprendimento automatico diversi per determinare il modello più accurato.

Panoramica dell'uso dei grafici Lift e Guadagni

I grafici Lift e Guadagni consentono di valutare i modelli di apprendimento automatico predittivi mediante la rappresentazione grafica delle statistiche di modellazione in una visualizzazione di Oracle Analytics.

Quando si utilizza un flusso di dati per applicare un modello di classificazione a un data set, Oracle Analytics consente di calcolare i valori di lift e guadagno. È quindi possibile visualizzare questi dati in un grafico per rendere più agevole la valutazione dell'accuratezza dei modelli predittivi e determinare il modello migliore da utilizzare.

Segue la descrizione di GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png
.png

Prerequisiti

  • Oracle Database o Oracle Autonomous Data Warehouse
  • Un modello di classificazione che includa la probabilità di previsione (ad esempio, un modello classificatore multiplo creato utilizzando lo script di formazione Naive Bayes).

    È possibile accedere a modelli predittivi esistenti nell'area Machine Learning di Oracle Analytics.

Statistiche generate per l'analisi Lift e Guadagni

Quando si applica un modello di classificazione predittivo a un data set e si generano le statistiche Lift e Guadagni, si produce un data set denominato <nome flusso di dati>_LIFT con le colonne descritte di seguito.
  • PopulationPercentile: la popolazione del data set suddivisa in 100 gruppi uguali.
  • CumulativeGain: rapporto del numero cumulativo di target positivi fino a un determinato percentile rispetto al numero totale dei target positivi. Più la linea dei guadagni cumulativi è vicina all'angolo superiore sinistro del grafico, maggiore è il guadagno e più alta è la proporzione dei rispondenti raggiunti per la proporzione inferiore dei clienti contattati.
  • GainChartBaseline: percentuale di risposte complessiva. La linea rappresenta la percentuale di record positivi che si prevede di ottenere in caso di selezione casuale dei record. Ad esempio, durante una campagna di marketing, se si contatta in modo casuale una percentuale X% di clienti, si riceverà una percentuale X% delle risposte positive totali.
  • LiftChartBaseline: valore 1 utilizzato come baseline per il confronto lift.
  • LiftValue: lift cumulativo per un percentile. Per lift si intende il rapporto tra la densità dei record positivi cumulativi per i dati selezionati rispetto alla densità positiva di tutti i dati di test.
  • IdealModelLine: rapporto del numero cumulativo di target positivi rispetto al numero totale dei target positivi.
  • OptimalGain: indica il numero ottimale di clienti da contattare. La curva di guadagno cumulativo si appiattirà oltre questo punto.

È quindi possibile visualizzare il data set <nome flusso di dati>_LIFT in un grafico di Oracle Analytics. Ad esempio, per analizzare i guadagni è possibile rappresentare i dati PopulationPercentile sull'asse X e i dati CumulativeGain, GainChartBaseline, IdealModelLine e OptimalGain sull'asse Y.

Segue la descrizione di GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png
.png

Generare dati predittivi per i grafici Lift e Guadagni

Quando si utilizza un flusso di dati per applicare un modello di classificazione a un data set, Oracle Analytics consente di calcolare statistiche che è possibile visualizzare nei grafici Lift e Guadagni.

Prima di iniziare, creare un modello di classificazione che includa la probabilità di previsione (ad esempio, un modello classificatore multiplo creato utilizzando lo script di formazione Naive Bayes). Oracle Analytics visualizza i modelli disponibili nella scheda Modelli della pagina Machine Learning (nella home page fare clic su Machine Learning).
  1. Nella home page fare clic su Crea, quindi fare clic su Flusso di dati.
  2. Selezionare un'origine dati, quindi fare clic su Aggiungi.
  3. Fare clic su Aggiungi passo, quindi selezionare Applica modello.
  4. In Seleziona modello selezionare un modello di classificazione che includa la probabilità di previsione, quindi fare clic su OK.
  5. In Applica modello, sezione Parametri, effettuare le operazioni riportate di seguito.
    • In Calcola lift e guadagno selezionare .
    • In Colonna di destinazione per calcolo lift selezionare il nome della colonna del valore di cui viene eseguita la previsione. Ad esempio, se il modello prevede se i clienti firmeranno per una sottoscrizione utilizzando una colonna denominata FIRMA, selezionare FIRMA.
    • In Classe positiva da calcolare specificare il valore dati con distinzione tra maiuscole e minuscole che rappresenta la classe positiva (o il risultato preferito) nella previsione. Ad esempio, se il modello prevede se i clienti firmeranno per una sottoscrizione utilizzando una colonna denominata FIRMA con valori NO e SÌ, specificare SÌ.
  6. Aggiungere un nodo Salva dati al flusso di dati.
  7. Eseguire il flusso di dati.
Il flusso di dati produce un data set denominato <nome flusso di dati>_LIFT, che contiene le statistiche di lift e guadagno che l'utente potrà valutare.

Valutare un modello di apprendimento automatico mediante un grafico Lift e Guadagni

Utilizzare un grafico per analizzare le statistiche generate dai modelli di classificazione di Machine Learning per determinare il modello migliore da utilizzare.

Prima di iniziare, applicare un modello predittivo ai dati e generare le statistiche di lift e guadagni in un data set.
  1. Nella Home page fare clic su Crea, quindi fare clic su Cartella di lavoro.
  2. In Aggiungi data set selezionare il data set <nome flusso di dati>_LIFT generato con il task precedente, quindi fare clic su Aggiungi a cartella di lavoro.
  3. Nel pannello Visualizza selezionare le statistiche da analizzare, quindi fare clic con il pulsante destro del mouse, selezionare Seleziona visualizzazione e scegliere Grafico a linee.
    Ad esempio, per analizzare i guadagni è possibile posizionare PopulationPercentile sull'asse x e CumulativeGain, GainChartBaseline, IdealModelLine e OptimalGain sull'asse y.
    Per analizzare il lift è possibile posizionare PopulationPercentile sull'asse x e LiftChartBaseline e LiftValue sull'asse y.