Evaluere maskinlæringsmodeller ved hjelp av løft- og stigningsdiagrammer

Med løft- og stigningsdiagrammer kan du sammenligne ulike maskinlæringsmodeller, slik at du kan finne den mest nøyaktige modellen.

Oversikt over bruken av løft- og stigningsdiagrammer

Med løft- og stigningsdiagrammer kan du evaluere prediktive maskinlæringsmodeller ved å bruke diagrammer for modelleringsstatistikk i en visualisering i Oracle Analytics.

Når du benytter en dataflyt til å bruke en klassifiseringsmodell på et datasett, er det mulig å beregne løft- og stigningsverdier i Oracle Analytics. Du kan visualisere disse dataene i et diagram, slik at du bedre kan vurdere hvor nøyaktige de prediktive verdiene er, og fastslå hvilken som er best å bruke.

Beskrivelse av GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png følger
.png

Forutsetninger

  • Oracle Database eller Oracle Autonomous Data Warehouse
  • En klassifiseringsmodell som inkluderer prediksjonssannsynlighet (for eksempel en flerklassifiseringsmodell opprettet ved hjelp av opplæringsskriptet Naive Bayes).

    Du får tilgang til eksisterende prediktive modeller under Maskinlæring i Oracle Analytics.

Statistikk generert for løft- og stigningsanalyse

Når du bruker en prediktiv klassifiseringsmodell på et datasett og genererer løft- og stigningsstatistikk, produserer du et datasett med navnet <navn på dataflyt>_LIFT, som inneholder disse kolonnene:
  • PopulationPercentile - datasettutfyllingen er delt inn i 100 like grupper.
  • CumulativeGain - forholdet mellom kumulativt antall positive mål til og med denne persentilen og totalt antall positive mål. Jo nærmere den kumulative stigningslinjen er hjørnet øverst til venstre, jo større er stigningen, og jo høyere er andelen av svarere som er nådd for den lavere andelen av kunder som er kontaktet.
  • GainChartBaseline - den totale svarraten: linjen representerer prosentandelen av positive poster vi forventer å få hvis vi velger poster tilfeldig. Hvis vi for eksempel kontakter X % av kundene i en markedsføringskampanje tilfeldig, mottar vi X % av det totale antallet positive svar.
  • LiftChartBaseline - verdien er 1 og brukes som basis for sammenligninger i løftdiagrammer.
  • LiftValue - kumulativt løft for en persentil. Løft er forholdet mellom den kumulative tettheten av positive poster for de valgte dataene og den positive tettheten for alle testdataene.
  • IdealModelLine - forholdet mellom kumulativt antall positive mål og totalt antall positive mål.
  • OptimalGain - dette angir det optimale antallet kunder som skal kontaktes. Den kumulative stigningskurven flater ut etter dette punktet.

Deretter kan du visualisere datasettet <navn på dataflyt>_LIFT i et diagram i Oracle Analytics. Hvis du for eksempel vil analysere stigning, kan du plotte inn PopulationPercentile på X-aksen og CumulativeGain, GainChartBaseline, IdealModelLine og OptimalGain på Y-aksen.

Beskrivelse av GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png følger
.png

Generere prediktive data for løft- og stigningsdiagrammer

Når du bruker en dataflyt til å legge til en klassifiseringsmodell i et datasett, gjør Oracle Analytics det mulig å beregne statistikk du kan visualisere i løft- og stigningsdiagrammer.

Før du begynner, må du opprette en klassifiseringsmodell som inkluderer prediksjonssannsynlighet (for eksempel en flerklassifiseringsmodell opprettet ved hjelp av opplæringsskriptet Naive Bayes). Oracle Analytics viser tilgjengelige modeller i fanen Modeller på siden Maskinlæring (klikk på Maskinlæring på hjemmesiden).
  1. Klikk på Opprett på hjemmesiden, og klikk deretter på Dataflyt.
  2. Velg en datakilde, og klikk på Legg til.
  3. Klikk på Legg til et trinn, og velg Bruk modell.
  4. Velg en klassifiseringsmodell som inkluderer prediksjonssannsynlighet, under Velg modell, og klikk deretter på OK.
  5. Under Parametre i Bruk modell:
    • Velg Ja i Beregn løft og stigning.
    • Velg kolonnenavnet for verdien som blir forutsagt, i Målkolonne for beregning av løft. Hvis modellen for eksempel forutsier om kunder kommer til å tegne medlemskap via en kolonne med navnet REGISTRERING, velger du REGISTRERING.
    • Angi dataverdien (med skille mellom store og små bokstaver) som representerer den positive klassen (eller det foretrukne utfallet) i prediksjonen, i Positiv klasse som skal beregnes . Hvis modellen for eksempel forutsier om kunder kommer til tegne medlemskap via en kolonne med navnet REGISTRER, med verdiene JA eller NEI, angir du JA.
  6. Legg til knutepunktet Lagre data i dataflyten.
  7. Utfør denne dataflyten.
Dataflyten produserer et datasett med navnet <navn på dataflyt>_LIFT som inneholder løft- og stigningsstatistikk du kan evaluere.

Evaluere en maskinlæringsmodell ved hjelp av et løft- og stigningsdiagram

Bruk et diagram til å analysere statistikk som er generert av klassifiseringsmodeller for maskinlæring, for å fastslå hvilken modell som er den beste å bruke.

Før du begynner, bruker du en prediktiv modell på dataene og genererer løft- og stigningsstatistikk i et datasett.
  1. Klikk på Opprett på hjemmesiden, og klikk deretter på Arbeidsbok.
  2. Velg datasettet <navn på dataflyt>_LIFT som du genererte i den forrige oppgaven, i Legg til datasett. Klikk deretter på Legg til i arbeidsbok.
  3. Velg statistikken som skal analyseres, i ruten Visualiser. Høyreklikk, klikk på Velg visualisering, og velg deretter Linjediagram.
    Hvis du for eksempel vil analysere stigning, kan du plassere PopulationPercentile på X-aksen og plassere CumulativeGain, GainChartBaseline, IdealModelLine og OptimalGain på Y-aksen.
    Hvis du vil analysere løft, kan du plassere PopulationPercentile på X-aksen og plassere LiftChartBaseline og LiftValue på Y-aksen.