Evaluere modeller til maskinel indlæring ved hjælp af stignings- og gevinstdiagrammer

Med stignings- og gevinstdiagrammer kan du sammenligne forskellige modeller til maskinlæring for at finde den mest nøjagtige model.

Oversigt over brug af stignings- og gevinstdiagrammer

Stignings- og gevinstdiagrammer gør dig i stand til at evaluere forudsigelsesmodeller til maskinel indlæring ved at oprette et diagram over modelstatistik i en visualisering i Oracle Analytics.

Når du anvender en klassificeringsmodel på et datasæt ved hjælp af et dataflow, giver Oracle Analytics mulighed for, at du kan beregne stignings- og gevinstværdier. Du kan derefter visualisere disse data i et diagram, så du bedre kan vurdere forudsigelsesmodellernes nøjagtighed og bestemme, hvilken der er bedst at bruge.

Beskrivelse af GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png følger
.png

Forudsætninger

  • Oracle Database eller Oracle Autonomous Data Warehouse
  • En klassificeringsmodel, der indeholder forudsigelsessandsynlighed (for eksempel en multiklassificeringsmodel, der er oprettet ved hjælp af Naive Bayes-træningsscriptet).

    Du opretter forbindelse til eksisterende forudsigelsesmodeller i området Maskinel indlæring i Oracle Analytics.

Statistik, der er genereret til stignings- og gevinstanalyser

Når du anvender en forudsigelsesmodel til klassificering på et datasæt og genererer stignings- og gevinststatistik, producerer du et datasæt med navnet <Data flow name>_LIFT med disse kolonner:
  • Populationspercentil - Datasætpopulationen opdelt i 100 lige store grupper.
  • Kumulativ gevinst - Forholdet mellem det kumulative antal positive mål op til den pågældende percentil og det samlede antal positive mål. Jo tættere linjen for den kumulative gevinst er på diagrammets øverste venstre hjørne, jo større er gevinsten. Jo større gevinsten er, jo højere er andelen af respondenter, der er nået for den nedre andel af kontaktede kunder.
  • Baseline for gevinstdiagram - Den overordnede responsprocent: Linjen repræsenterer den procentdel af positive records, som vi forventer at få, hvis vi valgte records vilkårligt. Hvis vi i en marketingkampagne for eksempel kontakter X % af kunderne vilkårligt, modtager vi X % af det samlede antal positive responser.
  • Baseline for stigningsdiagram - Værdien 1, der bruges som baseline for sammenligning af stigning.
  • Stigningsværdi - Den kumulative stigning for en percentil. Stigning er forholdet mellem den kumulative positive tæthed for records for de valgte data og den positive tæthed for alle testdata.
  • Ideel modellinje - Forholdet mellem det kumulative antal positive mål og det samlede antal positive mål.
  • Optimal gevinst - Dette angiver det antal kunder, det er optimalt at kontakte. Kurven for den kumulative gevinst flader ud, når den kommer under dette punkt.

Du kan derefter visualisere <Data flow name>_LIFT-datasættet i et Oracle Analytics-diagram. Hvis du for eksempel vil analysere gevinster, kan du afbilde Populationspercentil på x-aksen og Kumulativ gevinst, Baseline for gevinstdiagram, Ideel modellinje og Optimal gevinst på y-aksen.

Beskrivelse af GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png følger
.png

Generere forudsigelsesdata for stignings- og gevinstdiagrammer

Når du anvender en klassificeringsmodel på et datasæt ved hjælp af et dataflow, giver Oracle Analytics mulighed for, at du kan beregne statistik, som du kan visualisere i stignings- og gevinstdiagrammer.

Inden du går i gang, skal du oprette en klassificeringsmodel, der indeholder forudsigelsessandsynlighed (for eksempel en multiklassifikatormodel, der oprettes ved hjælp af Naive Bayes-træningsscriptet). Oracle Analytics viser tilgængelige modeller på fanen Modeller på siden Maskinel indlæring (klik på Maskinel indlæring på startsiden).
  1. Klik på Opret på startsiden, og klik derefter på Dataflow.
  2. Vælg en datakilde, og klik derefter på Tilføj.
  3. Klik på Tilføj et trin, og vælg Anvend model.
  4. Vælg en klassificeringsmodel, der indeholder forudsigelsessandsynlighed, i Vælg model, og klik derefter på OK.
  5. I afsnittet Parametre i Anvend model:
    • Vælg Ja i Beregn stigning og gevinst.
    • Vælg kolonnenavnet for den værdi, der forudsiges, i Målkolonne til beregning af stigning. Hvis din model ved hjælp af en kolonne med navnet SIGNUP for eksempel forudsiger, om kunderne tilmelder sig et medlemskab, skal du vælge SIGNUP.
    • Angiv den dataværdi (forskel på store og små bogstaver), der repræsenterer den positive klasse (eller det foretrukne resultat) i forudsigelsen, i Positiv klasse, der skal beregnes. Hvis din model ved hjælp af en kolonne med navnet SIGNUP med værdierne YES eller NO for eksempel forudsiger, om kunderne tilmelder sig et medlemskab, skal du vælge YES.
  6. Føj noden Gem data til dit dataflow.
  7. Udfør dette dataflow.
Dataflowet producerer et datasæt med navnet <Data flow name>_LIFT, der indeholder statistik over stigning og gevinst, som du kan evaluere.

Evaluere en model til maskinel indlæring ved hjælp af et stignings- og gevinstdiagram

Brug et diagram til at analysere statistik, der genereres af klassificeringsmodeller til maskinel indlæring til at bestemme, hvilken model der er bedst at bruge.

Før du starter, skal du anvende en forudsigelsesmodel på dine data og generere stignings- og gevinststatistik i et datasæt.
  1. Klik på Opret på startsiden, og klik derefter på Projektmappe.
  2. Vælg det <Data flow name>_LIFT-datasæt, som du genererede i den forrige opgave, i Tilføj datasæt, og klik derefter på Tilføj til projektmappe.
  3. Vælg den statistik, der skal analyseres, i panelet Visualiser, højreklik derefter, og vælg Vælg visualisering, og vælg derefter Kurvediagram.
    Hvis du for eksempel vil analysere gevinsten, skal du placere PopulationPercentile på x-aksen og placere CumulativeGain, GainChartBaseline, IdealModelLine og OptimalGain på y-aksen.
    Hvis du vil analysere stigningen, kan du placere PopulationPercentile på x-aksen og placere LiftChartBaseline, og LiftValue på y-aksen.