Machine learning-modellen evalueren met lift-en winstdiagrammen

Met lift- en winstdiagrammen kunt u verschillende machine learning-modellen vergelijken om het meest nauwkeurige model te bepalen.

Overzicht van het gebruik van lift- en winstdiagrammen

Met lift- en winstdiagrammen kunt u voorspellende machine learning-modellen evalueren door modelstatistieken in een visualisatiediagram te plaatsen in Oracle Analytics.

Als u een gegevensstroom gebruikt om een classificatiemodel toe te passen op een gegevensset, kunt u met Oracle Analytics lift- en winstwaarden berekenen. Daarna kunt u deze gegevens visualiseren in een diagram om de nauwkeurigheid van een verwachtingsmodel te bepalen en te kijken welk model u het best kunt gebruiken.

Beschrijving van GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png volgt hierna
.png

Vereisten

  • Oracle Database of Oracle Autonomous Data Warehouse
  • Een classificatiemodel met onder meer de voorspellingskans (bijvoorbeeld een model voor meervoudige classificatie op basis van het Naive Bayes-trainingsscript).

    U opent bestaande voorspellingsmodellen in het gedeelde 'Machine Learning' in Oracle Analytics.

Statistieken die worden gegenereerd voor lift- en winstanalyse

Als u een verwachtingsmodel voor classificaties toepast op een gegevensset en lift- en winststatistieken genereert, maakt u een gegevensset met de naam <Naam gegevensstroom>_LIFT en deze kolommen:
  • PopulationPercentile: de populatie van de gegevensset verdeeld in 100 gelijke groepen.
  • CumulativeGain: de verhouding tussen het cumulatieve aantal positieve doelen tot dat percentiel en het totale aantal positieve doelen. Naarmate de lijn van de cumulatieve winst dichter bij de linker bovenhoek van het diagram komt, is de winst hoger en is het percentage hoger van het aantal respondenten dat bereikt is voor het lagere percentage van het aantal klanten waarmee contact is opgenomen.
  • GainChartBaseline: het algehele responspercentage. De lijn geeft het percentage positieve records aan dat we verwachten te krijgen als we willekeurige records selecteren. Als we in een marketingcampagne bijvoorbeeld willekeurig contact opnemen met X% van de klanten, krijgen we X% van de totale positieve respons.
  • LiftChartBaseline: heeft de waarde 1 en wordt gebruikt als basis voor de liftvergelijking.
  • LiftValue: de cumulatieve lift voor een percentiel. De lift is de verhouding tussen de cumulatieve dichtheid van positieve records voor de geselecteerde gegevens en de positieve dichtheid van alle testgegevens.
  • IdealModelLine: de verhouding tussen het cumulatieve aantal positieve doelen en het totale aantal positieve doelen.
  • OptimalGain: hiermee wordt het optimale aantal klanten aangegeven om contact mee op te nemen. Na dit punt vlakt de curve voor cumulatieve winst af.

Daarna kunt u de gegevensset <Naam gegevensstroom>_LIFT visualiseren in een Oracle Analytics-diagram. Als u bijvoorbeeld de winst wilt analyseren, plaatst u 'PopulationPercentile' op de x-as en 'CumulativeGain', 'GainChartBaseline', 'IdealModelLine' en 'OptimalGain' op de y-as.

Beschrijving van GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png volgt hierna
.png

Voorspellende gegevens genereren voor lift- en winstdiagrammen

Als u een gegevensstroom gebruikt om een classificatiemodel toe te passen op een gegevensset, kunt u met Oracle Analytics statistieken berekenen die u kunt visualiseren in lift- en winstdiagrammen.

Maak voordat u begint een classificatiemodel met onder meer de voorspellingskans (bijvoorbeeld een model voor meervoudige classificatie op basis van het Naive Bayes-trainingsscript). Oracle Analytics geeft de beschikbare modellen weer op het tabblad Modellen van de pagina Machine Learning (klik op de Beginpagina op Machine Learning).
  1. Klik op de 'Beginpagina' op Maken en klik vervolgens op Gegevensstroom.
  2. Selecteer een gegevensbron en klik op Toevoegen.
  3. Klik op Stap toevoegen en selecteer Model toepassen.
  4. Selecteer bij Model selecteren een classificatiemodel dat de voorspellingskans bevat en klik vervolgens op OK.
  5. Doe het volgende in Model toepassen, in de sectie Parameters:
    • Selecteer bij Lift en winst berekenen de optie Ja.
    • Selecteer bij Doelkolom om de lift te berekenen de kolomnaam van de waarde die moet worden voorspeld. Als uw model bijvoorbeeld voorspelt of klanten zich aanmelden voor een lidmaatschap met een kolom genaamd SIGNUP, selecteert u SIGNUP.
    • Geef bij Positieve klasse om te berekenen de gegevenswaarde (hoofdlettergevoelig) op die de positieve klasse (of voorkeursuitkomst) aangeeft in de prognose. Als uw model bijvoorbeeld voorspelt of klanten zich aanmelden voor een lidmaatschap met een kolom genaamd SIGNUP met de waarden YES of NO, geeft u YES op.
  6. Voeg de node Gegevens opslaan toe aan de gegevensstroom.
  7. Voer de gegevensstroom uit.
De gegevensstroom produceert een gegevensset met de naam <Naam gegevensstroom>_LIFT die lift- en winststatistieken bevat die u kunt evalueren.

Een machine learning-model evalueren met een lift-en winstdiagram

Gebruik een diagram om statistieken te analyseren die zijn gegenereerd door classificatiemodellen voor machine learning om te bepalen welk model u het best kunt gebruiken.

Pas voordat u start een verwachtingsmodel toe op uw gegevens en genereer lift- en winststatistieken in een gegevensset.
  1. Klik op de beginpagina op Maken en klik vervolgens op Werkmap.
  2. Selecteer in Gegevensset toevoegen de gegevensset <Naam gegevensset>_LIFT die u hebt gegenereerd in de vorige taak en klik vervolgens op Toevoegen aan werkmap.
  3. Selecteer in het paneel Visualiseren de statistieken die u wilt analyseren. Klik vervolgens met de rechtermuisknop, selecteer Visualisatie selecteren en kies Lijngrafiek.
    Als u bijvoorbeeld de winst wilt analyseren, plaatst u PopulationPercentile op de x-as en CumulativeGain, GainChartBaseline, IdealModelLine en OptimalGain op de y-as.
    Als u de lift wilt analyseren, plaatst u PopulationPercentile op de x-as en LiftChartBaseline en LiftValue op de y-as.