Vyhodnotenie modelov strojového učenia pomocou grafov navýšenia a zisku

Grafy navýšenia a zisku umožňujú porovnávať rôzne modely strojového učenia, aby bolo možné určiť najsprávnejší model.

Prehľad používania grafov navýšenia a zisku

Grafy navýšenia a zisku umožňujú vyhodnocovať prediktívne modely strojového učenia prostredníctvom grafického znázornenia štatistiky modelovania vo vizualizácii v službe Oracle Analytics.

Ak na aplikáciu modelu klasifikácie na množinu dát používate dátový tok, služba Oracle Analytics vám umožní vypočítať hodnoty navýšenia a zisku. Tieto dáta môžete následne vizualizovať v grafe, pomocou ktorého môžete posúdiť presnosť prediktívnych modelov a určiť ten najlepší, ktorý sa bude používať.

Popis GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png je uvedený nižšie
.png

Predpoklady

  • Oracle Database alebo Oracle Autonomous Data Warehouse
  • Model klasifikácie, ktorý obsahuje pravdepodobnosť predikcie (napríklad model viacnásobného klasifikátora vytvorený pomocou skriptu trénovania Naive Bayes).

    Existujúce prediktívne modely nájdete v oblasti Strojové učenie v službe Oracle Analytics.

Štatistika generovaná na analýzu navýšenia a zisku

Keď aplikujete prediktívny model klasifikácie na množinu dát a vygenerujete štatistiku navýšenia a zisku, vytvoríte množinu dát s názvom <Názov dátového toku>_LIFT s týmito stĺpcami:
  • PopulationPercentile – populácia množiny dát rozdelené do 100 rovnakých skupín.
  • CumulativeGain – pomer kumulatívneho počtu pozitívnych cieľov do výšky príslušného percentilu k celkovému počtu pozitívnych cieľov. Čím je čiara kumulatívnych ziskov bližšie k hornému ľavému rohu grafu, tým vyšší zisk, tým vyšší podiel oslovených respondentov pre nižší podiel kontaktovaných zákazníkov.
  • GainChartBaseline – celková miera odozvy: čiara predstavuje percento kladných záznamov, ktoré očakávame, že získame, ak sme záznamy vybrali náhodne. Ak napríklad v rámci marketingovej kampane náhodne kontaktujeme X % zákazníkov, dostaneme celkom X % kladných odpovedí.
  • LiftChartBaseline – hodnota 1 použitá ako základ pre porovnanie navýšenia.
  • LiftValue – kumulatívne navýšenie pre percentil. Navýšenie je pomer hustoty kumulatívnych kladných záznamov pre vybrané dáta k pozitívnej hustote v rámci všetkých testovacích dát.
  • IdealModelLine – pomer kumulatívneho počtu kladných cieľov k celkovému počtu kladných cieľov.
  • OptimalGain – označuje optimálny počet zákazníkov, ktorí majú byť kontaktovaní. Krivka kumulatívneho zisku sa za týmto bodom sploští.

Množinu dát <Názov dátového toku>_LIFT si môžete následne vizualizovať v grafe služby Oracle Analytics. Ak chcete analyzovať napríklad zisky, hodnotu PopulationPercentile môžete zakresliť na os X a hodnoty CumulativeGain, GainChartBaseline, IdealModelLine a OptimalGain na os Y.

Popis GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png je uvedený nižšie
.png

Generovanie prediktívnych dát pre grafy navýšenia a zisku

Ak na aplikáciu modelu klasifikácie na množinu dát používate dátový tok, služba Oracle Analytics vám umožní vypočítať štatistiku, ktorú si môžete vizualizovať v grafoch navýšenia a zisku.

Skôr ako začnete, vytvorte model klasifikácie, ktorý bude obsahovať pravdepodobnosť predikcie (napríklad model viacnásobného klasifikátora vytvorený pomocou skriptu trénovania Naive Bayes). V službe Oracle Analytics sa zobrazia dostupné modely na karte Modely na stránke Strojové učenie (na domovskej stránke kliknite na položku Strojové učenie).
  1. Na domovskej stránke kliknite na položku Vytvoriť a potom kliknite na položku Dátový tok.
  2. Vyberte dátový zdroj a kliknite na položku Pridať.
  3. Kliknite na tlačidlo Pridať krok a vyberte položku Použiť model.
  4. V okne Vybrať model vyberte model klasifikácie, ktorý obsahuje pravdepodobnosť predikcie, a kliknite na tlačidlo OK.
  5. V okne Použiť model v sekcii Parametre:
    • V zobrazení Vypočítať navýšenie a zisk vyberte možnosť Áno.
    • V poli Cieľový stĺpec na výpočet navýšenia vyberte názov stĺpca hodnoty, ktorú chcete predpovedať. Ak váš model predpovedá napríklad to, či sa zákazníci zaregistrujú na získanie členstva pomocou stĺpca s názvom SIGNUP, vyberte položku SIGNUP.
    • V poli Pozitívna trieda na výpočet zadajte dátovú hodnotu, v ktorej sa rozlišujú malé a veľké písmená, ktorá predstavuje pozitívnu triedu (alebo preferovaný výstup) v predikcii. Ak váš model predpovedá napríklad to, či sa zákazníci zaregistrujú na získanie členstva pomocou stĺpca s názvom SIGNUP s hodnotami YES alebo NO, vyberte položku YES.
  6. Do dátového toku pridajte uzol Uložiť dáta.
  7. Spustite tento dátový tok.
Dátový tok vytvorí množinu dát s názvom <Názov dátového toku>_LIFT, ktorá obsahuje štatistiku navýšenia a zisku, ktorú môžete vyhodnotiť.

Vyhodnotenie modelu strojového učenia pomocou grafu navýšenia a zisku

Pomocou grafu môžete analyzovať štatistiku generovanú modelmi klasifikácie strojového učenia, aby ste určili najlepší model na používanie.

Skôr ako začnete, aplikujte prediktívny model na dáta a vygenerujte štatistiku navýšenia a zisku v množine dát.
  1. Na domovskej stránke kliknite na položku Vytvoriť a potom kliknite na položku Zošit.
  2. Na stránke Pridať množinu dát vyberte množinu dát <Názov dátového toku>_LIFT, ktorú ste vygenerovali v predchádzajúcej úlohe, a kliknite na položku Pridať do zošita.
  3. Na paneli Vizualizácia vyberte štatistiku na analýzu, kliknite pravým tlačidlom myši, vyberte položku Vybrať vizualizáciu a potom vyberte položku Čiarový graf.
    Ak chcete analyzovať napríklad zisky, môžete umiestniť hodnotu PopulationPercentile na os X a hodnoty CumulativeGain, GainChartBaseline, IdealModelLine a OptimalGain na os Y.
    Ak chcete analyzovať navýšenie, môžete umiestniť hodnotu PopulationPercentile na os X a hodnoty LiftChartBaseline a LiftValue na os Y.