Vyhodnocení modelů strojového učení pomocí grafů nárůstu a zisku

Grafy nárůstu a zisku vám umožňují porovnat různé modely strojového učení a určit nejpřesnější model.

Přehled používání grafů nárůstu a zisku

Grafy nárůstu a zisku vám umožňují vyhodnotit prediktivní modely strojového učení pomocí grafů statistik modelování ve vizualizaci Oracle Analytics.

Když použijete datový tok k aplikaci klasifikačního modelu na datovou sadu, Oracle Analytics vám umožní vypočítat hodnoty nárůstu a zisku. Tato data pak můžete vizualizovat v grafu, který vám pomůže posoudit přesnost prediktivních modelů a určit ten nejlepší model, který pak použijete.

Popis GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png následuje
.png''

Předpoklady

  • Oracle Database nebo Oracle Autonomous Data Warehouse
  • Model klasifikace, který zahrnuje pravděpodobnost předpovědi (například model s násobným klasifikátorem vytvořený pomocí naivního bayesovského cvičného skriptu).

    Máte přístup ke stávajícím prediktivním modelům v oblasti strojového učení ve službě Oracle Analytics.

Statistiky generované pro analýzu navýšení a zisku

Když použijete model prediktivní klasifikace na datovou sadu a vygenerujete statistiku nárůstu a zisku, vytvoříte datovou sadu s názvem <název toku dat>_LIFT, která obsahuje tyto sloupce:
  • PopulationPercentile – Populace datové sady rozdělená do 100 stejných skupin.
  • CumulativeGain – Poměr kumulativního počtu kladných cílů až do daného percentilu k celkovému počtu kladných cílů. Čím blíže je čára kumulativních zisků k levému hornímu rohu grafu, tím větší je zisk; čím vyšší podíl respondentů je osloven, tím nižší je podíl kontaktovaných zákazníků.
  • GainChartBaseline – Celková míra odezvy: řádek představuje procento pozitivních záznamů, které očekáváme, že získáme, pokud jsme záznamy vybrali náhodně. Například pokud v marketingové kampani náhodně oslovíme X % zákazníků, obdržíme X % z celkové kladné odpovědi.
  • LiftChartBaseline – Hodnota 1 a používá se jako základ pro srovnání nárůstu.
  • LiftValue – Kumulativní nárůst pro percentil. Nárůst je poměr kumulativní hustoty pozitivních záznamů pro vybraná data k pozitivní hustotě všech testovacích dat.
  • IdealModelLine – Poměr kumulativního počtu kladných cílů k celkovému počtu kladných cílů.
  • OptimalGain – Označuje optimální počet zákazníků, které lze kontaktovat. Křivka kumulativního zisku se za tímto bodem zplošťuje.

Poté můžete zobrazit datovou sadu <název toku dat>_LIFT v grafu Oracle Analytics. Chcete-li například analyzovat zisky, můžete vynést na osu x údaj PopulationPercentile a na osu y CumulativeGain, GainChartBaseline, IdealModelLine a OptimalGain.

Popis GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png následuje
.png''

Generování prediktivních dat pro grafy nárůstu a zisku

Když použijete datový tok k aplikaci klasifikačního modelu na datovou sadu, Oracle Analytics vám umožní vypočítat statistiky, které můžete vizualizovat v grafech nárůstu a zisku.

Než začnete, vytvořte model klasifikace, který zahrnuje pravděpodobnost předpovědi (například model s násobným klasifikátorem vytvořený pomocí naivního bayesovského cvičného skriptu). Služba Oracle Analytics zobrazuje dostupné modely na kartě Modely na stránce Strojové učení (na domovské stránce klikněte na položku Strojové učení).
  1. Na domovské stránce klikněte na položku Vytvořit a poté na volbu Datový tok.
  2. Vyberte zdroj dat a klikněte na Přidat.
  3. Klikněte na Přidat krok a vyberte Použít model.
  4. V dialogovém okně Vybrat model vyberte model klasifikace, který zahrnuje pravděpodobnost předpovědi, a klikněte na tlačítko OK.
  5. V dialogu Použít model v části Parametry:
    • V poli Vypočítat nárůst a zisk vyberte Ano.
    • V Cílový sloupec pro výpočet nárůstu vyberte název sloupce předpovídané hodnoty. Pokud například váš model předpovídá, zda se zákazníci zaregistrují k členství pomocí sloupce s názvem SIGNUP, vyberte SIGNUP.
    • V Pozitivní třída k výpočtu zadejte datovou hodnotu rozlišující malá a velká písmena představující pozitivní třídu (nebo preferovaný výsledek) v predikci. Pokud například váš model předpovídá, zda se zákazníci zaregistrují k členství pomocí sloupce s názvem SIGNUP obsahujícím hodnoty ANO či NE, vyberte SIGNUP.
  6. Přidejte do datového toku uzel Uložit data.
  7. Proveďte tento datový tok.
Datový tok vytváří datovou sadu s názvem <název toku dat>_LIFT, která obsahuje statistiky nárůstu a zisku, které můžete vyhodnotit.

Vyhodnocení modelu strojového učení pomocí grafu nárůstu a zisku

Pomocí grafu analyzujte statistiky generované klasifikačními modely strojového učení a určete nejlepší model k použití.

Než začnete, použijte na svá data prediktivní model a vygenerujte statistiky zvýšení a zisku v datové sadě.
  1. Na domovské stránce klikněte na Vytvořit a potom klikněte na Sešit.
  2. V dialogu Přidat datovou sadu vyberte datovou sadu <Název datového toku>_LIFT, kterou jste vygenerovali v předchozí úloze, a poté klikněte na Přidat do sešitu.
  3. Na panelu Vizualizovat vyberte statistiku, kterou chcete analyzovat, poté klikněte pravým tlačítkem myši a vyberte možnost Vybrat vizualizaci a zvolte Spojnicový graf.
    Chcete-li například analyzovat zisky, umístěte Percentil populace na osu X a Kumulativní zisk, Základnu grafu zvýšení, Ideální modelovou řadu a Optimální zisk na osu Y.
    Chcete-li analyzovat nárůst, můžete umístit Percentil populace na osu x a umístit Základnu grafu zvýšení a Hodnotu zvýšení na osu y.