Gépi tanulási modellek értékelése növekmény- és nyereségdiagramok használatával

A növekmény- és nyereségdiagramok lehetővé teszik, hogy különböző gépi tanulási modelleket hasonlítson össze a legpontosabb modell meghatározásához.

Növekmény- és nyereségdiagramok használatának áttekintése

A növekmény- és nyereségdiagramok lehetővé teszik az előrejelző gépi tanulási modellek értékelését diagramok készítése révén a modellezési statisztikákról egy megjelenítésben az Oracle Analytics-szolgáltatásban.

Ha arra használ egy adatfolyamot, hogy egy besorolási modellt alkalmazzon egy adatkészletre, az Oracle Analytics lehetővé teszi növekmény- és nyereségértékek kiszámítását. Ezután megjelenítheti ezt az adatot egy diagramban, ami segít az előrejelző modellek pontosságát értékelni, és meghatározni, hogy melyiket érdemes használni.

A(z) GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png leírása
.png ábra leírása

Előfeltételek

  • Oracle Database vagy Oracle Autonomous Data Warehouse
  • Egy besorolási modell, amely tartalmaz előrejelzési valószínűséget (például egy Naive Bayes betanítási parancsfájl használatával létrehozott többfelé besoroló modellt).

    Hozzáférhet a meglévő előrejelző modellekhez az Oracle Analytics Gépi tanulás felületén.

Az emelési és nyereségelemzés által létrehozott statisztikák

Ha előrejelző osztályozási modellt alkalmaz egy adatkészletre, és emelési és nyereségstatisztikákat hoz létre, egy <Adatfolyam neve>_LIFT nevű adatkészletet hoz létre a következő oszlopokkal:
  • PopulationPercentile - Az adatkészlet értékeinek halmaza 100 egyenlő csoportba felosztva.
  • CumulativeGain - Pozitív célértékek halmozott számának aránya az adott percentilisig, a pozitív célértékek teljes számához viszonyítva. Minél közelebb van a halmozott nyereség vonala a diagram bal felső sarkához, annál nagyobb a nyereség, és annál magasabb az elért válaszadók aránya, a vevők alacsonyabb arányához képest, akikkel felvették a kapcsolatot.
  • GainChartBaseline - Az általános válaszidő: a vonal a pozitív rekordok százalékát jelenti, amelyet várhatóan kapunk, ha a rekordokat véletlenszerűen jelöltük ki. Egy marketingkampányban például, ha a vevők X%-ával véletlenszerűen vesszük fel a kapcsolatot, az összes pozitív válasz X%-át fogjuk kapni.
  • LiftChartBaseline - Az 1 értéke, amely a növekmény összehasonlításának alapszintjeként szolgál.
  • LiftValue - Egy percentilis halmozott növekménye. A növekmény a halmozott pozitív rekordok kijelölt adatokra vonatkozó sűrűsége az összes tesztelési adat általános pozitív sűrűségéhez viszonyítva.
  • IdealModelLine - Pozitív célértékek halmozott számának aránya pozitív célértékek teljes számához viszonyítva.
  • OptimalGain - Jelzi, hogy mennyi a megkeresni szükséges vevők optimális száma. A halmozott nyereség ezen a ponton túl ellaposodik.

Ezután megjelenítheti a(z) <Adatfolyam neve>_LIFT adatkészletet egy Oracle Analytics-diagramon. Nyereségek elemzéséhez például jelenítse meg a PopulationPercentile értékét az x tengelyen, a CumulativeGain, GainChartBaseline, IdealModelLine és OptimalGain értékét pedig az y tengelyen.

A(z) GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png leírása
.png ábra leírása

Előrejelző adatok létrehozása a növekmény- és nyereségdiagramokhoz

Ha arra használ egy adatfolyamot, hogy egy besorolási modellt alkalmazzon egy adatkészletre, az Oracle Analytics lehetővé teszi olyan statisztikák számítását, amelyeket megjeleníthet növekmény- és nyereségstatisztikákban.

Kezdés előtt hozzon létre egy besorolási modellt, amely tartalmaz előrejelzési valószínűséget (például egy Naive Bayes betanítási parancsfájl használatával létrehozott többfelé besoroló modellt). Az Oracle Analytics az elérhető modelleket a Modellek lapon jeleníti meg, a Gépi tanulás oldalon (a Kezdőlapról kattintson a Gépi tanulás elemre).
  1. A Kezdőlapon kattintson a Létrehozás, majd az Adatfolyam elemre.
  2. Válassza ki az adatforrást, majd kattintson a Hozzáadás elemre.
  3. Kattintson a Lépés hozzáadása (+) elemre, és válassza a Modell alkalmazása lépést.
  4. A Modell kiválasztása pontban válasszon egy besorolási modellt, amely tartalmaz előrejelzési valószínűséget, majd kattintson az OK gombra.
  5. A Modell alkalmazása lehetőség alatt, a Paraméterek szakaszban:
    • A Növekmény- és nyereségstatisztikák számítása lehetőség alatt válassza az Igen választ.
    • A Céloszlop a növekmény számításához lehetőség alatt válassza ki az előrejelzett érték oszlopának nevét. Ha például a modell azt jelzi előre, hogy a vevők feliratkoznak-e egy tagságra a SIGNUP nevű oszlop használatával, válassza a SIGNUP lehetőséget.
    • A Számítandó pozitív osztály lehetőség alatt adja meg azt a nagy- és kisbetű-érzékeny adatértéket, amely a legpozitívabb osztályt jelöli (vagy a kívánt eredményt) az előrejelzésben. Ha például a modell azt jelzi előre, hogy a vevők feliratkoznak-e egy tagságra egy SIGNUP nevű, YES és NO értékeket tartalmazó oszlop használatával, adja meg a YES lehetőséget.
  6. Adjon egy Adatok mentése csomópontot az adatfolyamhoz.
  7. Hajtsa végre ezt az adatfolyamot.
Az adatfolyam létrehoz egy <Adatfolyam neve>_LIFT nevű adatkészletet, amely növekmény- és nyereségstatisztikákat tartalmaz, amelyeket értékelhet.

Gépi tanulási modell értékelése egy növekmény- és nyereségdiagram használatával

Egy diagram használatával elemezheti a gépi tanulási modellek által létrehozott statisztikákat a legjobban használható modell meghatározásához.

Kezdés előtt alkalmazzon egy előrejelző modellt az adataira, és hozzon létre növekmény- és nyereségstatisztikákat egy adatkészletben.
  1. A Kezdőlapon kattintson a Létrehozás elemre, majd a Munkafüzet lépésre.
  2. Az Adatkészlet hozzáadása elem alatt válassza az <Adatforrás neve>_LIFT adatkészletet, amelyet az előző feladatban létrehozott, majd kattintson a Hozzáadás a munkafüzethez lépésre.
  3. A Megjelenítés panelen jelölje ki az elemezni kívánt statisztikákat, majd kattintson a jobb gombbal, és válassza a Megjelenítés választása, majd a Vonaldiagram elemet.
    Abban az esetben például, ha nyereséget elemez, a PopulationPercentile értékét az x tengelyre, a CumulativeGain, GainChartBaseline, IdealModelLine és OptimalGain értékét pedig az y tengelyre helyezze.
    Növekmény elemzése esetén helyezze a PopulationPercentile értékét az x tengelyre, a LiftChartBaseline és LiftValue értékét az y tengelyre.