Vytvorenie a používanie prediktívnych modelov Oracle Analytics

Prediktívne modely služby Oracle Analytics používajú niekoľko vložených algoritmov služby Oracle Machine Learning na dolovanie množín dát, predikciu cieľovej hodnoty alebo identifikáciu tried záznamov. Pomocou editora dátového toku môžete vytvárať, trénovať a používať prediktívne modely pre dáta.

Čo sú to prediktívne modely služby Oracle Analytics?

Prediktívny model služby Oracle Analytics uplatňuje konkrétny algoritmus na množinu dát na predpovedanie hodnôt, predpovedanie tried alebo identifikáciu skupín v dátach.

Na predikciu dát môžete používať aj modely strojového učenia Oracle.

Služba Oracle Analytics obsahuje algoritmy, ktoré vám pomáhajú trénovať prediktívne modely na rôzne účely. Ako príklady algoritmov je možné uviesť stromy klasifikácie a regresie (CART), logistickú regresiu a metódy K-Means.

Najprv je potrebné pomocou editora dátového toku natrénovať model na tréningovej množine dát. Po vytrénovaní prediktívny model použijete na množiny dát, pre ktoré chcete vykonať predpoveď.

Vytrénovaný model môžete sprístupniť ďalším používateľom, ktorí ho môžu použiť na svoje dáta na predpovedanie hodnôt. V niektorých prípadoch určití používatelia modely trénujú a iní používatelia tieto modely používajú.

Poznámka:

Ak neviete, čo máte hľadať vo svojich dátach, môžete začať použitím funkcie Vysvetliť, ktorá využíva strojové učenie na identifikáciu trendov a vzorov. Potom pomocou editora dátového toku môžete vytvoriť a vytrénovať prediktívne modely na zobrazenie súvisiacich dát trendov a vzorov, ktoré našla funkcia Vysvetliť.
Editor dátového toku používate na trénovanie modelu:
  • Najprv vytvorte dátový tok a pridajte množinu dát, ktorú chcete použiť na trénovanie modelu. Táto tréningová množina dát obsahuje dáta, ktoré chcete predpovedať (napríklad hodnotu ako predaj alebo vek, prípadne premennú ako sektor rizika kreditu).
  • Ak je to potrebné, pomocou editora dátového toku môžete upraviť množinu dát pridaním stĺpcov, výberom stĺpcov, spájaním atď.
  • Po potvrdení, že máte dáta, na aké chcete model vytrénovať, pridáte do dátového toku krok tréningu a vyberiete klasifikáciu (binárnu alebo viacnásobnú), regresiu alebo algoritmus klastra na trénovanie modelu. Potom pomenujte výsledný model, uložte dátový tok a spustite ho na trénovanie a vytvorenie modelu.
  • Preskúmajte vlastnosti v objektoch strojového učenia na určenie kvality modelu. V prípade potreby môžete tréningový proces opakovať, kým model nedosiahne požadovanú kvalitu.

Pomocou dokončeného modelu môžete určovať skóre neznámych alebo neoznačených dát na generovanie množiny dát v rámci dátového toku alebo na pridanie vizualizácie predpovede do zošita.

Príklad

Predpokladajme, že chcete vytvoriť a trénovať model viacnásobnej klasifikácie na predpovedanie, ktorí pacienti majú vysoké riziko, že sa u nich vyvinie srdcová choroba.

  1. Zadajte tréningovú množinu dát, ktorá obsahuje atribúty jednotlivých pacientov ako vek, pohlavie a či niekedy pocítili bolesť v hrudníku, a metriky ako krvný tlak, hladina glukózy v krvi, cholesterol a maximálnu srdcovú frekvenciu. Tréningová množina dát obsahuje aj stĺpec s názvom Pravdepodobnosť, ku ktorému je priradená jedna z nasledujúcich hodnôt: neprítomné, menej pravdepodobné, pravdepodobné, vysoko pravdepodobné a prítomné.
  2. Vyberte algoritmus CART (rozhodovací strom), pretože ignoruje redundantné stĺpce, ktoré nezvyšujú hodnotu pre predikciu, a identifikuje a používa iba stĺpce užitočné na predikciu cieľa. Pri pridaní algoritmu do dátového toku vyberte stĺpec Pravdepodobnosť na trénovanie modelu. Algoritmus používa strojové učenie na výber kľúčových stĺpcov, ktoré potrebuje na vykonanie a poskytnutie predikcií a súvisiacich množín dát.
  3. Skontrolujte výsledky a dolaďte model trénovania a potom použitím tohto modelu na väčšiu množinu dát vykonajte predpoveď, ktorí pacienti majú vysokú pravdepodobnosť, že sa u nich vyvinie srdcová choroba.

Ako môžem vybrať algoritmus prediktívneho modelu?

Služba Oracle Analytics ponúka algoritmy pre všetky vaše požiadavky v oblasti modelovania pre strojové učenie: numerická predikcia, viacnásobný klasifikátor, binárny klasifikátor aj klastrovanie.

Funkcie strojového učenia spoločnosti Oracle sú určené pre skúsených dátových analytikov, ktorí majú predstavu o tom, čo hľadajú vo svojich dátach, poznajú postupy prediktívnej analýzy a chápu rozdiely medzi algoritmami.

Poznámka:

Ak používate dáta z databázy Oracle Autonomous Data Warehouse, môžete použiť funkciu AutoML na rýchle a jednoduché trénovanie prediktívneho modelu pre vlastné potreby, pričom nemusíte mať žiadne skúsenosti so strojovým učením. Pozrite si tému Trénovanie prediktívneho modelu pomocou režimu AutoML v databáze Autonomous Data Warehouse.

Obvykle chcú používatelia vytvoriť viacero modelov predikcie, porovnať ich a vybrať si ten, pri ktorom je najväčšia pravdepodobnosť, že im prinesie výsledky spĺňajúce stanovené kritériá a požiadavky. Tieto kritériá sa môžu líšiť. Používatelia si napríklad niekedy vyberú modely s vyššou celkovou správnosťou, inokedy si zas vyberú modely s najmenším výskytom chýb typu I (falošné pozitívne výsledky) a typu II (falošné negatívne výsledky) a inokedy zas modely, ktoré vrátia výsledky rýchlejšie a s prijateľnou úrovňou správnosti, aj keď nie sú ideálne.

Služba Oracle Analytics obsahuje rôzne algoritmy strojového učenia pre všetky typy predikcií alebo klasifikácií. Tieto algoritmy umožňujú používateľom vytvoriť viacero modelov, používať rozličné vyladené parametre, prípadne iné vstupné tréningové množiny dát a následne si vybrať najvhodnejší model. Používateľ si môže vybrať najvhodnejší model na základe porovnania a váženia modelov podľa svojich vlastných kritérií. Na určenie najvhodnejšieho modelu môžu používatelia aplikovať model a vizualizovať výsledky výpočtov, aby sa určila jeho správnosť, alebo môžu otvoriť a preskúmať súvisiace množiny dát, pomocou ktorých služba Oracle Analytics vymodelovala výstup.

V nasledujúcej tabuľke nájdete informácie o poskytovaných algoritmoch:

Názov Typ Kategória Funkcia Popis
CART

Klasifikácia

Regresia

Binárny klasifikátor

Viacnásobný klasifikátor

Numerický

- Využíva rozhodovacie stromy na predikciu diskrétnych aj kontinuálnych hodnôt.

Používa sa s veľkými množinami dát.

Lineárna regresia elastickej siete Regresia Numerický ElasticNet Rozšírený regresný model. Poskytuje ďalšie informácie (regularizáciu) a vykonáva výber premenných a lineárne kombinácie. Penalizácie regresných modelov Lasso a Ridge.

Používa sa pri veľkom počte atribútov s cieľom predísť kolineárnosti (teda situáciám, v ktorých dôjde k dokonalej korelácii viacerých atribútov) a nadmernému nastavovaniu hodnôt (čiže overfittingu).

Hierarchické Klastrovanie Klastrovanie AgglomerativeClustering Zostavuje hierarchiu klastrovania buď podľa postupu zdola nahor (každé pozorovanie je vlastný klaster, ktorý sa následne zlúči s inými), alebo podľa postupu zhora nadol (všetky pozorovania začínajú ako jeden klaster), a podľa metrík vzdialenosti.

Používa sa, keď množina dát nie je príliš veľká a počet klastrov nie je vopred známy.

K-Means Klastrovanie Klastrovanie k-means Iteratívne delí záznamy do k klastrov, pričom každé pozorovanie patrí do klastra s najbližšou strednou hodnotou.

Používa sa na klastrovanie stĺpcov metrík a so stanoveným očakávaným počtom potrebných klastrov. Dobre funguje s veľkými množinami dát. Výsledky sa líšia pri každom spustení.

Lineárna regresia Regresia Numerický Ordinary Least Squares

Ridge

Lasso

Lineárny prístup k vzťahu modelovania medzi cieľovou premennou a inými atribútmi v množine dát.

Používa sa na predpovedanie číselných hodnôt, keď korelácia medzi atribútmi nie je dokonalá.

Logistická regresia Regresia Binárny klasifikátor LogisticRegressionCV Používa sa na predpovedanie hodnoty kategoricky závislej premennej. Závislá premenná je binárna premenná obsahujúca dáta kódované ako 1 alebo 0.
Naive Bayes Klasifikácia

Binárny klasifikátor

Viacnásobný klasifikátor

GaussianNB Probabilistická klasifikácia založená na Bayesovej teoréme, ktorá nepredpokladá žiadnu závislosť medzi črtami.

Používa sa s veľkým počtom vstupných dimenzií.

Neurónová sieť Klasifikácia

Binárny klasifikátor

Viacnásobný klasifikátor

MLPClassifier Iteratívny klasifikačný algoritmus, ktorý sa učí porovnávaním výsledku klasifikácie so skutočnou hodnotou a vráti ju do siete na modifikáciu algoritmu pre ďalšie interakcie.

Používa sa na textovú analýzu.

Random Forest Klasifikácia

Binárny klasifikátor

Viacnásobný klasifikátor

Numerický

- Súborná metóda učenia, ktorá zostavuje viacero rozhodovacích stromov a vráti hodnotu, ktorá kolektívne reprezentuje všetky rozhodovacie stromy.

Používa sa na predpovedanie číselných a kategorických premenných.

SVM Klasifikácia

Binárny klasifikátor

Viacnásobný klasifikátor

LinearSVC, SVC Klasifikuje záznamy tak, že ich mapuje v priestore a zostaví nadroviny, ktoré možno použiť pri klasifikácii. Nové záznamy (dáta skóre) sa mapujú do priestoru a predpokladá sa, že patria do kategórie založenej na strane nadroviny, do ktorej spadajú.

Trénovanie prediktívneho modelu pomocou režimu AutoML v databáze Oracle Autonomous Data Warehouse

Keď používate dáta z databázy Oracle Autonomous Data Warehouse, môžete pomocou jej funkcie AutoML odporučiť a trénovať prediktívny model. Funkcia AutoML analyzuje dáta, vypočíta najvhodnejší algoritmus na použitie a zaregistruje prediktívny model v službe Oracle Analytics, aby ste mohli predpovedať svoje dáta.

Používanie funkcie AutoML znamená, že databáza Oracle Autonomous Data Warehouse urobí všetku prácu za vás, vďaka čomu môžete nasadiť prediktívny model bez znalostí strojového učenia alebo umelej inteligencie. Vygenerovaný prediktívny model sa uloží v oblasti Modely na stránke Strojové učenie. Ak chcete predpovedať dáta na základe nového modelu, vytvorte dátový tok a použite krok Použiť model.
Skôr ako začnete:
  • Vytvorte množinu dát založenú na dátach v databáze Oracle Autonomous Data Warehouse, ktoré chcete predpovedať. Môžete mať napríklad dáta o poklese zamestnancov obsahujúce pole s názvom POKLES, ktoré pomocou hodnôt Áno a Nie uvádza, či došlo k poklesu.
  • Uistite sa, že používateľ databázy zadaný v pripojení služby Oracle Analytics k databáze Oracle Autonomous Data Warehouse má rolu OML_Developer a nie je superpoužívateľom s právami administrátora. V opačnom prípade dátový tok zlyhá, keď sa ho pokúsite uložiť alebo spustiť.
  1. Na domovskej stránke kliknite na položku Vytvoriť a potom kliknite na položku Dátový tok.
  2. V sekcii Pridať množinu dát vyberte množinu dát založenú na databáze Oracle Autonomous Data Warehouse, ktorá obsahuje dáta na analýzu.
  3. Kliknite na položku Pridať krok a potom na položku AutoML.
  4. V sekcii Cieľ kliknite na položku Vyberte stĺpec a vyberte dátový stĺpec obsahujúci hodnotu, ktorú sa pokúšate predpovedať.
    Ak chcete napríklad predpovedať pokles zamestnancov, môžete vybrať pole s názvom POKLES s označením PRAVDA alebo NEPRAVDA pre to, či zamestnanci z organizácie odišli alebo nie.

  5. Prijmite navrhovaný typ úlohy a metriku poradia modelu, ktoré odporúča služba Oracle Analytics, alebo vyberte iný algoritmus.
  6. Kliknite na položku Uložiť model a zadajte názov generovaného prediktívneho modelu.
  7. Kliknite na položku Uložiť a zadajte názov dátového toku.
  8. Kliknutím na položku Spustiť analyzujte dáta a vygenerujte prediktívny model.
  9. Na domovskej stránke kliknite na položku Navigovať, kliknite na položku Strojové učenie, kliknite pravým tlačidlom myši na vygenerovaný model a vyberte položku Skontrolovať.
Model, ktorý služba Oracle Analytics vygeneruje, nájdete na stránke Strojové učenie na karte Modely. Skontrolujte model a vyhodnoťte jeho kvalitu. Pozrite si časť Posúdenie kvality prediktívneho modelu. Môžete si pozrieť aj súvisiace množiny dát, ktoré sú generované pre modely vytvorené funkciou AutoML. Pozrite si časť Čo sú to súvisiace množiny dát prediktívneho modelu?

Vytvorenie a trénovanie prediktívneho modelu

Skúsení dátoví analytici vytvárajú a trénujú prediktívne modely, aby pomocou nich mohli nasadiť algoritmy služby Oracle Machine Learning na dolovanie množín dát, predikciu cieľovej hodnoty alebo identifikáciu tried záznamov. Pomocou editora dátového toku je možné vytvárať a trénovať prediktívne modely a aplikovať ich na dáta.

Ikona tutoriálu LiveLabs Sprint

Dosiahnutie presného modelu je iteratívny proces a skúsený analytik dát môže vyskúšať rôzne modely, porovnávať ich výsledky a ladiť parametre metódou pokusu a omylu. Analytik dát môže použiť finalizovaný, presný prediktívny model na predpovedanie trendov v iných množinách dát, prípadne model pridať do zošitov.

Poznámka:

Ak používate dáta z databázy Oracle Autonomous Data Warehouse, môžete použiť funkciu AutoML na rýchle a jednoduché trénovanie prediktívneho modelu pre vlastné potreby, pričom nemusíte mať žiadne skúsenosti so strojovým učením. Pozrite si tému Trénovanie prediktívneho modelu pomocou režimu AutoML v databáze Autonomous Data Warehouse.

Služba Oracle Analytics ponúka algoritmy pre numerickú predikciu, binárnu klasifikáciu a klastrovanie.

  1. Na domovskej stránke kliknite na položku Vytvoriť a potom vyberte položku Dátový tok.
  2. Vyberte množinu dát, ktorú chcete použiť na trénovanie modelu. Kliknite na tlačidlo Pridať.
  3. V editore dátového toku kliknite na tlačidlo Pridať krok (+).
    Po pridaní množiny dát môžete na vytvorenie modelu použiť všetky stĺpce v množine dát alebo vybrať len relevantné stĺpce. Výber relevantných stĺpcov vyžaduje pochopenie množiny dát. Ignorujte stĺpce, o ktorých viete, že neovplyvnia výstupné správanie, alebo ktoré obsahujú nadbytočné informácie. Iba relevantné stĺpce môžete vybrať pridaním kroku Vybrať stĺpce. Ak s istotou neviete, ktoré stĺpce sú relevantné, použite všetky.
  4. Vyberte jeden z krokov modelu trénovania, napríklad Trénovať numerickú predikciu alebo Trénovať klastrovanie.
  5. Vyberte algoritmus a kliknite na tlačidlo OK.
  6. Ak pracujete s modelom s dohľadom, ako je predikcia alebo klasifikácia, kliknite na položku Cieľ a vyberte stĺpec, ktorý sa snažíte predpovedať. Ak napríklad vytvárate model na predpovedanie príjmu osoby, vyberte stĺpec Príjem.
    Ak pracujete s modelom bez dohľadu, ako je klastrovanie, nie je potrebný žiadny cieľový stĺpec.
  7. Zmeňte predvolené nastavenia pre svoj model, ak chcete vyladiť a vylepšiť správnosť predpovedaného výstupu. Tieto nastavenia určuje model, s ktorým pracujete.
  8. Kliknite na krok Uložiť model a zadajte názov a popis.
  9. Kliknite na položku Uložiť, zadajte názov a popis dátového toku a kliknutím na tlačidlo OK dátový tok uložte.
  10. Kliknutím na položku Spustiť dátový tok vytvorte prediktívny model na základe vstupnej množiny dát a nastavení modelu, ktoré ste zadali.

Kroky dátového toku na trénovanie modelov strojového učenia

Služba Oracle Analytics vám umožňuje trénovať modely strojového učenia pomocou krokov v dátových tokoch. Keď je model strojového učenia natrénovaný, môžete ho použiť pre svoje dáta pomocou kroku Použiť model.

Názov kroku Popis
AutoML (vyžaduje databázu Oracle Autonomous Data Warehouse) Funkcia AutoML databázy Oracle Autonomous Data Warehouse vám môže odporučiť a natrénovať prediktívny model. V kroku AutoML sa analyzujú dáta, vypočítava sa najvhodnejší algoritmus na použitie a registruje sa prediktívny model v službe Oracle Analytics.
Trénovať binárny klasifikátor

Trénovanie modelu strojového učenia na klasifikovanie dát do jednej z dvoch preddefinovaných kategórií.

Trénovať klastrovanie Trénovanie modelu strojového učenia na oddelenie skupín s podobnými charakteristikami a ich priradenie do klastrov.
Trénovať viacnásobný klasifikátor Trénovanie modelu strojového učenia na klasifikovanie dát do troch alebo viacerých preddefinovaných kategórií.
Trénovať numerickú predikciu Trénovanie modelu strojového učenia na predikciu numerickej hodnoty na základe známych dátových hodnôt.

Kontrola prediktívneho modelu

Po vytvorení prediktívneho modelu a spustení dátového toku môžete skontrolovať informácie o modeli a stanoviť jeho správnosť. Tieto informácie použite na iteratívnu úpravu nastavení modelu na zlepšenie jeho správnosti a predpovedanie lepších výsledkov.

Zobrazenie detailov prediktívneho modelu

Detailné informácie o prediktívnom modeli vám pomôžu pochopiť model a určiť, či je vhodný na predpovedanie vašich dát. Detaily modelu zahŕňajú jeho triedu modelu, algoritmus, vstupné stĺpce a výstupné stĺpce.

  1. Na domovskej stránke kliknite na položku Navigátor a potom na položku Strojové učenie.
  2. Kliknite na ikonu ponuky pre model trénovania a vyberte položku Skontrolovať.
  3. Kliknite na položku Detaily na zobrazenie informácií o modeli.

Posúdenie kvality prediktívneho modelu

Môžete zobraziť informácie, ktoré vám pomôžu porozumieť kvalite prediktívneho modelu. Môžete skontrolovať metriku správnosti, napríklad správnosť modelu, presnosť, úplnosť, hodnotu F1 a mieru falošne pozitívnych hodnôt.

Služba Oracle Analytics poskytuje podobnú metriku bez ohľadu na algoritmus použitý na vytvorenie modelu, takže umožňuje jednoduché porovnanie rôznych modelov. V procese tvorby modelu sa množina vstupných dát rozdelí na dve časti s cieľom natrénovať a otestovať model na základe parametra trénovania percenta partície. Model použije testovaciu časť množiny dát na otestovanie správnosti vytváraného modelu.
Na základe zistení na karte Kvalita môže byť potrebné upraviť parametre modelu a znova ho natrénovať.
  1. Na domovskej stránke kliknite na položku Navigátor a potom na položku Strojové učenie.
  2. Kliknite na ikonu ponuky pre model trénovania a vyberte položku Skontrolovať.
  3. Kliknite na kartu Kvalita, skontrolujte metriky kvality modelu a vyhodnoťte model. Môžete skontrolovať napríklad skóre Správnosť modelu.

Tip: Po kliknutí na položku Ďalšie môžete skontrolovať detaily zobrazení vygenerovaných pre model.

Čo sú to súvisiace množiny dát prediktívneho modelu?

Pri spúšťaní dátového toku na vytvorenie modelu trénovania prediktívneho modelu služba Oracle Analytics vytvorí množinu súvisiacich množín dát. V týchto množinách dát môžete otvárať a vytvárať zošity a získať tak údaje o správnosti modelu.

V závislosti od algoritmu, ktorý ste pre svoj model vybrali, súvisiace množiny dát obsahujú detaily o modeli, ako sú pravidlá predikcie, metrika správnosti, matica zámen alebo kľúčové faktory predpovede. Tieto informácie môžete použiť na vyladenie modelu s cieľom získať lepšie výsledky. Súvisiace množiny dát tiež môžete použiť na porovnávanie modelov a rozhodnutie o tom, ktorý model je presnejší.

Môžete napríklad otvoriť množinu dát Ovládače a zistiť, ktoré stĺpce majú silný kladný alebo záporný vplyv na model. Preskúmaním týchto stĺpcov zistíte, že niektoré stĺpce sa nepovažujú za premenné modelu, pretože nepredstavujú realistické vstupy alebo sú na účely prognózy príliš podrobné. Pomocou editora dátového toku môžete otvoriť model a na základe zistených informácii odstrániť nerelevantné alebo príliš podrobné stĺpce a model znova vygenerovať. Na kartách Kvalita a Výsledky môžete overiť, či sa správnosť modelu zvýšila. V tomto procese pokračujete, kým nedosiahnete požadovanú správnosť modelu a kým nebude model pripravený na výpočet skóre novej množiny dát.

Rôzne algoritmy generujú podobné súvisiace množiny dát. Jednotlivé parametre a názvy stĺpcov sa môžu v množine dát meniť v závislosti od typu algoritmu, no funkčnosť množiny dát zostáva bez zmeny. Napríklad názvy stĺpcov v štatistickej množine dát sa môžu zmeniť z názvu Lineárna regresia na názov Logistická regresia, no štatistická množina dát obsahuje metriku správnosti modelu.

Súvisiace množiny dát pre modely AutoML

Služba Oracle Analytics vytvára pri trénovaní prediktívneho modelu pomocou AutoML ďalšie množiny dát, ktoré obsahujú užitočné informácie o modeli. Počet vytvorených množín dát závisí od algoritmu modelu. Napríklad pre modely Naive Bayes služba Oracle Analytics vytvorí množinu dát, ktorá obsahuje informácie o podmienených pravdepodobnostiach. Pre model rozhodovacieho stromu poskytuje množina dát informácie o štatistike rozhodovacieho stromu. Keď skontrolujete model vygenerovaný v rozhraní AutoML s použitím algoritmu všeobecného lineárneho modelu (GLM), uvidíte položky s predponou GLM* pre množiny dát špecifického modelu, ktoré obsahujú informácie metadát o modeli.
Popis GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png je uvedený nižšie
.png

Súvisiace množiny dát

Poznámka:

Služba Oracle Analytics pripojí názov výstupu dátového toku k súvisiacemu typu množiny dát. Ak je napríklad výstup dátového toku pre model CART nazvaný cart_model2, potom je množina dát nazvaná cart_model2_CART.

CART

Služba Oracle Analytics vytvorí pre súvisiacu množinu dát CART (stromy klasifikácie a regresie) tabuľku so stĺpcami, ktoré predstavujú podmienky a kritériá podmienok v rozhodovacom strome, predikciu pre jednotlivé skupiny a spoľahlivosť predikcie. Na vizualizáciu tohto rozhodovacieho stromu použite vizualizáciu stromového diagramu.

Množina dát CART sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmus
Numerický CART pre numerickú predikciu
Binárna klasifikácia CART
Viacnásobná klasifikácia CART

Zostava klasifikácie

Služba Oracle Analytics vytvorí tabuľku pre súvisiacu množinu dát zostavy klasifikácie. Ak napríklad cieľový stĺpec môže mať dve jedinečné hodnoty Áno alebo Nie, táto množina dát zobrazuje metriku správnosti, ako je hodnota F1, presnosť, úplnosť a podpora (počet riadkov v tréningovej množine dát s touto hodnotou), pre jednotlivé jedinečné hodnoty cieľového stĺpca.

Množina dát klasifikácie sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmy
Binárna klasifikácia

Naive Bayes

Neurónová sieť

Metóda podporných vektorov

Viacnásobná klasifikácia

Naive Bayes

Neurónová sieť

Metóda podporných vektorov

Matica zámen

Služba Oracle Analytics vytvorí kontingenčnú tabuľku pre súvisiacu množinu dát matice zámen, ktorá sa nazýva aj matica chýb. Každý riadok predstavuje inštanciu predpovedanej triedy a každý stĺpec predstavuje inštanciu v konkrétnej triede. Táto tabuľka zobrazuje počet falošných pozitívnych, falošných negatívnych, skutočných pozitívnych a skutočných negatívnych hodnôt, ktoré sa používajú na výpočet metrík presnosti, úplnosti, správnosti a hodnoty F1.

Množina dát matice zámen sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmy
Binárna klasifikácia

Logistická regresia

CART (rozhodovací strom)

Naive Bayes

Neurónová sieť

Random Forest

Metóda podporných vektorov

Viacnásobná klasifikácia

CART (rozhodovací strom)

Naive Bayes

Neurónová sieť

Random Forest

Metóda podporných vektorov

Ovládače

Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Ovládače tabuľku s informáciami o stĺpcoch, ktoré určujú hodnoty cieľových stĺpcov. Na identifikáciu týchto stĺpcov sa používajú lineárne regresie. Každý stĺpec má priradené hodnoty koeficientu a korelácie. Hodnota koeficientu popisuje významnosť stĺpca používanú na určenie hodnoty cieľového stĺpca. Hodnota korelácie označuje smer vzťahu medzi cieľovým stĺpcom a závislým stĺpcom. Napríklad to, či sa hodnota cieľového stĺpca zvyšuje alebo znižuje na základe závislého stĺpca.

Množina dát Ovládače sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmy
Numerický

Lineárna regresia

Lineárna regresia elastickej siete

Binárna klasifikácia

Logistická regresia

Metóda podporných vektorov

Viacnásobná klasifikácia Metóda podporných vektorov

Hitmap

Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Hitmap tabuľku s informáciami o listových uzloch rozhodovacieho stromu. Každý riadok tabuľky predstavuje listový uzol a obsahuje informácie popisujúce, čo listový uzol predstavuje, napríklad veľkosť segmentu, spoľahlivosť a očakávaný počet riadkov. Napríklad očakávaný počet správnych predikcií = veľkosť segmentu * spoľahlivosť.

Množina dát Hitmap sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmus
Numerický CART pre numerickú predikciu

Reziduálne hodnoty

Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Reziduálne hodnoty tabuľku s informáciami o kvalite predikcií zostatkových hodnôt. Zostatková hodnota je rozdiel medzi nameranou hodnotou a predpovedanou hodnotou regresného modelu. Táto množina dát obsahuje hodnotu agregovaného súčtu absolútneho rozdielu medzi skutočnými a predpovedanými hodnotami pre všetky stĺpce v množine dát.

Množina dát Reziduálne hodnoty sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmy
Numerické

Lineárna regresia

Lineárna regresia elastickej siete

CART pre numerickú predikciu

Binárna klasifikácia CART (rozhodovací strom)
Viacnásobná klasifikácia CART (rozhodovací strom)

Štatistika

Služba Oracle Analytics vytvorí tabuľku pre súvisiacu množinu dát Štatistika. Metriky tejto množiny dát závisia od algoritmu, ktorý bol použitý na jej vygenerovanie. Pozrite si tento zoznam metrík na základe algoritmu:

  • Lineárna regresia, CART pre numerickú predikciu, lineárna regresia elastickej siete - tieto algoritmy obsahujú metriky R-Square, R-Square Adjusted, stredná absolútna chyba (MAE), stredná kvadratická chyba (MSE), relatívna absolútna chyba (RAE), relatívna kvadratická chyba (RSE), stredná kvadratická chyba (RMSE).
  • CART (stromy klasifikácie a regresie), klasifikácia Naive Bayes, neurónová sieť, metóda podporných vektorov (SVM), Random Forest, logistická regresia - tieto algoritmy obsahujú metriky Správnosť, celková hodnota F1.

Množina dát sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmus
Numerický

Lineárna regresia

Lineárna regresia elastickej siete

CART pre numerickú predikciu

Binárna klasifikácia

Logistická regresia

CART (rozhodovací strom)

Naive Bayes

Neurónová sieť

Random Forest

Metóda podporných vektorov

Viacnásobná klasifikácia

Naive Bayes

Neurónová sieť

Random Forest

Metóda podporných vektorov

Súhrn

Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Súhrn tabuľku s informáciami, ako je názov cieľa a názov modelu.

Množina dát Súhrn sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.

Model Algoritmy
Binárna klasifikácia

Naive Bayes

Neurónová sieť

Metóda podporných vektorov

Viacnásobná klasifikácia

Naive Bayes

Neurónová sieť

Metóda podporných vektorov

Vyhľadanie súvisiacich množín dát prediktívneho modelu

Súvisiace množiny dát sa generujú pri trénovaní prediktívneho modelu.

V závislosti od algoritmu súvisiace množiny dát obsahujú detaily o modeli, ako sú: pravidlá predikcie, metrika správnosti, matica zámen, kľúčové faktory predikcie atď. Tieto parametre vám pomôžu pochopiť, ktoré pravidlá model použil na stanovenie predikcií a klasifikácií.
  1. Na domovskej stránke kliknite na položku Navigátor a potom na položku Strojové učenie.
  2. Kliknite na ikonu ponuky pre model trénovania a vyberte položku Skontrolovať.
  3. Kliknutím na kartu Súvisiace získate prístup k súvisiacim množinám dát modelu.
  4. Dvakrát kliknite na súvisiacu množinu dát, ktorú chcete zobraziť alebo použiť v zošite.

Pridanie prediktívneho modelu do zošita

Keď vytvárate scenár v zošite, v množine dát zošita použijete prediktívny model na odhalenie trendov a vzorov, ktoré má model nájsť.

Poznámka:

V dátach zošita nie je možné používať model strojového učenia Oracle.
Po pridaní modelu do zošita a mapovaní vstupov modelu k stĺpcom množiny dát bude podokno Dáta obsahovať objekty modelu, ktoré môžete myšou presunúť na kresliace plátno. Strojové učenie vygeneruje hodnoty modelu na základe príslušných dátových stĺpcov vizualizácie.
  1. Na domovskej stránke kliknite na položku Vytvoriť a potom kliknite na položku Zošit.
  2. Vyberte množinu dát, ktorú chcete použiť na vytvorenie zošita, a kliknite na položku Pridať do zošita.
  3. V podokne Dáta kliknite na položku Pridať a vyberte položku Vytvoriť scenár.
  4. V dialógovom okne Vytvoriť scenár - vybrať model vyberte model a kliknite na tlačidlo OK.
    Môžete použiť iba prediktívny model. Model strojového učenia Oracle nie je možné použiť.
    Ak nemožno každý vstup modelu spárovať s dátovým prvkom, zobrazí sa dialógové okno Mapovať dáta k modelu.
  5. Ak sa zobrazí dialógové okno Mapovať dáta k modelu, v poli Množina dát vyberte množinu dát, ktorú chcete použiť s modelom.
  6. Podľa potreby spárujte vstupy modelu a dátové prvky. Kliknite na tlačidlo Hotovo.
    Scenár sa zobrazí ako množina dát v podokne Dátové prvky.
  7. Presuňte myšou dátové prvky z množiny dát a z modelu na kresliace plátno Vizualizácia.
  8. Ak chcete upraviť scenár, v podokne Dátové prvky kliknite pravým tlačidlom myši na scenár a vyberte položku Upraviť scenár.
  9. Zmeňte množinu dát a podľa potreby aktualizujte vstupy modelu a dátové prvky.
  10. Kliknutím na tlačidlo Uložiť zošit uložte.