Prediktívne modely služby Oracle Analytics používajú niekoľko vložených algoritmov služby Oracle Machine Learning na dolovanie množín dát, predikciu cieľovej hodnoty alebo identifikáciu tried záznamov. Pomocou editora dátového toku môžete vytvárať, trénovať a používať prediktívne modely pre dáta.
Prediktívny model služby Oracle Analytics uplatňuje konkrétny algoritmus na množinu dát na predpovedanie hodnôt, predpovedanie tried alebo identifikáciu skupín v dátach.
Na predikciu dát môžete používať aj modely strojového učenia Oracle.
Služba Oracle Analytics obsahuje algoritmy, ktoré vám pomáhajú trénovať prediktívne modely na rôzne účely. Ako príklady algoritmov je možné uviesť stromy klasifikácie a regresie (CART), logistickú regresiu a metódy K-Means.
Najprv je potrebné pomocou editora dátového toku natrénovať model na tréningovej množine dát. Po vytrénovaní prediktívny model použijete na množiny dát, pre ktoré chcete vykonať predpoveď.
Vytrénovaný model môžete sprístupniť ďalším používateľom, ktorí ho môžu použiť na svoje dáta na predpovedanie hodnôt. V niektorých prípadoch určití používatelia modely trénujú a iní používatelia tieto modely používajú.
Poznámka:
Ak neviete, čo máte hľadať vo svojich dátach, môžete začať použitím funkcie Vysvetliť, ktorá využíva strojové učenie na identifikáciu trendov a vzorov. Potom pomocou editora dátového toku môžete vytvoriť a vytrénovať prediktívne modely na zobrazenie súvisiacich dát trendov a vzorov, ktoré našla funkcia Vysvetliť.Pomocou dokončeného modelu môžete určovať skóre neznámych alebo neoznačených dát na generovanie množiny dát v rámci dátového toku alebo na pridanie vizualizácie predpovede do zošita.
Príklad
Predpokladajme, že chcete vytvoriť a trénovať model viacnásobnej klasifikácie na predpovedanie, ktorí pacienti majú vysoké riziko, že sa u nich vyvinie srdcová choroba.
Služba Oracle Analytics ponúka algoritmy pre všetky vaše požiadavky v oblasti modelovania pre strojové učenie: numerická predikcia, viacnásobný klasifikátor, binárny klasifikátor aj klastrovanie.
Funkcie strojového učenia spoločnosti Oracle sú určené pre skúsených dátových analytikov, ktorí majú predstavu o tom, čo hľadajú vo svojich dátach, poznajú postupy prediktívnej analýzy a chápu rozdiely medzi algoritmami.
Poznámka:
Ak používate dáta z databázy Oracle Autonomous Data Warehouse, môžete použiť funkciu AutoML na rýchle a jednoduché trénovanie prediktívneho modelu pre vlastné potreby, pričom nemusíte mať žiadne skúsenosti so strojovým učením. Pozrite si tému Trénovanie prediktívneho modelu pomocou režimu AutoML v databáze Autonomous Data Warehouse.Obvykle chcú používatelia vytvoriť viacero modelov predikcie, porovnať ich a vybrať si ten, pri ktorom je najväčšia pravdepodobnosť, že im prinesie výsledky spĺňajúce stanovené kritériá a požiadavky. Tieto kritériá sa môžu líšiť. Používatelia si napríklad niekedy vyberú modely s vyššou celkovou správnosťou, inokedy si zas vyberú modely s najmenším výskytom chýb typu I (falošné pozitívne výsledky) a typu II (falošné negatívne výsledky) a inokedy zas modely, ktoré vrátia výsledky rýchlejšie a s prijateľnou úrovňou správnosti, aj keď nie sú ideálne.
Služba Oracle Analytics obsahuje rôzne algoritmy strojového učenia pre všetky typy predikcií alebo klasifikácií. Tieto algoritmy umožňujú používateľom vytvoriť viacero modelov, používať rozličné vyladené parametre, prípadne iné vstupné tréningové množiny dát a následne si vybrať najvhodnejší model. Používateľ si môže vybrať najvhodnejší model na základe porovnania a váženia modelov podľa svojich vlastných kritérií. Na určenie najvhodnejšieho modelu môžu používatelia aplikovať model a vizualizovať výsledky výpočtov, aby sa určila jeho správnosť, alebo môžu otvoriť a preskúmať súvisiace množiny dát, pomocou ktorých služba Oracle Analytics vymodelovala výstup.
V nasledujúcej tabuľke nájdete informácie o poskytovaných algoritmoch:
Názov | Typ | Kategória | Funkcia | Popis |
---|---|---|---|---|
CART |
Klasifikácia Regresia |
Binárny klasifikátor Viacnásobný klasifikátor Numerický |
- | Využíva rozhodovacie stromy na predikciu diskrétnych aj kontinuálnych hodnôt.
Používa sa s veľkými množinami dát. |
Lineárna regresia elastickej siete | Regresia | Numerický | ElasticNet | Rozšírený regresný model. Poskytuje ďalšie informácie (regularizáciu) a vykonáva výber premenných a lineárne kombinácie. Penalizácie regresných modelov Lasso a Ridge.
Používa sa pri veľkom počte atribútov s cieľom predísť kolineárnosti (teda situáciám, v ktorých dôjde k dokonalej korelácii viacerých atribútov) a nadmernému nastavovaniu hodnôt (čiže overfittingu). |
Hierarchické | Klastrovanie | Klastrovanie | AgglomerativeClustering | Zostavuje hierarchiu klastrovania buď podľa postupu zdola nahor (každé pozorovanie je vlastný klaster, ktorý sa následne zlúči s inými), alebo podľa postupu zhora nadol (všetky pozorovania začínajú ako jeden klaster), a podľa metrík vzdialenosti.
Používa sa, keď množina dát nie je príliš veľká a počet klastrov nie je vopred známy. |
K-Means | Klastrovanie | Klastrovanie | k-means | Iteratívne delí záznamy do k klastrov, pričom každé pozorovanie patrí do klastra s najbližšou strednou hodnotou.
Používa sa na klastrovanie stĺpcov metrík a so stanoveným očakávaným počtom potrebných klastrov. Dobre funguje s veľkými množinami dát. Výsledky sa líšia pri každom spustení. |
Lineárna regresia | Regresia | Numerický | Ordinary Least Squares
Ridge Lasso |
Lineárny prístup k vzťahu modelovania medzi cieľovou premennou a inými atribútmi v množine dát.
Používa sa na predpovedanie číselných hodnôt, keď korelácia medzi atribútmi nie je dokonalá. |
Logistická regresia | Regresia | Binárny klasifikátor | LogisticRegressionCV | Používa sa na predpovedanie hodnoty kategoricky závislej premennej. Závislá premenná je binárna premenná obsahujúca dáta kódované ako 1 alebo 0. |
Naive Bayes | Klasifikácia |
Binárny klasifikátor Viacnásobný klasifikátor |
GaussianNB | Probabilistická klasifikácia založená na Bayesovej teoréme, ktorá nepredpokladá žiadnu závislosť medzi črtami.
Používa sa s veľkým počtom vstupných dimenzií. |
Neurónová sieť | Klasifikácia |
Binárny klasifikátor Viacnásobný klasifikátor |
MLPClassifier | Iteratívny klasifikačný algoritmus, ktorý sa učí porovnávaním výsledku klasifikácie so skutočnou hodnotou a vráti ju do siete na modifikáciu algoritmu pre ďalšie interakcie.
Používa sa na textovú analýzu. |
Random Forest | Klasifikácia |
Binárny klasifikátor Viacnásobný klasifikátor Numerický |
- | Súborná metóda učenia, ktorá zostavuje viacero rozhodovacích stromov a vráti hodnotu, ktorá kolektívne reprezentuje všetky rozhodovacie stromy.
Používa sa na predpovedanie číselných a kategorických premenných. |
SVM | Klasifikácia |
Binárny klasifikátor Viacnásobný klasifikátor |
LinearSVC, SVC | Klasifikuje záznamy tak, že ich mapuje v priestore a zostaví nadroviny, ktoré možno použiť pri klasifikácii. Nové záznamy (dáta skóre) sa mapujú do priestoru a predpokladá sa, že patria do kategórie založenej na strane nadroviny, do ktorej spadajú. |
Keď používate dáta z databázy Oracle Autonomous Data Warehouse, môžete pomocou jej funkcie AutoML odporučiť a trénovať prediktívny model. Funkcia AutoML analyzuje dáta, vypočíta najvhodnejší algoritmus na použitie a zaregistruje prediktívny model v službe Oracle Analytics, aby ste mohli predpovedať svoje dáta.
OML_Developer
a nie je superpoužívateľom s právami administrátora. V opačnom prípade dátový tok zlyhá, keď sa ho pokúsite uložiť alebo spustiť.Skúsení dátoví analytici vytvárajú a trénujú prediktívne modely, aby pomocou nich mohli nasadiť algoritmy služby Oracle Machine Learning na dolovanie množín dát, predikciu cieľovej hodnoty alebo identifikáciu tried záznamov. Pomocou editora dátového toku je možné vytvárať a trénovať prediktívne modely a aplikovať ich na dáta.
Dosiahnutie presného modelu je iteratívny proces a skúsený analytik dát môže vyskúšať rôzne modely, porovnávať ich výsledky a ladiť parametre metódou pokusu a omylu. Analytik dát môže použiť finalizovaný, presný prediktívny model na predpovedanie trendov v iných množinách dát, prípadne model pridať do zošitov.
Poznámka:
Ak používate dáta z databázy Oracle Autonomous Data Warehouse, môžete použiť funkciu AutoML na rýchle a jednoduché trénovanie prediktívneho modelu pre vlastné potreby, pričom nemusíte mať žiadne skúsenosti so strojovým učením. Pozrite si tému Trénovanie prediktívneho modelu pomocou režimu AutoML v databáze Autonomous Data Warehouse.Služba Oracle Analytics ponúka algoritmy pre numerickú predikciu, binárnu klasifikáciu a klastrovanie.
Služba Oracle Analytics vám umožňuje trénovať modely strojového učenia pomocou krokov v dátových tokoch. Keď je model strojového učenia natrénovaný, môžete ho použiť pre svoje dáta pomocou kroku Použiť model.
Názov kroku | Popis |
---|---|
AutoML (vyžaduje databázu Oracle Autonomous Data Warehouse) | Funkcia AutoML databázy Oracle Autonomous Data Warehouse vám môže odporučiť a natrénovať prediktívny model. V kroku AutoML sa analyzujú dáta, vypočítava sa najvhodnejší algoritmus na použitie a registruje sa prediktívny model v službe Oracle Analytics. |
Trénovať binárny klasifikátor |
Trénovanie modelu strojového učenia na klasifikovanie dát do jednej z dvoch preddefinovaných kategórií. |
Trénovať klastrovanie | Trénovanie modelu strojového učenia na oddelenie skupín s podobnými charakteristikami a ich priradenie do klastrov. |
Trénovať viacnásobný klasifikátor | Trénovanie modelu strojového učenia na klasifikovanie dát do troch alebo viacerých preddefinovaných kategórií. |
Trénovať numerickú predikciu | Trénovanie modelu strojového učenia na predikciu numerickej hodnoty na základe známych dátových hodnôt. |
Po vytvorení prediktívneho modelu a spustení dátového toku môžete skontrolovať informácie o modeli a stanoviť jeho správnosť. Tieto informácie použite na iteratívnu úpravu nastavení modelu na zlepšenie jeho správnosti a predpovedanie lepších výsledkov.
Detailné informácie o prediktívnom modeli vám pomôžu pochopiť model a určiť, či je vhodný na predpovedanie vašich dát. Detaily modelu zahŕňajú jeho triedu modelu, algoritmus, vstupné stĺpce a výstupné stĺpce.
Môžete zobraziť informácie, ktoré vám pomôžu porozumieť kvalite prediktívneho modelu. Môžete skontrolovať metriku správnosti, napríklad správnosť modelu, presnosť, úplnosť, hodnotu F1 a mieru falošne pozitívnych hodnôt.
Pri spúšťaní dátového toku na vytvorenie modelu trénovania prediktívneho modelu služba Oracle Analytics vytvorí množinu súvisiacich množín dát. V týchto množinách dát môžete otvárať a vytvárať zošity a získať tak údaje o správnosti modelu.
V závislosti od algoritmu, ktorý ste pre svoj model vybrali, súvisiace množiny dát obsahujú detaily o modeli, ako sú pravidlá predikcie, metrika správnosti, matica zámen alebo kľúčové faktory predpovede. Tieto informácie môžete použiť na vyladenie modelu s cieľom získať lepšie výsledky. Súvisiace množiny dát tiež môžete použiť na porovnávanie modelov a rozhodnutie o tom, ktorý model je presnejší.
Môžete napríklad otvoriť množinu dát Ovládače a zistiť, ktoré stĺpce majú silný kladný alebo záporný vplyv na model. Preskúmaním týchto stĺpcov zistíte, že niektoré stĺpce sa nepovažujú za premenné modelu, pretože nepredstavujú realistické vstupy alebo sú na účely prognózy príliš podrobné. Pomocou editora dátového toku môžete otvoriť model a na základe zistených informácii odstrániť nerelevantné alebo príliš podrobné stĺpce a model znova vygenerovať. Na kartách Kvalita a Výsledky môžete overiť, či sa správnosť modelu zvýšila. V tomto procese pokračujete, kým nedosiahnete požadovanú správnosť modelu a kým nebude model pripravený na výpočet skóre novej množiny dát.
Rôzne algoritmy generujú podobné súvisiace množiny dát. Jednotlivé parametre a názvy stĺpcov sa môžu v množine dát meniť v závislosti od typu algoritmu, no funkčnosť množiny dát zostáva bez zmeny. Napríklad názvy stĺpcov v štatistickej množine dát sa môžu zmeniť z názvu Lineárna regresia na názov Logistická regresia, no štatistická množina dát obsahuje metriku správnosti modelu.
Súvisiace množiny dát pre modely AutoML
Služba Oracle Analytics vytvára pri trénovaní prediktívneho modelu pomocou AutoML ďalšie množiny dát, ktoré obsahujú užitočné informácie o modeli. Počet vytvorených množín dát závisí od algoritmu modelu. Napríklad pre modely Naive Bayes služba Oracle Analytics vytvorí množinu dát, ktorá obsahuje informácie o podmienených pravdepodobnostiach. Pre model rozhodovacieho stromu poskytuje množina dát informácie o štatistike rozhodovacieho stromu. Keď skontrolujete model vygenerovaný v rozhraní AutoML s použitím algoritmu všeobecného lineárneho modelu (GLM), uvidíte položky s predponou GLM* pre množiny dát špecifického modelu, ktoré obsahujú informácie metadát o modeli.
.png
Súvisiace množiny dát
Poznámka:
Služba Oracle Analytics pripojí názov výstupu dátového toku k súvisiacemu typu množiny dát. Ak je napríklad výstup dátového toku pre model CART nazvaný cart_model2, potom je množina dát nazvaná cart_model2_CART.CART
Služba Oracle Analytics vytvorí pre súvisiacu množinu dát CART (stromy klasifikácie a regresie) tabuľku so stĺpcami, ktoré predstavujú podmienky a kritériá podmienok v rozhodovacom strome, predikciu pre jednotlivé skupiny a spoľahlivosť predikcie. Na vizualizáciu tohto rozhodovacieho stromu použite vizualizáciu stromového diagramu.
Množina dát CART sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmus |
---|---|
Numerický | CART pre numerickú predikciu |
Binárna klasifikácia | CART |
Viacnásobná klasifikácia | CART |
Zostava klasifikácie
Služba Oracle Analytics vytvorí tabuľku pre súvisiacu množinu dát zostavy klasifikácie. Ak napríklad cieľový stĺpec môže mať dve jedinečné hodnoty Áno alebo Nie, táto množina dát zobrazuje metriku správnosti, ako je hodnota F1, presnosť, úplnosť a podpora (počet riadkov v tréningovej množine dát s touto hodnotou), pre jednotlivé jedinečné hodnoty cieľového stĺpca.
Množina dát klasifikácie sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmy |
---|---|
Binárna klasifikácia |
Naive Bayes Neurónová sieť Metóda podporných vektorov |
Viacnásobná klasifikácia |
Naive Bayes Neurónová sieť Metóda podporných vektorov |
Matica zámen
Služba Oracle Analytics vytvorí kontingenčnú tabuľku pre súvisiacu množinu dát matice zámen, ktorá sa nazýva aj matica chýb. Každý riadok predstavuje inštanciu predpovedanej triedy a každý stĺpec predstavuje inštanciu v konkrétnej triede. Táto tabuľka zobrazuje počet falošných pozitívnych, falošných negatívnych, skutočných pozitívnych a skutočných negatívnych hodnôt, ktoré sa používajú na výpočet metrík presnosti, úplnosti, správnosti a hodnoty F1.
Množina dát matice zámen sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmy |
---|---|
Binárna klasifikácia |
Logistická regresia CART (rozhodovací strom) Naive Bayes Neurónová sieť Random Forest Metóda podporných vektorov |
Viacnásobná klasifikácia |
CART (rozhodovací strom) Naive Bayes Neurónová sieť Random Forest Metóda podporných vektorov |
Ovládače
Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Ovládače tabuľku s informáciami o stĺpcoch, ktoré určujú hodnoty cieľových stĺpcov. Na identifikáciu týchto stĺpcov sa používajú lineárne regresie. Každý stĺpec má priradené hodnoty koeficientu a korelácie. Hodnota koeficientu popisuje významnosť stĺpca používanú na určenie hodnoty cieľového stĺpca. Hodnota korelácie označuje smer vzťahu medzi cieľovým stĺpcom a závislým stĺpcom. Napríklad to, či sa hodnota cieľového stĺpca zvyšuje alebo znižuje na základe závislého stĺpca.
Množina dát Ovládače sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmy |
---|---|
Numerický |
Lineárna regresia Lineárna regresia elastickej siete |
Binárna klasifikácia |
Logistická regresia Metóda podporných vektorov |
Viacnásobná klasifikácia | Metóda podporných vektorov |
Hitmap
Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Hitmap tabuľku s informáciami o listových uzloch rozhodovacieho stromu. Každý riadok tabuľky predstavuje listový uzol a obsahuje informácie popisujúce, čo listový uzol predstavuje, napríklad veľkosť segmentu, spoľahlivosť a očakávaný počet riadkov. Napríklad očakávaný počet správnych predikcií = veľkosť segmentu * spoľahlivosť.
Množina dát Hitmap sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmus |
---|---|
Numerický | CART pre numerickú predikciu |
Reziduálne hodnoty
Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Reziduálne hodnoty tabuľku s informáciami o kvalite predikcií zostatkových hodnôt. Zostatková hodnota je rozdiel medzi nameranou hodnotou a predpovedanou hodnotou regresného modelu. Táto množina dát obsahuje hodnotu agregovaného súčtu absolútneho rozdielu medzi skutočnými a predpovedanými hodnotami pre všetky stĺpce v množine dát.
Množina dát Reziduálne hodnoty sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmy |
---|---|
Numerické |
Lineárna regresia Lineárna regresia elastickej siete CART pre numerickú predikciu |
Binárna klasifikácia | CART (rozhodovací strom) |
Viacnásobná klasifikácia | CART (rozhodovací strom) |
Štatistika
Služba Oracle Analytics vytvorí tabuľku pre súvisiacu množinu dát Štatistika. Metriky tejto množiny dát závisia od algoritmu, ktorý bol použitý na jej vygenerovanie. Pozrite si tento zoznam metrík na základe algoritmu:
Množina dát sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmus |
---|---|
Numerický |
Lineárna regresia Lineárna regresia elastickej siete CART pre numerickú predikciu |
Binárna klasifikácia |
Logistická regresia CART (rozhodovací strom) Naive Bayes Neurónová sieť Random Forest Metóda podporných vektorov |
Viacnásobná klasifikácia |
Naive Bayes Neurónová sieť Random Forest Metóda podporných vektorov |
Súhrn
Služba Oracle Analytics vytvorí pre súvisiacu množinu dát Súhrn tabuľku s informáciami, ako je názov cieľa a názov modelu.
Množina dát Súhrn sa vytvorí, keď vyberiete tieto kombinácie modelu a algoritmu.
Model | Algoritmy |
---|---|
Binárna klasifikácia |
Naive Bayes Neurónová sieť Metóda podporných vektorov |
Viacnásobná klasifikácia |
Naive Bayes Neurónová sieť Metóda podporných vektorov |
Súvisiace množiny dát sa generujú pri trénovaní prediktívneho modelu.
Keď vytvárate scenár v zošite, v množine dát zošita použijete prediktívny model na odhalenie trendov a vzorov, ktoré má model nájsť.
Poznámka:
V dátach zošita nie je možné používať model strojového učenia Oracle.