Prediktivní modely služby Oracle Analytics používají několik integrovaných algoritmů Oracle Machine Learning k vytěžování datových sad, k předpovídání cílových hodnot nebo k identifikaci tříd záznamů. K vytvoření, trénování a používání prediktivních modelů na datech použijte editor datových toků.
Prediktivní model Oracle Analytics používá specifický algoritmus na datovou sadu, aby předpovídal hodnoty, třídy, nebo identifikoval skupiny v datech.
K predikci dat můžete použít také modely strojového učení Oracle.
Služba Oracle Analytics zahrnuje algoritmy, které vám pomohou trénovat prediktivní modely pro různé účely. Mezi příklady algoritmů patří klasifikační a regresní stromy (CART), logistická regrese a k-means (nehierarchická shluková analýza).
Editor datového toku lze použít k prvnímu trénování modelu na trénovací datové sadě. Po trénování prediktivního modelu je možné ho použít na datové sady, které chcete předpovědět.
Trénovaný model můžete zpřístupnit ostatním uživatelům, kteří ho budou používat na svá data, aby předpovídal jejich hodnoty. V některých případech někteří uživatelé trénují modely a jiní je používají na data.
Poznámka:
Pokud si nejste jisti tím, co chcete v datech hledat, začněte s funkcí Vysvětlit, která používá strojové učení k identifikaci trendů a vzorů. Poté v editoru datových toků vytvoříte prediktivní modely, které po tréninku budou zkoumat trendy a vzory nalezené funkcí Vysvětlit.Dokončený model použijte k ohodnocení neznámých nebo neoznačených dat a generování datové sady v rámci toku dat nebo k přidání vizualizace předpovědi do sešitu.
Příklad
Dejme tomu, že chcete vytvořit a trénovat model s násobnou klasifikací, abyste předpovídali, u kterých pacientů existuje vysoké riziko rozvoje srdeční nemoci.
Služba Oracle Analytics poskytuje algoritmy pro všechny možné potřeby v oblasti modelování u strojového učení: číselné předpovědi, násobné klasifikace, binární klasifikace a shlukování.
Funkčnost strojového učení Oracle je určena pro pokročilé datové analytiky, kteří vědí, co v datech hledají, mají již za sebou praxi ve vytváření prediktivních analýz a rozumí rozdílům mezi algoritmy.
Poznámka:
Pokud používáte data pocházející ze služby Oracle Autonomous Data Warehouse, můžete využít funkci AutoML k rychlému a snadnému trénování prediktivního modelu, aniž byste potřebovali dovednosti v oblasti strojového učení. Prostudujte si téma Trénování prediktivního modelu pomocí funkce AutoML ve službě Autonomous Data Warehouse.Uživatelé obvykle chtějí vytvářet více predikčních modelů, porovnat je a zvolit si ten, který s nejvyšší pravděpodobností poskytuje výsledky, které uspokojí kritéria a požadavky. Tato kritéria se mohou lišit. Někdy si uživatelé vyberou modely, které mají lepší celkovou přesnost, jindy zvolí modely s chybami přinejmenším typu I (falešná pozitiva) a typu II (falešná negativa), a někdy si uživatelé vyberou modely vracející výsledky rychleji a s přijatelnou úrovní přesnosti, i když tyto výsledky nejsou ideální.
Oracle Analytics obsahuje několik algoritmů strojového učení pro každý druh predikce nebo klasifikace. S pomocí těchto algoritmů mohou uživatelé vytvářet více než jeden model nebo použít různé, více vyladěné parametry, nebo použít různé vstupní trénovací datové sady a nakonec vybrat nejlepší model. Uživatel si může zvolit nejlepší model porovnáním a vážením modelů podle svých vlastních kritérií. Pro určení nejlepšího modelu může uživatel modely použít a vizualizovat výsledky výpočtů, aby určil jejich přesnost, nebo může otevřít a prozkoumat související datové sady, které služba Oracle Analytics používá pro model.
Více informací o konkrétním algoritmu najdete v této tabulce:
Název | Typ | Kategorie | Funkce | Popis |
---|---|---|---|---|
CART |
Klasifikace Regrese |
Binární klasifikátor Násobný klasifikátor Číselný |
- | Používá rozhodovací stromy k předpovědi diskrétních i spojitých hodnot.
Používá se u velkých datových sad. |
Elastická čistá lineární regrese | Regrese | Číselný | ElasticNet | Pokročilý model regrese. Poskytuje další informace (regularizace), provádí výběr proměnných a lineární kombinace. Sankce za použití regresních metod Laso a Hřeben.
Používá se při velkém množství atributů, aby nedocházelo ke kolinearitě (kdy je více atributů v perfektní korelaci) a přeučení. |
Hierarchický | Shlukování | Shlukování | AgglomerativeClustering | Sestaví hierarchii shlukování ve směru zdola nahoru (každé pozorování tvoří vlastní cluster a poté je sloučeno) nebo shora dolů (všechna pozorování začínají jako jeden cluster) a metriky vzdálenosti.
Používá se, když datová sada není velká a počet clusterů není dopředu znám. |
K-Means | Shlukování | Shlukování | k-means | Iterativně rozdělí záznamy do k clusterů, kde každé pozorování patří do clusteru s nejbližší střední hodnotou.
Používá se pro sloupce metrik shlukování a při nastaveném odhadovaném počtu potřebných clusterů. Funguje velmi dobře u rozsáhlých datových sad. Výsledky se při každém spuštění liší. |
Lineární regrese | Regrese | Číselný | Metoda nejmenších čtverců
Vrcholový Laso |
Lineární přístup k modelování vztahů mezi cílovou proměnnou a jinými atributy v datové sadě.
Používá se k předpovědi číselných hodnot, kdy atributy nejsou perfektně korelovány. |
Logistická regrese | Regrese | Binární klasifikátor | LogisticRegressionCV | Používá se k předpovědi hodnoty proměnné závislé na kategorii. Závislá proměnná je binární proměnná obsahující data kódovaná jako 1 nebo 0. |
Naivní bayesovský | Klasifikace |
Binární klasifikátor Násobný klasifikátor |
GaussianNB | Pravděpodobnostní klasifikace založená na Bayesově teorému, který předpokládá, že mezi prvky neexistuje žádná závislost.
Používá se při větším počtu vstupních dimenzí. |
Neuronová síť | Klasifikace |
Binární klasifikátor Násobný klasifikátor |
MLPClassifier | Iterativní klasifikační algoritmus, který se učí porovnáváním svého výsledku klasifikace se skutečnou hodnotou a vrací jej do sítě, aby upravil algoritmus pro další iterace.
Používá se pro analýzu textů. |
Náhodný les | Klasifikace |
Binární klasifikátor Násobný klasifikátor Číselný |
- | Kolektivní učební metoda, která vytvoří více rozhodovacích stromů a vypíše hodnotu kolektivně reprezentující všechny rozhodovací stromy.
Používá se k předpovědi číselných hodnot a hodnot závislých na kategorii. |
SVM | Klasifikace |
Binární klasifikátor Násobný klasifikátor |
LinearSVC, SVC | Klasifikuje záznamy jejich mapováním v prostoru a konstruuje nadroviny, které lze použít ke klasifikaci. Nové záznamy (data hodnocení) jsou mapovány do prostoru a je předvídáno jejich členství v určité kategorii, která je založena na straně nadroviny, do které patří. |
Když používáte data ze služby Oracle Autonomous Data Warehouse, můžete k doporučení a trénování prediktivního modelu použít funkci AutoML. Funkce AutoML provede analýzu dat, výpočet nejlepšího použitelného algoritmu a registraci modelu předpovědi ve službě Oracle Analytics, abyste mohli vytvářet předpovědi na základě svých dat.
OML_Developer
a není superuživatelem „admin“. V opačném případě datový tok při pokusu o uložení nebo spuštění selže.Na základě problému, který je třeba vyřešit, zkušený datový analytik vybere vhodný algoritmus k trénování prediktivního modelu a poté vyhodnotí výsledky modelu.
Dosažení přesného modelu je iterativní proces a zkušený datový analytik může zkoušet různé modely, porovnávat jejich výsledky a jemně dolaďovat parametry na základě metody pokus-omyl. Datový analytik použije dokončený přesný prediktivní model k předpovídání trendů v jiných datových sadách nebo přidávání modelu do sešitů.
Poznámka:
Pokud používáte data pocházející ze služby Oracle Autonomous Data Warehouse, můžete využít funkci AutoML k rychlému a snadnému trénování prediktivního modelu, aniž byste potřebovali dovednosti v oblasti strojového učení. Více v části Trénování prediktivního modelu pomocí funkce AutoML ve službě Autonomous Data Warehouse.Služba Oracle Analytics poskytuje algoritmy pro číselné předpovědi, násobné klasifikace, binární klasifikace a shlukování.
Oracle Analytics umožňuje trénovat modely strojového učení pomocí kroků v datových tocích. Až natrénujete model strojového učení, použijte jej na svá data pomocí kroku Použít model.
Název kroku | Popis |
---|---|
AutoML (vyžaduje službu Oracle Autonomous Data Warehouse) | Funkce AutoML služby Oracle Autonomous Data Warehouse vám doporučí a vytrénuje prediktivní model. Krok AutoML analyzuje data, vypočítá nejlepší algoritmus, který lze použít, a provede registraci modelu předpovědi ve službě Oracle Analytics. |
Trénink binárního klasifikátoru |
Optimalizujte model strojového učení pro klasifikaci dat do jedné ze dvou předem definovaných kategorií. |
Trénink shlukování | Optimalizujte model strojového učení pro oddělování skupin s podobnými rysy a jejich přiřazování do clusterů. |
Trénink násobného klasifikátoru | Optimalizujte model strojového učení pro klasifikaci dat do tří nebo více předem definovaných kategorií. |
Trénink numerické předpovědi | Optimalizujte model strojového učení pro předpovídání číselné hodnoty na základě známých datových hodnot. |
Po vytvoření prediktivního modelu a spuštění datového toku můžete zkontrolovat informace o modelu a určit jejich přesnost. Na základě těchto informací můžete postupně upravovat nastavení modelu, zlepšovat jeho přesnost a předpovídat lepší výsledky.
Podrobné informace o prediktivním modelu vám pomohou porozumět modelu a určit, zda je vhodný k predikci vašich dat. Podrobnosti o modelu zahrnují třídu modelu, algoritmus, vstupní sloupce a výstupní sloupce.
Zobrazte informace, které vám pomohou porozumět kvalitě prediktivního modelu. Můžete například zkontrolovat metriky přesnosti, jako jsou přesnost modelu, preciznost, opětovné vyvolání, hodnota F1 a míra falešně pozitivních výsledků.
Když spustíte datový tok za účelem vytvoření tréninkového modelu prediktivního modelu služby Oracle Analytics, služba Oracle Analytics vytvoří sadu souvisejících datových sad. V těchto datových sadách lze otevírat a vytvářet sešity a získat tak informace o přesnosti modelu.
V závislosti na algoritmu vybraném pro váš model, související datové sady obsahují detaily o modelu, např. pravidla predikce, metriky přesnosti, matici záměn a klíčové faktory pro predikci. Na základě těchto informací lze model vyladit tak, aby přinášel lepší výsledky, a tyto související datové sady lze používat k porovnání modelů a rozhodování o tom, který model je přesnější.
Můžete například otevřít datovou sadu Faktory růstu, abyste zjistili, které sloupce mají silný pozitivní a negativní vliv na model. Při průzkumu těchto sloupců zjistíte, že se s některými sloupci nezachází jako s proměnnými modelu, protože se nejedná o realistické vstupy nebo jsou pro předpověď příliš granulární. V editoru datového toku otevřete model a na základě zjištěných informací odstraníte nerelevantní nebo příliš granulární sloupce a model vygenerujete znovu. Následně zkontrolujte kartu Kvalita a výsledky a ověříte, zda se přesnost modelu zlepšila. Tento proces opakujte, dokud nebudete spokojeni s přesností modelu a jeho připraveností ohodnotit novou datovou sadu.
Různé algoritmy generují podobné související datové sady. Individuální parametry a názvy sloupců se mohou v datové sadě změnit v závislosti na typu algoritmu, ale funkčnost datové sady zůstává stejná. Například názvy sloupců ve statistické datové sadě se mohou změnit z Lineární regrese na Logistickou regresi, avšak statistická datová sada bude obsahovat metriky přesnosti modelu.
Související datové sady pro modely AutoML
Když trénujete prediktivní model pomocí procesu AutoML, služba Oracle Analytics vytvoří další datové sady, které obsahují užitečné informace o modelu. Počet vytvořených datových sad závisí na algoritmu modelu. Například pro naivní bayesovské modely vytváří služba Oracle Analytics datovou sadu poskytující informace o podmíněných pravděpodobnostech. Pro model rozhodovacího stromu poskytuje datová sada informace o statistice rozhodovacího stromu. Když zkontrolujete model generovaný procesem AutoML pomocí algoritmu GLM, zobrazí se položky (s předponou GLM*) pro datové sady specifické pro příslušný model, které obsahují informace metadat o modelu.
.png''
Související datové sady
CARTree
Tato datová sada je tabulkovou reprezentací algoritmu CART (rozhodovací strom), vypočítaná k předpovědi hodnot cílových sloupců. Obsahuje sloupce, které reprezentují podmínky a kritéria podmínek v rozhodovacím stromu, předpověď pro každou skupinu, a důvěryhodnost předpovědi. Vizualizaci Vestavěný stromový diagram lze použít k zobrazení tohoto rozhodovacího stromu.
Tato datová sada CARTree tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmus: |
---|---|
Numerický | CART pro číselnou předpověď |
Binární klasifikace | CART (Rozhodovací strom) |
Násobná klasifikace | CART (Rozhodovací strom) |
Sestava klasifikace
Tato datová sada je tabulkovou reprezentací metrik přesnosti pro každou unikátní hodnotu cílového sloupce. Příklad: pokud cílový sloupec může mít dvě různé hodnoty Ano a Ne, tato datová sada zobrazuje metriky přesnosti, jako jsou F1, Přesnost, Odvolání a Podpora (počet řádků v tréninkové datové sadě s touto hodnotou) pro každou unikátní hodnotu cílového sloupce.
Datová sada Klasifikace tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmy |
---|---|
Binární klasifikace |
Naivní bayesovský Neuronová síť Počítač s podpůrnými vektory |
Násobná klasifikace |
Naivní bayesovský Neuronová síť Počítač s podpůrnými vektory |
Matice nejasností
Tato datová sada, které se také říká matice chyb, má rozvržení kontingenční tabulky. Každý řádek představuje instanci predikované třídy, každý sloupec představuje instanci ve skutečné třídě. Tato tabulka obsahuje počet falešných pozitiv, falešných negativ, pravdivých pozitiv a pravdivých negativ, které jsou použity k výpočtu přesnosti, odvolání a metrik přesnosti F1.
Tato datová sada Matice nejasností tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmy |
---|---|
Binární klasifikace |
Logistická regrese CART (Rozhodovací strom) Naivní bayesovský Neuronová síť Náhodný les Počítač s podpůrnými vektory |
Násobná klasifikace |
CART (Rozhodovací strom) Naivní bayesovský Neuronová síť Náhodný les Počítač s podpůrnými vektory |
Faktory růstu
Tato datová sada poskytuje informace o sloupcích, které určují hodnoty cílového sloupce. K identifikaci těchto sloupců je použita lineární regrese. Každému sloupci jsou přiřazeny hodnoty koeficientu a korelace. Hodnota koeficientu popisuje váhu sloupce, použitou k určení hodnoty cílového sloupce. Hodnota korelace naznačuje směr vztahu mezi cílovým sloupcem a závislým sloupcem. Jestliže se například hodnota cílového sloupce snižuje nebo zvyšuje na základě závislého sloupce.
Datová sada Faktory růstu tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmy |
---|---|
Numerický |
Lineární regrese Elastická čistá lineární regrese |
Binární klasifikace |
Logistická regrese Počítač s podpůrnými vektory |
Násobná klasifikace | Počítač s podpůrnými vektory |
Mapa zásahů
Tato datová sada obsahuje informace o koncových uzlech rozhodovacího stromu. Každý řádek v tabulce představuje koncový uzel a obsahuje informace popisující, co tento uzel vyjadřuje, například velikost segmentu, důvěryhodnost a očekávaný počet řádků. Například očekávaný počet správných předpovědí = Velikost segmentu * Důvěryhodnost.
Datová sada Mapa zásahů tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmus: |
---|---|
Numerický | CART pro číselnou předpověď |
Zůstatkové hodnoty
Tato datová sada poskytuje informace o kvalitě zůstatkových předpovědí. Zůstatková hodnota je rozdíl mezi změřenou hodnotou a předpovídanou hodnotou v modelu regrese. Tato datová sada obsahuje agregovaný součet absolutního rozdílu mezi skutečnými a předpovídanými hodnotami pro všechny sloupce v datové sadě.
Datová sada Zůstatkové hodnoty tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmy |
---|---|
Numerický |
Lineární regrese Elastická čistá lineární regrese CART pro číselnou předpověď |
Binární klasifikace | CART (Rozhodovací strom) |
Násobná klasifikace | CART (Rozhodovací strom) |
Statistika
Tato metrika datové sady je závislá na algoritmu použitém k jejímu generování. Všimněte si tohoto seznamu metrik na základě algoritmu:
Tato datová sada tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmus: |
---|---|
Numerický |
Lineární regrese Elastická čistá lineární regrese CART pro číselnou předpověď |
Binární klasifikace |
Logistická regrese CART (Rozhodovací strom) Naivní bayesovský Neuronová síť Náhodný les Počítač s podpůrnými vektory |
Násobná klasifikace |
Naivní bayesovský Neuronová síť Náhodný les Počítač s podpůrnými vektory |
Souhrn
Tato datová sada obsahuje různé informace, například název cíle a název modelu.
Datová sada Souhrn tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.
Model | Algoritmy |
---|---|
Binární klasifikace |
Naivní bayesovský Neuronová síť Počítač s podpůrnými vektory |
Násobná klasifikace |
Naivní bayesovský Neuronová síť Počítač s podpůrnými vektory |
Související datové sady jsou generovány při trénování prediktivního modelu.
Při vytváření scénáře v sešitu aplikujte na datovou sadu sešitu prediktivní model, který odhalí trendy a vzorce, které má model vyhledat.
Poznámka:
Na data sešitu nemůžete použít model strojového učení Oracle.