Vytvoření a používání prediktivních modelů Oracle Analytics

Prediktivní modely služby Oracle Analytics používají několik integrovaných algoritmů Oracle Machine Learning k vytěžování datových sad, k předpovídání cílových hodnot nebo k identifikaci tříd záznamů. K vytvoření, trénování a používání prediktivních modelů na datech použijte editor datových toků.

Co jsou prediktivní modely Oracle Analytics?

Prediktivní model Oracle Analytics používá specifický algoritmus na datovou sadu, aby předpovídal hodnoty, třídy, nebo identifikoval skupiny v datech.

K predikci dat můžete použít také modely strojového učení Oracle.

Služba Oracle Analytics zahrnuje algoritmy, které vám pomohou trénovat prediktivní modely pro různé účely. Mezi příklady algoritmů patří klasifikační a regresní stromy (CART), logistická regrese a k-means (nehierarchická shluková analýza).

Editor datového toku lze použít k prvnímu trénování modelu na trénovací datové sadě. Po trénování prediktivního modelu je možné ho použít na datové sady, které chcete předpovědět.

Trénovaný model můžete zpřístupnit ostatním uživatelům, kteří ho budou používat na svá data, aby předpovídal jejich hodnoty. V některých případech někteří uživatelé trénují modely a jiní je používají na data.

Poznámka:

Pokud si nejste jisti tím, co chcete v datech hledat, začněte s funkcí Vysvětlit, která používá strojové učení k identifikaci trendů a vzorů. Poté v editoru datových toků vytvoříte prediktivní modely, které po tréninku budou zkoumat trendy a vzory nalezené funkcí Vysvětlit.
Editor datového toku lze použít k trénování modelu:
  • Nejprve vytvoříte tok dat a přidáte datovou sadu, kterou chcete použít k trénování modelu. Tato trénovací datová sada obsahuje data, která chcete předpovídat (například hodnoty typu prodeje nebo stáří, nebo proměnné typu skupina úvěrových rizik).
  • V případě potřeby můžete editor datových toků použít k úpravě datové sady přidáním sloupců, výběrem sloupců, propojením apod.
  • Až potvrdíte, že data jsou v souladu s cílem trénování modelu, přidáte do toku dat tréninkový krok a vyberete klasifikaci (binární nebo násobnou), regresi nebo clusterový algoritmus pro trénování modelu. Poté pojmenujete výsledný model, uložíte tok dat a jeho spuštěním zahájíte trénování a vytvoření modelu.
  • Prozkoumejte vlastnosti v objektech strojového učení a určete na jejich základě kvalitu modelu. V případě potřeby můžete tréninkový proces opakovat, dokud model nedosáhne požadované kvality.

Dokončený model použijte k ohodnocení neznámých nebo neoznačených dat a generování datové sady v rámci toku dat nebo k přidání vizualizace předpovědi do sešitu.

Příklad

Dejme tomu, že chcete vytvořit a trénovat model s násobnou klasifikací, abyste předpovídali, u kterých pacientů existuje vysoké riziko rozvoje srdeční nemoci.

  1. Vytvoříte datovou sadu obsahující atributy jednotlivých pacientů, například stáří, pohlaví, zda někdy zažili bolest v hrudníku, a metriky typu krevní tlak, hladina cukru v krvi, cholesterol, a maximální srdeční frekvenci. Trénovací datová sada rovněž obsahuje sloupec s názvem "Pravděpodobnost", který má přiřazenu jednu z následujících hodnot: nepřítomný, málo pravděpodobný, pravděpodobný, vysoce pravděpodobný nebo přítomný.
  2. Vyberte algoritmus CART (rozhodovací strom), protože ten ignoruje redundantní sloupce, které nepřidávají do předpovědi žádnou hodnotu, a rozpozná a použije jen ty sloupce, které dokáží přispět k předpovědi cíle. Po přidání algoritmu do datového toku vyberte k trénování modelu sloupec Pravděpodobnost. Algoritmus použije strojové učení k výběru sloupců faktorů růstu, které potřebuje k provedení a vypsání předpovědí a souvisejících datových sad.
  3. Prozkoumejte výsledky a dolaďte trénovací model, který pak použijte na rozsáhlejší datovou sadu za účelem předpovědi, u kterých pacientů existuje vysoká pravděpodobnost rozvoje srdeční nemoci nebo kteří již nemocní jsou.

Jak mám vybrat algoritmus prediktivního modelu?

Služba Oracle Analytics poskytuje algoritmy pro všechny možné potřeby v oblasti modelování u strojového učení: číselné předpovědi, násobné klasifikace, binární klasifikace a shlukování.

Funkčnost strojového učení Oracle je určena pro pokročilé datové analytiky, kteří vědí, co v datech hledají, mají již za sebou praxi ve vytváření prediktivních analýz a rozumí rozdílům mezi algoritmy.

Poznámka:

Pokud používáte data pocházející ze služby Oracle Autonomous Data Warehouse, můžete využít funkci AutoML k rychlému a snadnému trénování prediktivního modelu, aniž byste potřebovali dovednosti v oblasti strojového učení. Prostudujte si téma Trénování prediktivního modelu pomocí funkce AutoML ve službě Autonomous Data Warehouse.

Uživatelé obvykle chtějí vytvářet více predikčních modelů, porovnat je a zvolit si ten, který s nejvyšší pravděpodobností poskytuje výsledky, které uspokojí kritéria a požadavky. Tato kritéria se mohou lišit. Někdy si uživatelé vyberou modely, které mají lepší celkovou přesnost, jindy zvolí modely s chybami přinejmenším typu I (falešná pozitiva) a typu II (falešná negativa), a někdy si uživatelé vyberou modely vracející výsledky rychleji a s přijatelnou úrovní přesnosti, i když tyto výsledky nejsou ideální.

Oracle Analytics obsahuje několik algoritmů strojového učení pro každý druh predikce nebo klasifikace. S pomocí těchto algoritmů mohou uživatelé vytvářet více než jeden model nebo použít různé, více vyladěné parametry, nebo použít různé vstupní trénovací datové sady a nakonec vybrat nejlepší model. Uživatel si může zvolit nejlepší model porovnáním a vážením modelů podle svých vlastních kritérií. Pro určení nejlepšího modelu může uživatel modely použít a vizualizovat výsledky výpočtů, aby určil jejich přesnost, nebo může otevřít a prozkoumat související datové sady, které služba Oracle Analytics používá pro model.

Více informací o konkrétním algoritmu najdete v této tabulce:

Název Typ Kategorie Funkce Popis
CART

Klasifikace

Regrese

Binární klasifikátor

Násobný klasifikátor

Číselný

- Používá rozhodovací stromy k předpovědi diskrétních i spojitých hodnot.

Používá se u velkých datových sad.

Elastická čistá lineární regrese Regrese Číselný ElasticNet Pokročilý model regrese. Poskytuje další informace (regularizace), provádí výběr proměnných a lineární kombinace. Sankce za použití regresních metod Laso a Hřeben.

Používá se při velkém množství atributů, aby nedocházelo ke kolinearitě (kdy je více atributů v perfektní korelaci) a přeučení.

Hierarchický Shlukování Shlukování AgglomerativeClustering Sestaví hierarchii shlukování ve směru zdola nahoru (každé pozorování tvoří vlastní cluster a poté je sloučeno) nebo shora dolů (všechna pozorování začínají jako jeden cluster) a metriky vzdálenosti.

Používá se, když datová sada není velká a počet clusterů není dopředu znám.

K-Means Shlukování Shlukování k-means Iterativně rozdělí záznamy do k clusterů, kde každé pozorování patří do clusteru s nejbližší střední hodnotou.

Používá se pro sloupce metrik shlukování a při nastaveném odhadovaném počtu potřebných clusterů. Funguje velmi dobře u rozsáhlých datových sad. Výsledky se při každém spuštění liší.

Lineární regrese Regrese Číselný Metoda nejmenších čtverců

Vrcholový

Laso

Lineární přístup k modelování vztahů mezi cílovou proměnnou a jinými atributy v datové sadě.

Používá se k předpovědi číselných hodnot, kdy atributy nejsou perfektně korelovány.

Logistická regrese Regrese Binární klasifikátor LogisticRegressionCV Používá se k předpovědi hodnoty proměnné závislé na kategorii. Závislá proměnná je binární proměnná obsahující data kódovaná jako 1 nebo 0.
Naivní bayesovský Klasifikace

Binární klasifikátor

Násobný klasifikátor

GaussianNB Pravděpodobnostní klasifikace založená na Bayesově teorému, který předpokládá, že mezi prvky neexistuje žádná závislost.

Používá se při větším počtu vstupních dimenzí.

Neuronová síť Klasifikace

Binární klasifikátor

Násobný klasifikátor

MLPClassifier Iterativní klasifikační algoritmus, který se učí porovnáváním svého výsledku klasifikace se skutečnou hodnotou a vrací jej do sítě, aby upravil algoritmus pro další iterace.

Používá se pro analýzu textů.

Náhodný les Klasifikace

Binární klasifikátor

Násobný klasifikátor

Číselný

- Kolektivní učební metoda, která vytvoří více rozhodovacích stromů a vypíše hodnotu kolektivně reprezentující všechny rozhodovací stromy.

Používá se k předpovědi číselných hodnot a hodnot závislých na kategorii.

SVM Klasifikace

Binární klasifikátor

Násobný klasifikátor

LinearSVC, SVC Klasifikuje záznamy jejich mapováním v prostoru a konstruuje nadroviny, které lze použít ke klasifikaci. Nové záznamy (data hodnocení) jsou mapovány do prostoru a je předvídáno jejich členství v určité kategorii, která je založena na straně nadroviny, do které patří.

Trénování prediktivního modelu pomocí režimu AutoML ve službě Oracle Autonomous Data Warehouse

Když používáte data ze služby Oracle Autonomous Data Warehouse, můžete k doporučení a trénování prediktivního modelu použít funkci AutoML. Funkce AutoML provede analýzu dat, výpočet nejlepšího použitelného algoritmu a registraci modelu předpovědi ve službě Oracle Analytics, abyste mohli vytvářet předpovědi na základě svých dat.

Při použití funkce AutoML provede služba Oracle Autonomous Data Warehouse veškerou náročnou práci za vás, takže můžete nasadit prediktivní model bez nutnosti dovedností v oblastech strojového učení a umělé inteligence. Generovaný prediktivní model je uložen do oblasti Modely na stránce Strojové učení. Pokud chcete předpovídat data na základě nového modelu, vytvořte datový tok a použijte krok Použít model.
Než začnete:
  • Vytvořte datovou sadu založenou na datech obsažených ve službě Oracle Autonomous Data Warehouse, pro která chcete vytvářet předpovědi. Můžete mít k dispozici například data o úbytku zaměstnanců, včetně pole s názvem ATTRITION, které udává, zda došlo nebo nedošlo k úbytku.
  • Ujistěte se, že uživatel databáze zadaný v připojení služby Oracle Analytics ke službě Oracle Autonomous Data Warehouse má roli OML_Developer a není superuživatelem „admin“. V opačném případě datový tok při pokusu o uložení nebo spuštění selže.
  1. Na domovské stránce klikněte na položku Vytvořit a poté klikněte na volbu Datový tok.
  2. V seznamu Přidat datovou sadu vyberte datovou sadu založenou na službě Oracle Autonomous Data Warehouse a obsahující data k analýze.
  3. Klikněte na položku Přidat krok a poté na volbu AutoML.
  4. U pole Cíl klikněte na položku Vybrat sloupec a vyberte sloupec dat obsahující hodnotu, kterou se snažíte předpovědět.
    Pokud chcete například předpovědět úbytek zaměstnanců, můžete vybrat pole s názvem ATTRITION obsahující hodnotu „TRUE“ nebo „FALSE“, která vyjadřuje, zda zaměstnanci opustili organizaci nebo nikoli.

  5. Navržené hodnoty, které doporučuje služba Oracle Analytics, přijměte v polích Typ úlohyMetrika hodnocení modelu, nebo vyberte jiný algoritmus.
  6. Klikněte na tlačítko Uložit model a zadejte název generovaného modelu předpovědi.
  7. Klikněte na tlačítko Uložit a zadejte název datového toku.
  8. Kliknutím na tlačítko Spustit proveďte analýzu dat a generujte prediktivní model.
  9. Na domovské stránce klikněte na položky NavigovatStrojové učení, poté klikněte pravým tlačítkem myši na generovaný model a vyberte možnost Zkontrolovat.
Model, který Oracle Analytics generuje, najdete na stránce Strojové učení na kartě Modely. Zkontrolujte model a zhodnoťte jeho kvalitu. Prostudujte si téma Posouzení kvality prediktivního modelu. Můžete také odkazovat na související datové sady, které jsou generovány pro modely generované procesem AutoML. Prostudujte si téma Co jsou datové sady související s prediktivním modelem?.

Vytvoření a trénování prediktivního modelu

Na základě problému, který je třeba vyřešit, zkušený datový analytik vybere vhodný algoritmus k trénování prediktivního modelu a poté vyhodnotí výsledky modelu.

Ikona výukového programu Iterace LiveLabs

Dosažení přesného modelu je iterativní proces a zkušený datový analytik může zkoušet různé modely, porovnávat jejich výsledky a jemně dolaďovat parametry na základě metody pokus-omyl. Datový analytik použije dokončený přesný prediktivní model k předpovídání trendů v jiných datových sadách nebo přidávání modelu do sešitů.

Poznámka:

Pokud používáte data pocházející ze služby Oracle Autonomous Data Warehouse, můžete využít funkci AutoML k rychlému a snadnému trénování prediktivního modelu, aniž byste potřebovali dovednosti v oblasti strojového učení. Více v části Trénování prediktivního modelu pomocí funkce AutoML ve službě Autonomous Data Warehouse.

Služba Oracle Analytics poskytuje algoritmy pro číselné předpovědi, násobné klasifikace, binární klasifikace a shlukování.

  1. Na domovské stránce klikněte na položku Vytvořit a poté vyberte volbu Datový tok.
  2. Vyberte datovou sadu, kterou chcete použít k trénování modelu. Klikněte na tlačítko Přidat.
  3. V editoru datového toku klikněte na tlačítko Přidat krok (+).
    Po přidání datové sady můžete buď použít všechny sloupce v datové sadě k sestavení modelu, nebo vybrat jen relevantní sloupce. Výběr relevantních sloupců vyžaduje znalost datové sady. Ignorujte sloupce, o kterých víte, že neovlivní chování výsledku nebo které obsahují redundantní informace. Pouze relevantní sloupce můžete zvolit tak, že přidáte krok Vybrat sloupce. Pokud si nejste jisti tím, které sloupce jsou relevantní, použijte všechny sloupce.
  4. Vyberte jeden z kroků trénování modelu (například Trénink numerické předpovědi nebo Trénink shlukování).
  5. Vyberte algoritmus a klikněte na tlačítko OK.
  6. Pokud pracujete s modelem pod dohledem, například predikcí nebo klasifikací, klikněte na tlačítko Cíl a vyberte sloupec, který chcete předpovědět. Například při vytváření modelu pro předpověď příjmů osoby vyberte sloupec Příjem.
    Pokud pracujete s modelem bez dozoru, například shlukováním, není nutný žádný cílový sloupec.
  7. Změnou výchozího nastavení modelu vyladíte a vylepšíte přesnost predikovaného výstupu. Tato nastavení určuje model, se kterým pracujete.
  8. Klikněte na tlačítko Uložit model a zadejte název a popis.
  9. Klikněte na tlačítko Uložit, zadejte název a popis datového toku a kliknutím na tlačítko OK jej uložte.
  10. Kliknutím na tlačítko Spustit datový tok vytvoříte prediktivní model na základě vstupní datové sady a zadaných nastavení modelu.

Kroky toku dat pro trénování modelů strojového učení

Oracle Analytics umožňuje trénovat modely strojového učení pomocí kroků v datových tocích. Až natrénujete model strojového učení, použijte jej na svá data pomocí kroku Použít model.

Název kroku Popis
AutoML (vyžaduje službu Oracle Autonomous Data Warehouse) Funkce AutoML služby Oracle Autonomous Data Warehouse vám doporučí a vytrénuje prediktivní model. Krok AutoML analyzuje data, vypočítá nejlepší algoritmus, který lze použít, a provede registraci modelu předpovědi ve službě Oracle Analytics.
Trénink binárního klasifikátoru

Optimalizujte model strojového učení pro klasifikaci dat do jedné ze dvou předem definovaných kategorií.

Trénink shlukování Optimalizujte model strojového učení pro oddělování skupin s podobnými rysy a jejich přiřazování do clusterů.
Trénink násobného klasifikátoru Optimalizujte model strojového učení pro klasifikaci dat do tří nebo více předem definovaných kategorií.
Trénink numerické předpovědi Optimalizujte model strojového učení pro předpovídání číselné hodnoty na základě známých datových hodnot.

Kontrola prediktivního modelu

Po vytvoření prediktivního modelu a spuštění datového toku můžete zkontrolovat informace o modelu a určit jejich přesnost. Na základě těchto informací můžete postupně upravovat nastavení modelu, zlepšovat jeho přesnost a předpovídat lepší výsledky.

Zobrazení podrobností prediktivního modelu

Podrobné informace o prediktivním modelu vám pomohou porozumět modelu a určit, zda je vhodný k predikci vašich dat. Podrobnosti o modelu zahrnují třídu modelu, algoritmus, vstupní sloupce a výstupní sloupce.

  1. Na domovské stránce klikněte na položku Navigátor a poté klikněte na volbu Strojové učení.
  2. U trénovacího modelu klikněte na ikonu nabídky a vyberte volbu Zkontrolovat.
  3. Kliknutím na položku Podrobnosti zobrazte informace o modelu.

Posouzení kvality prediktivního modelu

Zobrazte informace, které vám pomohou porozumět kvalitě prediktivního modelu. Můžete například zkontrolovat metriky přesnosti, jako jsou přesnost modelu, preciznost, opětovné vyvolání, hodnota F1 a míra falešně pozitivních výsledků.

Služba Oracle Analytics poskytuje podobné metriky bez ohledu na algoritmus použitý k vytvoření modelu, což usnadňuje porovnání mezi různými modely. Během procesu vytváření modelu se zadaná datová sada rozdělí do dvou částí, a model se trénuje a testuje na základě parametru Trénink procenta oddílu. Model použije testovací část datové sady k otestování přesnosti modelu, který se vytváří.
Na základě informací zjištěných na kartě Kvalita bude možná nutné upravit parametry modelu a poté model znovu trénovat.
  1. Na domovské stránce klikněte na položku Navigátor a poté klikněte na volbu Strojové učení.
  2. U trénovacího modelu klikněte na ikonu nabídky a vyberte volbu Zkontrolovat.
  3. Kliknutím na kartu Kvalita můžete zkontrolovat metriky kvality modelu a posoudit model. Zkontrolujte například skóre Přesnost modelu.

    .
Tip: Kliknutím na tlačítko Další si můžete prohlédnout podrobnosti o zobrazeních vygenerovaných pro model.

Co jsou datové sady související s prediktivním modelem?

Když spustíte datový tok za účelem vytvoření tréninkového modelu prediktivního modelu služby Oracle Analytics, služba Oracle Analytics vytvoří sadu souvisejících datových sad. V těchto datových sadách lze otevírat a vytvářet sešity a získat tak informace o přesnosti modelu.

V závislosti na algoritmu vybraném pro váš model, související datové sady obsahují detaily o modelu, např. pravidla predikce, metriky přesnosti, matici záměn a klíčové faktory pro predikci. Na základě těchto informací lze model vyladit tak, aby přinášel lepší výsledky, a tyto související datové sady lze používat k porovnání modelů a rozhodování o tom, který model je přesnější.

Můžete například otevřít datovou sadu Faktory růstu, abyste zjistili, které sloupce mají silný pozitivní a negativní vliv na model. Při průzkumu těchto sloupců zjistíte, že se s některými sloupci nezachází jako s proměnnými modelu, protože se nejedná o realistické vstupy nebo jsou pro předpověď příliš granulární. V editoru datového toku otevřete model a na základě zjištěných informací odstraníte nerelevantní nebo příliš granulární sloupce a model vygenerujete znovu. Následně zkontrolujte kartu Kvalita a výsledky a ověříte, zda se přesnost modelu zlepšila. Tento proces opakujte, dokud nebudete spokojeni s přesností modelu a jeho připraveností ohodnotit novou datovou sadu.

Různé algoritmy generují podobné související datové sady. Individuální parametry a názvy sloupců se mohou v datové sadě změnit v závislosti na typu algoritmu, ale funkčnost datové sady zůstává stejná. Například názvy sloupců ve statistické datové sadě se mohou změnit z Lineární regrese na Logistickou regresi, avšak statistická datová sada bude obsahovat metriky přesnosti modelu.

Související datové sady pro modely AutoML

Když trénujete prediktivní model pomocí procesu AutoML, služba Oracle Analytics vytvoří další datové sady, které obsahují užitečné informace o modelu. Počet vytvořených datových sad závisí na algoritmu modelu. Například pro naivní bayesovské modely vytváří služba Oracle Analytics datovou sadu poskytující informace o podmíněných pravděpodobnostech. Pro model rozhodovacího stromu poskytuje datová sada informace o statistice rozhodovacího stromu. Když zkontrolujete model generovaný procesem AutoML pomocí algoritmu GLM, zobrazí se položky (s předponou GLM*) pro datové sady specifické pro příslušný model, které obsahují informace metadat o modelu.
Popis GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png následuje
.png''

Související datové sady

CARTree

Tato datová sada je tabulkovou reprezentací algoritmu CART (rozhodovací strom), vypočítaná k předpovědi hodnot cílových sloupců. Obsahuje sloupce, které reprezentují podmínky a kritéria podmínek v rozhodovacím stromu, předpověď pro každou skupinu, a důvěryhodnost předpovědi. Vizualizaci Vestavěný stromový diagram lze použít k zobrazení tohoto rozhodovacího stromu.

Tato datová sada CARTree tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmus:
Numerický CART pro číselnou předpověď
Binární klasifikace CART (Rozhodovací strom)
Násobná klasifikace CART (Rozhodovací strom)

Sestava klasifikace

Tato datová sada je tabulkovou reprezentací metrik přesnosti pro každou unikátní hodnotu cílového sloupce. Příklad: pokud cílový sloupec může mít dvě různé hodnoty Ano a Ne, tato datová sada zobrazuje metriky přesnosti, jako jsou F1, Přesnost, Odvolání a Podpora (počet řádků v tréninkové datové sadě s touto hodnotou) pro každou unikátní hodnotu cílového sloupce.

Datová sada Klasifikace tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmy
Binární klasifikace

Naivní bayesovský

Neuronová síť

Počítač s podpůrnými vektory

Násobná klasifikace

Naivní bayesovský

Neuronová síť

Počítač s podpůrnými vektory

Matice nejasností

Tato datová sada, které se také říká matice chyb, má rozvržení kontingenční tabulky. Každý řádek představuje instanci predikované třídy, každý sloupec představuje instanci ve skutečné třídě. Tato tabulka obsahuje počet falešných pozitiv, falešných negativ, pravdivých pozitiv a pravdivých negativ, které jsou použity k výpočtu přesnosti, odvolání a metrik přesnosti F1.

Tato datová sada Matice nejasností tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmy
Binární klasifikace

Logistická regrese

CART (Rozhodovací strom)

Naivní bayesovský

Neuronová síť

Náhodný les

Počítač s podpůrnými vektory

Násobná klasifikace

CART (Rozhodovací strom)

Naivní bayesovský

Neuronová síť

Náhodný les

Počítač s podpůrnými vektory

Faktory růstu

Tato datová sada poskytuje informace o sloupcích, které určují hodnoty cílového sloupce. K identifikaci těchto sloupců je použita lineární regrese. Každému sloupci jsou přiřazeny hodnoty koeficientu a korelace. Hodnota koeficientu popisuje váhu sloupce, použitou k určení hodnoty cílového sloupce. Hodnota korelace naznačuje směr vztahu mezi cílovým sloupcem a závislým sloupcem. Jestliže se například hodnota cílového sloupce snižuje nebo zvyšuje na základě závislého sloupce.

Datová sada Faktory růstu tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmy
Numerický

Lineární regrese

Elastická čistá lineární regrese

Binární klasifikace

Logistická regrese

Počítač s podpůrnými vektory

Násobná klasifikace Počítač s podpůrnými vektory

Mapa zásahů

Tato datová sada obsahuje informace o koncových uzlech rozhodovacího stromu. Každý řádek v tabulce představuje koncový uzel a obsahuje informace popisující, co tento uzel vyjadřuje, například velikost segmentu, důvěryhodnost a očekávaný počet řádků. Například očekávaný počet správných předpovědí = Velikost segmentu * Důvěryhodnost.

Datová sada Mapa zásahů tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmus:
Numerický CART pro číselnou předpověď

Zůstatkové hodnoty

Tato datová sada poskytuje informace o kvalitě zůstatkových předpovědí. Zůstatková hodnota je rozdíl mezi změřenou hodnotou a předpovídanou hodnotou v modelu regrese. Tato datová sada obsahuje agregovaný součet absolutního rozdílu mezi skutečnými a předpovídanými hodnotami pro všechny sloupce v datové sadě.

Datová sada Zůstatkové hodnoty tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmy
Numerický

Lineární regrese

Elastická čistá lineární regrese

CART pro číselnou předpověď

Binární klasifikace CART (Rozhodovací strom)
Násobná klasifikace CART (Rozhodovací strom)

Statistika

Tato metrika datové sady je závislá na algoritmu použitém k jejímu generování. Všimněte si tohoto seznamu metrik na základě algoritmu:

  • Lineární regrese, CART pro číselné předpovědi, Elastická čistá lineární regrese - Tyto algoritmy obsahují veličiny R kvadrát, Upravený R kvadrát, Střední absolutní chyba (MAE), Střední kvadratická chyba (MSE), Relativní absolutní chyba (RAE), Související kvadratická chyba (RSE), Odmocnina ze střední kvadratické chyby (RMSE).
  • CART (Classification And Regression Trees), Naivní bayesovská klasifikace, Neuronová síť, Metoda podpůrných vektorů (SVM), Náhodný les, Logistická regrese - Tyto algoritmy obsahují veličiny Přesnost, Celkem F1.

Tato datová sada tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmus:
Numerický

Lineární regrese

Elastická čistá lineární regrese

CART pro číselnou předpověď

Binární klasifikace

Logistická regrese

CART (Rozhodovací strom)

Naivní bayesovský

Neuronová síť

Náhodný les

Počítač s podpůrnými vektory

Násobná klasifikace

Naivní bayesovský

Neuronová síť

Náhodný les

Počítač s podpůrnými vektory

Souhrn

Tato datová sada obsahuje různé informace, například název cíle a název modelu.

Datová sada Souhrn tvoří výstup, když vyberete tyto kombinace modelu a algoritmu.

Model Algoritmy
Binární klasifikace

Naivní bayesovský

Neuronová síť

Počítač s podpůrnými vektory

Násobná klasifikace

Naivní bayesovský

Neuronová síť

Počítač s podpůrnými vektory

Vyhledání souvisejících datových sad prediktivního modelu

Související datové sady jsou generovány při trénování prediktivního modelu.

V závislosti na algoritmu související datové sady obsahují podrobnosti o modelu, jako jsou pravidla predikce, metriky přesnosti, matice záměn, klíčové faktory pro predikci atd. Tyto parametry pomáhají porozumět pravidlům, které model použil k určení predikcí a klasifikací.
  1. Na domovské stránce klikněte na položku Navigátor a poté klikněte na volbu Strojové učení.
  2. U trénovacího modelu klikněte na ikonu nabídky a vyberte volbu Zkontrolovat.
  3. Kliknutím na kartu Související získejte přístup k souvisejícím datovým sadám modelu.
  4. Chcete-li související datovou sadu zobrazit nebo použít v sešitu, dvakrát na ni klikněte.

Přidání prediktivního modelu do sešitu

Při vytváření scénáře v sešitu aplikujte na datovou sadu sešitu prediktivní model, který odhalí trendy a vzorce, které má model vyhledat.

Poznámka:

Na data sešitu nemůžete použít model strojového učení Oracle.
Po přidání modelu do sešitu a namapování vstupů modelu na sloupce datové sady bude panel Data obsahovat objekty modelu, které je možné přetáhnout na kanvas. Strojové učení vygeneruje hodnoty modelu na základě odpovídajících datových sloupců vizualizace.
  1. Na domovské stránce klikněte na položku Vytvořit a poté klikněte na volbu Sešit.
  2. Vyberte datovou sadu, kterou chcete použít k vytvoření sešitu, a klikněte na tlačítko Přidat do sešitu.
  3. V podokně Data klikněte na tlačítko Přidat a zvolte položku Vytvořit scénář.
  4. V dialogovém okně Vytvořit scénář – Vybrat model zvolte model a klikněte na tlačítko OK.
    Můžete použít pouze prediktivní model. Model strojového učení Oracle použít nelze.
    Pokud jednotlivé vstupy modelu nelze spárovat s datovým prvkem, zobrazí se dialog Namapovat data na model.
  5. Pokud se zobrazí dialog Namapovat data na model, v poli Datová sada vyberte datovou sadu, která se má použít s modelem.
  6. Podle potřeby spárujte vstup modelu s datovými prvky. Klikněte na tlačítko Hotovo.
    Scénář se v podokně Datové prvky zobrazí jako datová sada.
  7. Přetáhněte prvky z datové sady a modelu na kanvas Vizualizovat.
  8. Chcete-li scénář upravit, klikněte na něj pravým tlačítkem v podokně Datové prvky a vyberte volbu Upravit scénář.
  9. Podle potřeby změňte datovou sadu a aktualizujte mapování vstupu modelu a datových prvků.
  10. Kliknutím na tlačítko Uložit uložte sešit.