Az Oracle Analytics előrejelző modelljei számos beágyazott Oracle gépi tanulási algoritmust használnak az adatkészletek bányászásához, a célérték előrejelzéséhez vagy a rekordosztályok azonosításához. Az adatfolyam-szerkesztő segítségével előrejelző modelleket hozhat létre, taníthat be, illetve alkalmazhat az adataira.
Az Oracle Analytics előrejelző modelljei adott algoritmust alkalmaznak egy adatkészletre értékek, osztályok előrejelzésének megadásához vagy az adatokban csoportok azonosításához.
Az Oracle gépi tanulási modelljeit is használhatja az adatok előrejelzésére.
Az Oracle Analytics olyan algoritmusokat tartalmaz, amelyek segítségével különféle célokból előrejelző modelleket taníthat be. Ilyen algoritmus például a besorolási és a regressziós fa (CART), a logisztikai regresszió és a k-közép.
Az adatfolyam-szerkesztőt használhatja modell első betanításához egy betanítási adatkészleten. Betanítása után az előrejelző modellt az előrejelezni kívánt adatkészletekre alkalmazhatja.
A betanított modelleket elérhetővé teheti más felhasználók számára, akik saját adataikra alkalmazhatják azokat értékek előrejelzéséhez. Bizonyos esetekben adott felhasználók modelleket tanítanak be, míg más felhasználók a modelleket alkalmazzák.
Megjegyzés:
Ha nem biztos benne, hogy mit keressen az adataiban, először az Explain funkciót használhatja, amely a gépi tanulás alkalmazásával azonosítja a tendenciákat és a mintákat. Ezután az adatfolyam-szerkesztőt használhatja előrejelző modellek létrehozásához és betanításához az Explain által talált tendenciák és minták részletezéséhez.A végleges modellt ismeretlen (azaz címke nélküli) adatok értékeléséhez használhatja adatfolyamon belüli adatkészlet előállításához, illetve előrejelzés megjelenítésének hozzáadásához egy munkafüzethez.
Példa
Tegyük fel, hogy szeretne létrehozni és betanítani egy többszörös osztályozású modellt, és előrejelezni, hogy mely betegeknél nagy a kockázata a szívbetegség kialakulásának.
Az Oracle Analytics mindenhez biztosít algoritmusokat, amire a gépi tanulási modellezésnek szüksége van: numerikus előrejelzéshez, többszörös osztályozóhoz, bináris osztályozóhoz és fürtképzéshez.
Az Oracle gépi tanulási funkciója olyan szakképzett adatelemzők számára készült, akik tudják, hogy mit kell keresniük az adataikban, ismerik az előrejelző analitika gyakorlatát, és megértik az algoritmusok közötti eltéréseket.
Megjegyzés:
Ha az Oracle Autonomous Data Warehouse adattárházból származó adatokat használ, az AutoML funkció használatával gyorsan és egyszerűen kiképezhet egy prediktív modellt. Ehhez gépi tanulással kapcsolatos szakértelemre sincsen szüksége. Lásd: Prediktív modell betanítása az AutoML használatával az Autonomous Data Warehouse adattárházban.A felhasználók általában többszörös előrejelzési modelleket szeretnének létrehozni, összehasonlítani azokat, és kiválasztani azt az egyet, amelyik a legnagyobb valószínűséggel ad olyan eredményeket, amelyek kielégítik feltételeiket és követelményeiket. Ezek a feltételek változóak lehetnek. Például néha a felhasználók olyan modelleket választanak, amelyeknek jobb az általános pontossága, néha pedig olyanokat, amelyek a legkevesebb I. típusú (hamis pozitív) és II. típusú (hamis negatív) hibát tartalmazzák. Néha a felhasználók olyan modelleket választanak, amelyek gyorsabban és elfogadhatóbb pontossági szinten adják vissza az eredményeket még akkor is, ha az eredmények nem ideálisak.
Az Oracle Analytics számos gépi tanulási algoritmust tartalmaz az előrejelzés vagy osztályozás minden egyes típusához. Ezekkel az algoritmusokkal a felhasználók több modellt is létrehozhatnak, vagy különböző finomhangolású paramétereket használhatnak, vagy különböző bemeneti betanítási adatkészleteket használhatnak, majd kiválaszthatják a legjobb modellt. A felhasználók a modelleket a saját feltételeik alapján összehasonlítva vagy súlyozva kiválaszthatják a legjobb modellt. A legjobb modell meghatározásához a felhasználók alkalmazhatják a modellt, és megjeleníthetik a számítások eredményeit a pontosság meghatározása érdekében, vagy megnyithatják és böngészhetik azokat a kapcsolódó adatkészleteket, amelyeket az Oracle Analytics használt a modell kimeneti adatainak előállításához.
A megadott algoritmusokkal kapcsolatos információkért tekintse meg az alábbi táblázatot:
Név | Típus | Kategória | Függvény | Leírás |
---|---|---|---|---|
CART |
Besorolás Regresszió |
Bináris osztályozó Többszörös osztályozó Numerikus |
- | Döntési fákat használ a diszkrét és a folyamatos értékek előrejelzéséhez egyaránt.
Nagy adatkészletekhez használja. |
Rugalmas hálózat lineáris regressziója | Regresszió | Numerikus | ElasticNet | Speciális regressziós modell. További adatokat biztosít (szabályozás), végrehajtja a változók kiválasztását és a lineáris kombinációkat. A Lasso és a Ridge regressziós módszerre vonatkozó hibapontok.
A kollinearitás (több attribútum tökéletes korrelációja) és a túlillesztés elkerülése érdekében nagy számú attribútumhoz használja. |
Hierarchikus | Fürtképzés | Fürtképzés | AgglomerativeClustering | Fürtképzési hierarchiát alakít ki vagy lentről felfelé (minden egyes megfigyelés a saját fürtje, aztán egyesítve van), vagy fentről lefelé irányuló módszerrel (az összes megfigyelés egyetlen fürtként indul) és távolsági mérőszámok alkalmazásával.
Akkor használja, ha az adatkészlet nem nagy, és nem tudja előre a fürtök számát. |
K-közép | Fürtképzés | Fürtképzés | k-közép | A megfigyeléseket iteratív módon k fürtbe osztja szét úgy, hogy mindegyik megfigyelés a hozzá legközelebbi középértékkel rendelkező fürthöz tartozik.
A mérőszámoszlopok fürtözéséhez használja, a szükséges fürtök várt számának beállításával. Nagy méretű adatkészletek esetén jól működik. Az eredmény minden egyes futás során más. |
Lineáris regresszió | Regresszió | Numerikus | Ordinary Least Squares
Ridge Lasso |
Lineáris megközelítés a célváltozó és az adatkészletben lévő más attribútumok közötti kapcsolat modellezéséhez.
Akkor használja a numerikus értékek előrejelzéséhez, ha az attribútumok nem teljesen korreláltak. |
Logisztikai regresszió | Regresszió | Bináris osztályozó | LogisticRegressionCV | Kategorikusan függő változó értékének az előrejelzéséhez használja. A függő változó olyan bináris változó, amelyik 1-re vagy 0-ra kódolt adatot tartalmaz. |
Naive Bayes | Besorolás |
Bináris osztályozó Többszörös osztályozó |
GaussianNB | A Bayes tételen alapuló probabilisztikus osztályozás, amely feltételezi, hogy a funkciók között nincs függőség.
Nagy számú bemeneti dimenzió esetén használja. |
Neurális hálózat | Besorolás |
Bináris osztályozó Többszörös osztályozó |
MLPClassifier | Olyan iteratív osztályozási algoritmus, amely abból tanul, hogy összehasonlítja az osztályozási eredményét a tényleges értékkel, és visszaadja azt a hálózatnak, hogy módosítsa az algoritmust a további iterációkhoz.
Szövegelemzéshez használja. |
Random Forest | Besorolás |
Bináris osztályozó Többszörös osztályozó Numerikus |
- | Olyan együttes tanulási módszer, amely több döntési fát hoz létre, és olyan kimeneti értéket ad, amely együttesen képviseli az összes döntési fát.
Numerikus és kategorikus változók előrejelzéséhez használja. |
SVM | Besorolás |
Bináris osztályozó Többszörös osztályozó |
LinearSVC, SVC | Úgy osztályozza a rekordokat, hogy leképezi őket a térben, és olyan hipersíkokat hoz létre, amelyek használhatók az osztályozáshoz. Az új rekordok (értékelési adatok) leképeződnek a térben, és az előrejelzés szerint egy olyan kategóriához tartoznak, amely a hipersíknak azon az oldalán alapul, amelyikre esnek. |
Ha az Oracle Autonomous Data Warehouse adattárházból származó adatokat használ, igénybe veheti az AutoML funkciót prediktív modell javasolásához és képzéséhez. Az AutoML elemzi az Ön adatait, kiszámítja a legjobban használható algoritmust, és regisztrál egy előrejelzési modellt az Oracle Analytics szolgáltatásban, hogy előrejelzéseket készíthessen az adataival kapcsolatban.
OML_Developer
szerepkörrel rendelkezik, és nem „rendszergazda” teljes jogú felhasználó. Egyéb esetben az adatfolyam sikertelen lesz, amikor megpróbálja menteni vagy futtatni.A képzett adatelemzők prediktív modelleket hoznak létre és tanítanak be, hogy használhassák őket Oracle Machine Learning-algoritmusok telepítéséhez, amelyek segítségével adatkészleteket bányászhatnak, előrejelezhetnek célértékeket, vagy rekordosztályokat azonosíthatnak. Az adatfolyam-szerkesztő segítségével prediktív modelleket hozhat létre, taníthat be és alkalmazhat az adataira.
Pontos modell elérése iteratív folyamat, és a gyakorlott adatelemző különböző modelleket próbálhat ki, összehasonlíthatja ezek eredményeit, és közelítéses módszerrel finomíthatja a paramétereket. Az adatelemző a végleges, pontos előrejelző modellt más adatkészletekben lévő tendenciák felderítésére használhatja, vagy a modellt felveheti munkafüzetekbe.
Megjegyzés:
Ha az Oracle Autonomous Data Warehouse adattárházból származó adatokat használ, az AutoML funkció használatával gyorsan és egyszerűen kiképezhet egy prediktív modellt. Ehhez gépi tanulással kapcsolatos szakértelemre sincsen szüksége. Lásd: Előrejelző modell betanítása AutoML segítségével az Autonomous Data Warehouse szolgáltatásbanAz Oracle Analytics algoritmusokat biztosít a numerikus előrejelzés, a többszörös besorolás, a bináris besorolás és a fürtképzés számára.
Az Oracle Analytics segítségével gépi tanulási modelleket taníthat az adatfolyamok lépéseinek használatára. Amint elkészült egy gépi tanulási modell képzésével, alkalmazhatja azt az adataira a Modell alkalmazása lépés használatával.
Lépés neve | Leírás |
---|---|
AutoML (Oracle Autonomous Data Warehouse szükséges) | Használja az Oracle Autonomous Data Warehouse AutoML funkcióját prediktív modell javasolásához és képzéséhez. Az AutoML lépés elemzi az adatokat, kiszámítja a legjobban használható algoritmust, és rögzít egy előrejelzési modellt az Oracle Analytics programban. |
Bináris besorolás betanítása |
Betaníthat egy gépi tanulási modellt arra, hogy az adatokat osztályozással besorolja a két előre definiált kategória egyikébe. |
Csoportosítás betanítása | Betaníthat egy gépi tanulási modellt arra, hogy különítse el a hasonló jellemzőkkel rendelkező csoportokat, és szervezze azokat fürtökbe. |
Többféle besorolás betanítása | Betaníthat egy gépi tanulási modellt arra, hogy az adatokat osztályozással besorolja három vagy több előre definiált kategóriába. |
Numerikus előrejelzés betanítása | Betaníthat egy gépi tanulási modellt arra, hogy az ismert adatértékek alapján előre jelezzen egy numerikus értéket. |
Az előrejelző modell létrehozása és az adatfolyam futtatása után pontosságának meghatározásához áttekintheti a modellre vonatkozó adatokat. Az adatok alapján iteratív módon módosíthatja a modell beállításait a pontosság javítása és a megfelelőbb eredmények előrejelzése érdekében.
Az előrejelző modell részletes adatai segítenek megérteni a modell használatát, és megállapítani, hogy az alkalmas-e az adatai előrejelzésére. A modell részletes adatai a következőket tartalmazzák: modellosztály, algoritmus, bemeneti oszlopok és kimeneti oszlopok.
Tekintse meg ezeket az információkat, melyek segítségével jobban megértheti az előrejelző modell minőségét. Megvizsgálhatja például a pontosság mutatószámait, mint például a modell pontossága, precizitás, érzékenység, F1 érték, hamis pozitív eredmények aránya.
Amikor adatfolyamot futtat az Oracle Analytics előrejelző modelljéhez tartozó betanítási modell létrehozásához, az Oracle Analytics kapcsolódó adatkészleteket hoz létre. Ezen adatkészleteken munkafüzeteket nyithat meg vagy hozhat létre a modell pontosságának megismeréséhez.
A modellhez választott algoritmustól függően a kapcsolódó adatkészletek a modellre vonatkozó részleteket tartalmaznak: előrejelzési szabályok, pontosság mutatószámai, bizonytalansági mátrix, előrejelzés kulcstényezői. Ezeket az adatokat a modell finomításához használhatja megfelelőbb eredmények elérése érdekében, valamint a kapcsolódó adatkészletek segítségével összehasonlíthatja a modelleket, és eldöntheti, hogy melyik a pontosabb.
Például megnyithat egy Tényezők adatkészletet annak felderítéséhez, hogy mely oszlopok vannak erős pozitív vagy negatív hatással a modellre. Ezeknek az oszlopoknak a vizsgálatával arra juthat, hogy egyes oszlopok nem tekinthetők modellváltozónak, mert nem valószerű bemenetek, vagy mert túl részletesek az előrejelzéshez. Az adatfolyam-szerkesztőben megnyithatja a modellt, és a felderített adatok alapján eltávolíthatja a nem odaillő vagy túl részletes oszlopokat, és újból előállíthatja a modellt. A Minőség és az Eredmények lapon ellenőrizheti, hogy javult-e a modell pontossága. Addig folytathatja ezt az eljárást, míg elégedett nem lesz a modell pontosságával, és így az készen áll egy új adatkészlet értékelésére.
A különböző algoritmusok hasonló kapcsolódó adatkészleteket állítanak elő. Az algoritmus típusától függően az egyes paraméterek és oszlopnevek változhatnak az adatkészletben, de az adatkészlet funkciója változatlan marad. Például egy statisztikai adatkészletben az oszlopnév Lineáris regresszió helyett Logisztikai regresszió lehet, de a statisztikai adatkészlet a modell pontosságának mutatószámait tartalmazza.
Kapcsolódó adatkészletek AutoML modellekhez
Amikor egy prediktív modellt tanít be az AutoML használatával, az Oracle Analytics további adatkészleteket hoz létre, amelyek hasznos információkat tartalmaznak a modellről. A létrehozott adatkészletek száma a modell algoritmusától függ. Például a Naive Bayes-modellek esetében az Oracle Analytics létrehoz egy adatkészletet, amely információkat nyújt a feltételes valószínűségekről. Döntési fa modell esetén az adatkészlet a döntési fa statisztikáiról nyújt információkat. Amikor egy AutoML által generált modellt megvizsgál az általános lineáris modell (GLM) algoritmus használatával, bejegyzések jelennek meg (GLM* előtaggal) azon modellspecifikus adatkészletek esetében, amelyek metaadat-információkat tartalmaznak a modellről.
.png ábra leírása
Kapcsolódó adatkészletek
Megjegyzés:
Az Oracla Analytics hozzáfűzi az adatfolyam kimeneti nevét a kapcsolódó adatkészlet típusához. Például egy CART-modell esetében, ha az adatfolyam kimenetének neve cart_model2, akkor az adatkészlet neve cart_model2_CART.CART
Az Oracle Analytics létrehoz egy táblát a CART-hoz (besorolási és a regressziós fa) kapcsolódó adatkészlethez, és az ebben szereplő oszlopok tartalmazzák a döntési fa feltételeit és a feltételek kritériumait, előrejelzést minden csoporthoz, valamint az előrejelzés megbízhatóságát. A fadiagram ábrázolás segítségével ábrázolható a döntési fa.
A CART adatkészletet akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmus |
---|---|
Numerikus | CART numerikus előrejelzéshez |
Bináris besorolás | CART |
Többszörös besorolás | CART |
Besorolási kimutatás
Az Oracle Analytics létrehoz egy táblát a Besorolási kimutatás kapcsolódó adatkészletéhez. Ha például a céloszlop két eltérő értékkel (Igen vagy Nem) rendelkezhet, az adatkészlet a céloszlop minden eltérő értékénél a pontosság mutatószámait jeleníti meg, ilyenek a következők: F1, pontosság, érzékenység és támogatás (a betanítási adatkészletben ezzel az értékkel rendelkező sorok száma).
A Besorolási kimutatás adatkészletet akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmusok |
---|---|
Bináris besorolás |
Naive Bayes Neurális hálózat Support Vector Machine |
Többszörös besorolás |
Naive Bayes Neurális hálózat Support Vector Machine |
Bizonytalansági mátrix
Az Oracle Analytics létrehoz egy kimutatástáblát a Bizonytalansági mátrixhoz kapcsolódó adatkészlethez (más néven ez a hibamátrix). Minden sor egy előrejelzett osztály példányát képviseli, míg minden oszlop egy tényleges osztályban lévő példányt jelent. Ez a táblázat a hamis pozitívok, hamis negatívok, igaz pozitívok és igaz negatívok számát mutatja ki, amelyeket a precizitás, érzékenység és F1 pontossági mutatószám kiszámításánál használ a rendszer.
A Bizonytalansági mátrix adatkészletet akkor hozza létre a rendszer, ha a modellek és algoritmusok következő kombinációit választja.
Modell | Algoritmusok |
---|---|
Bináris besorolás |
Logisztikai regresszió CART (döntési fa) Naive Bayes Neurális hálózat Random Forest Support Vector Machine |
Többszörös besorolás |
CART (döntési fa) Naive Bayes Neurális hálózat Random Forest Support Vector Machine |
Tényezők
Az Oracle Analytics létrehoz egy táblát a Determinánsokhoz kapcsolódó adatkészlethez, amely a céloszlop értékeit meghatározó oszlopokról tartalmaz adatokat. Az oszlopok azonosításához lineáris regressziót használ a rendszer. Minden oszlophoz együttható és korrelációs érték van hozzárendelve. Az együttható értéke az oszlop súlyozott korát írja le, amelyet a céloszlop értékének meghatározásához használ a rendszer. A korrelációs érték a céloszlop és a függő oszlop közötti kapcsolat irányát jelzi. Például hogy a céloszlop értéke növekszik vagy csökken a függő oszlop alapján.
A Tényezők adatkészletet akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmusok |
---|---|
Numerikus |
Lineáris regresszió Rugalmas hálózat lineáris regressziója |
Bináris besorolás |
Logisztikai regresszió Support Vector Machine |
Többszörös besorolás | Support Vector Machine |
Találati térkép
Az Oracle Analytics létrehoz egy táblát a Találati térképhez kapcsolódó adatkészlethez, amely a döntési fa levélcsomópontjairól tartalmaz adatokat. A táblázat minden sora egy levélcsomópontot jelent, és a levélcsomópont által képviselt értéket leíró adatot tartalmaz, például a szegmens mérete, megbízhatóság és a sorok várható száma. Például: helyes előrejelzések száma = szegmensméret * megbízhatóság.
A Találati térkép adatkészletét akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmus |
---|---|
Numerikus | CART numerikus előrejelzéshez |
Maradványok
Az Oracle Analytics létrehoz egy táblát a Maradványokhoz kapcsolódó adatkészlethez, amely a maradvány-előrejelzésekről tartalmaz adatokat. A maradvány a mért érték és a regressziós modell előrejelzett értéke közötti eltérés. Az adatkészlet a tényleges és az előrejelzett értékek közötti abszolút eltérések összesített összegét tartalmazza az adatkészlet összes oszlopára.
A Maradványok adatkészletét akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmusok |
---|---|
Számértékek |
Lineáris regresszió Rugalmas hálózat lineáris regressziója CART numerikus előrejelzéshez |
Bináris besorolás | CART (döntési fa) |
Többszörös besorolás | CART (döntési fa) |
Statisztika
Az Oracle Analytics létrehoz egy táblát a Statisztikákhoz kapcsolódó adatkészlethez. Az adatkészlet mutatószámai az előállításukhoz használt algoritmustól függenek. Ez a mutatószámlista a következő algoritmuson alapul:
Ezt az adatkészletet akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmus |
---|---|
Numerikus |
Lineáris regresszió Rugalmas hálózat lineáris regressziója CART numerikus előrejelzéshez |
Bináris besorolás |
Logisztikai regresszió CART (döntési fa) Naive Bayes Neurális hálózat Random Forest Support Vector Machine |
Többszörös besorolás |
Naive Bayes Neurális hálózat Random Forest Support Vector Machine |
Összegzés
Az Oracle Analytics létrehoz egy táblát az Összegzéshez kapcsolódó adatkészlethez, amely olyan információkat tartalmaz, mint a Cél neve és a Modell neve.
Az Összegzés adatkészletet akkor hozza létre a rendszer, ha a modellek és algoritmusok ezen kombinációit választja.
Modell | Algoritmusok |
---|---|
Bináris besorolás |
Naive Bayes Neurális hálózat Support Vector Machine |
Többszörös besorolás |
Naive Bayes Neurális hálózat Support Vector Machine |
Előrejelző modell betanításakor a rendszer kapcsolódó adatkészleteket állít elő.
Amikor forgatókönyvet hoz létre egy munkafüzetben, előrejelző modellt alkalmaz a munkafüzet adatkészletére azon tendenciák és minták feltárásához, amelyek keresésére a modellt kialakították.
Megjegyzés:
Nem alkalmazhat egy Oracle gépi tanulási modellt egy munkafüzet adataira.