Prognostički modeli Oracle Analytics upotrebljavaju nekoliko ugrađenih Oracle algoritama za strojno učenje za pretraživanje skupova podataka, predviđanje odredišne vrijednosti ili identificiranje klasa zapisa. Upotrijebite uređivač tijeka podataka kako biste stvorili, obučili i primijenili prognostičke modele na svoje podatke.
Prognostički modeli Oracle Analytics primjenjuju specifični algoritam na skupove podataka u cilju predviđanja vrijednosti, predviđanja klasa ili identificiranja grupa u podacima.
Za predviđanje podataka možete upotrijebiti i Oracle modele za strojno učenje.
Oracle Analytics obuhvaća algoritme koji pomažu s obukom prognostičkih modela u razne svrhe. Primjeri algoritama su klasifikacijski i regresijski ogranci (CART), logistička regresija i srednje k vrijednosti.
Uređivač tijeka podataka omogućava obuku modela za skup podataka obuke. Nakon obuke prognostičkog modela, primijenite ga na skupove podataka koje želite predvidjeti.
Obučeni model možete učiniti dostupnim drugim korisnicima koji ga mogu primijeniti na svoje podatke i predviđati vrijednosti. U određenim slučajevima, neki korisnici obučavaju modele, a drugi ih primjenjuju.
Bilješka:
Ako niste sigurni što u svojim podacima tražite, možete započeti pomoću funkcije Objasni koja upotrebljava strojno učenje za identificiranje trendova i uzoraka. Zatim možete upotrijebiti uređivač tijeka podataka kako biste stvorili i obučili prognostičke modele te analizirali trendove i uzorke koje je pronašla funkcija Objasni.Pomoću gotovog modela bodujte nepoznate ili neoznačene podatke kako biste generirali skup podataka u tijeku podataka ili kako biste radnoj knjizi dodali vizualizaciju predviđanja.
Primjer
Recimo da želite izraditi i obučiti više-klasifikacijski model koji će predviđati kod kojih pacijenta postoji visok rizik od razvoja bolesti srca.
Oracle Analytics pruža algoritme za sve potrebe modeliranja strojnog učenja: numeričko predviđanje, višestruku klasifikaciju, binarnu klasifikaciju i klasteriranje.
Oracleova funkcija strojnog učenja predviđena je za napredne analitičare podataka koji znaju što traže u podacima, koji su upoznati s praksom prognostičkih analiza i shvaćaju razlike između algoritama.
Bilješka:
Ako upotrebljavate podatke čiji je izvor Oracle Autonomous Data Warehouse, možete upotrebljavati AutoML mogućnost kako biste brzo i jednostavno pripremili prediktivni model za vas, bez potrebe za vještinama strojnog učenja. Pogledajte odjeljak Obuka prediktivnog modela s pomoću mogućnosti AutoML u servisu Autonomous Data Warehouse.Korisnici obično žele stvoriti više modela predviđanja, usporediti ih i odabrati onaj koji će najvjerojatnije dati rezultate koji će ispuniti njihove kriterije i zahtjeve. Ti kriteriji mogu varirati. Npr., korisnici ponekad biraju modele veće ukupne točnosti, ponekad biraju modele s najmanje pogrešaka tipa I (lažno pozitivne stavke) i tipa II (lažno negativne stavke), a ponekad biraju modele koji rezultate vraćaju brže i uz prihvatljivu razinu točnosti, čak i ako rezultati nisu idealni.
Oracle Analytics sadrži više algoritama za strojno učenje za sve vrste predviđanja ili klasifikacija. Korisnici pomoću tih algoritama mogu stvoriti više modela ili upotrijebiti različite prilagođene parametre ili pak upotrijebiti različite ulazne skupove podataka za obuku, a zatim odabrati najbolji model. Korisnik može odabrati najbolji model usporedbom i ponderiranjem modela u odnosu na svoje vlastite kriterije. Kako bi odabrali najbolji model, korisnici mogu primijeniti model i vizualizirati rezultate izračuna kako bi utvrdili točnost ili mogu otvoriti i istražiti srodne skupove podataka pomoću kojih je Oracle Analytics modelirao izlaz.
U ovoj tablici saznajte više o omogućenim algoritmima:
Naziv | Vrsta | Kategorija | Funkcija | Opis |
---|---|---|---|---|
CART |
Klasifikacija Regresija |
Binarna klasifikacija Višestruka klasifikacija Brojčani |
- | Pomoću stabala odlučivanja predviđa zasebne i kontinuirane vrijednosti.
Upotrijebite s velikim skupovima podataka. |
Elastic Net linearna regresija | Regresija | Brojčani | ElasticNet | Napredno regresijsko modeliranje. Pruža dodatne informacije (regularizacija), provodi odabir varijabli i vrši linearne kombinacije. Kazneni bodovi regresijskih metoda Lasso i Ridge.
Pomoću velikog broja atributa izbjegnite kolinearnost (savršenu korelaciju više atributa) i prekomjerno definiranje. |
Hijerarhijski | Klasteriranje | Klasteriranje | AgglomerativeClustering | Izrada hijerarhije klasteriranja odozdo prema gore (sve su opservacije zasebni klasteri koji se zatim spajaju) ili odozgo prema dolje (sve opservacije kreću kao jedan klaster) i metrike udaljenosti.
Upotrijebite ako skup podataka nije velik, a broj klastera prethodno je nepoznat. |
Srednje K vrijednosti | Klasteriranje | Klasteriranje | srednje k vrijednosti | Iterativno dijeli zapise u K skupove kod kojih sve opservacije pripadaju skupu s najbližom srednjom vrijednošću.
Služi za stupce metrike klasteriranja, s postavljenim očekivanim brojem potrebnih klastera. Dobro funkcionira s velikim skupovima podataka. Rezultati se razlikuju sa svakim pokretanjem. |
Linearna regresija | Regresija | Brojčani | Standardni najmanji kvadrati
Ridge Lasso |
Linearan pristup odnosu modeliranja između ciljne varijable i drugih atributa u skupu podataka.
Služi za predviđanje numeričkih vrijednosti ako atributi nisu u savršenoj korelaciji. |
Logistic Regression | Regresija | Binarna klasifikacija | LogisticRegressionCV | Služi za predviđanje vrijednosti kategorijski ovisnih varijabli. Ovisna varijabla je binarna varijabla koja sadrži podatke kodirane kao 1 ili 0. |
Naive Bayes | Klasifikacija |
Binarna klasifikacija Višestruka klasifikacija |
GaussianNB | Probabilistička klasifikacija utemeljena na Bayesevom teoremu koja ne pretpostavlja ovisnost među značajkama.
Upotrebljavajte u slučaju velikog broja ulaznih dimenzija. |
Neuronska mreža | Klasifikacija |
Binarna klasifikacija Višestruka klasifikacija |
MLPClassifier | Iterativni klasifikacijski algoritam koji uči uspoređivanjem rezultata klasifikacije sa stvarnom vrijednošću te rezultate vraća u mrežu i modificira algoritam za sljedeće iteracije.
Upotrebljava se za analizu teksta. |
Nasumično odlučivanje | Klasifikacija |
Binarna klasifikacija Višestruka klasifikacija Brojčani |
- | Metoda zajedničkog učenja koja izrađuje više stabala odlučivanja i prikazuje vrijednost koja kolektivno predstavlja sva stabla odlučivanja.
Služi za predviđanje numeričkih i kategorijskih varijabli. |
SVM | Klasifikacija |
Binarna klasifikacija Višestruka klasifikacija |
LinearSVC, SVC | Klasificira zapise mapiranjem u prostor i konstruiranjem hiper-ravnina koje se mogu upotrebljavati za klasifikaciju. Novi zapisi (podaci o bodovanju) mapiraju se u prostor i predviđa se njihova pripadnost kategoriji, što se temelji na strani hiper-ravnine s koje se nalaze. |
Kad upotrebljavate podatke iz servisa Oracle Autonomous Data Warehouse, možete upotrebljavati njegovu AutoML mogućnost kako biste preporučili i obučili prediktivni model. AutoML analizira vaše podatke, izračunava najbolji algoritam za upotrebu i registrira prediktivni model u Oracle Analytics kako biste mogli predviđati svoje podatke.
OML_Developer
i je li on super korisnik 'administrator'. U suprotnome tijek podataka neće biti uspješan kad ga pokušate spremiti ili pokrenuti.Napredni analitičari podataka stvaraju i obučavaju prediktivne modele kako bi ih mogli upotrebljavati za implementaciju Oracle algoritama za strojno učenje za pretraživanje skupova podataka, predviđanje odredišne vrijednosti ili identificiranje klasa zapisa. Upotrijebite uređivač tijeka podataka kako biste stvorili i obučili prognostičke modele i primijenili ih na svoje podatke.
Postizanje točnog modela iterativni je proces, a napredni program za analizu podataka može isprobavati različite modele, uspoređivati njihove rezultate i prilagođavati parametre temeljem pokušaja i pogrešaka. Program za analizu podataka može upotrijebiti finalizirani, točan prognostički model za predviđanje trendova u drugim skupovima podataka ili dodati model radnim knjigama.
Bilješka:
Ako upotrebljavate podatke čiji je izvor Oracle Autonomous Data Warehouse, možete upotrebljavati AutoML mogućnost kako biste brzo i jednostavno pripremili prediktivni model za vas, bez potrebe za vještinama strojnog učenja. Pogledajte odjeljak Obuka prediktivnog modela s pomoću mogućnosti AutoML u servisu Autonomous Data Warehouse.Oracle Analytics pruža algoritme za numeričko predviđanje, višestruku klasifikaciju, binarnu klasifikaciju i klasteriranje.
Oracle Analytics omogućava vam obučavanje modela strojnog učenja s pomoću koraka u tijekovima podataka. Nakon obučavanja modela za strojno učenje, primijenite ga na svoje podatke s pomoću koraka Primijeni model.
Naziv koraka | Opis |
---|---|
AutoML (zahtijeva Oracle Autonomous Data Warehouse) | Upotrijebite AutoML mogućnost servisa Autonomous Data Warehouse kako biste preporučili i pripremili prediktivni model za vas. AutoML korak analizira vaše podatke, izračunava najbolji algoritam za upotrebu i registrira model predviđanja u Oracle Analytics. |
Obuči binarni klasifikator |
Obučite model strojnog učenja za klasificiranje podataka u jednu od dvije unaprijed definirane kategorije. |
Obuči klasteriranje | Obučite model strojnog učenja kako biste odvojili grupe sa sličnim osobinama i dodijelili ih u klastere. |
Obuči višestruki klasifikator | Obučite model strojnog učenja za klasificiranje podataka u tri ili više unaprijed definiranih kategorija. |
Obuči numeričko predviđanje | Obučite model strojnog učenja kako biste predvidjeli numeričku vrijednost na temelju poznatih vrijednosti podataka. |
Ako izradite prediktivni model i pokrenete tijek podataka, moći ćete pregledati informacije o modelu i utvrditi njegovu točnost. Pomoću tih informacija možete iterativno prilagoditi postavke modela i povećati točnost te bolje predvidjeti rezultate.
Pojedinosti prediktivnog modela omogućuju vam da bolje razumijete model i odredite je li prikladan za predviđanje podataka. Pojedinosti modela obuhvaćaju klasu modela, algoritam, ulazne i izlazne stupce
Pregledajte informacije koje vam pomažu razumjeti kvalitetu prediktivnog modela. Na primjer, možete pregledati metrike točnosti kao što su točnost modela, preciznost, ponovno pozivanje, F1 vrijednost i broj lažno pozitivnih stavki.
Kad pokrenete tijek podataka za izradu modela obuke prediktivnog modela servisa Oracle Analytics, Oracle Analytics izradit će skup srodnih skupova podataka. Kako biste saznali više o točnosti modela, možete otvarati i stvarati radne knjige u tim skupovima podataka.
Ovisno o algoritmu koji odaberete za model, srodni skupovi podataka sadrže pojedinosti o modelu, uključujući pravila predviđanja, metriku točnosti, matricu zamjene i ključne pokretače za predviđanje. Pomoću tih informacija prilagodite model za bolje rezultate; pomoću srodnih skupova podataka možete uspoređivati modele i odlučiti koji je model točniji.
Primjerice, možete otvoriti skup podataka pokretača kako biste otkrili koji stupci imaju snažan pozitivan ili negativan utjecaj na model. Pretraživanjem tih stupaca vidjet ćete kako neki stupci nisu obrađeni poput varijabli modela jer nisu realistični unosi ili su previše granularni za predviđanje. Pomoću uređivača tijeka podataka možete otvoriti model te na temelju otkrivenih informacija ukloniti stupce koji nisu relevantni ili su previše granulirani i ponovo generirati model. Na kartici Kvaliteta i rezultati provjerite je li unaprijeđena točnost modela. Nastavite s tim procesom dok ne budete zadovoljni s točnošću modela i njegovom spremnošću za bodovanje novog skupa podataka.
Različiti algoritmi generirali su slične srodne skupove podataka. Pojedinačni parametri i nazivi stupaca mogu se mijenjati u skupu podataka ovisno o vrsti algoritma, ali funkcionalnost skupa podataka ostaje ista. Npr., nazivi stupaca u statističkom skupu podataka mogu se promijeniti iz linearne u logističku regresiju, ali skup statističkih podataka sadrži metriku točnosti modela.
Povezani skupovi podataka za AutoML modele
Kada trenirate prediktivni model pomoću AutoML-a, Oracle Analytics stvara dodatne skupove podataka koji sadrže korisne informacije o modelu. Broj kreiranih skupova podataka ovisi o algoritmu modela. Na primjer, za Naive Bayes modele, Oracle Analytics stvara skup podataka koji pruža informacije o uvjetnim vjerojatnostima. Za model stabla odlučivanja skup podataka pruža informacije o statistici stabla odlučivanja. Kada provjeravate model koji je generirao AutoML pomoću algoritma generaliziranog linearnog modela (GLM), vidjet ćete unose s prefiksom GLM* za skupove podataka specifične za model koji sadrže metapodatke o modelu.
.png
Povezani skupovi podataka
Bilješka:
Oracle Analytics pridodat će izlazni naziv tijeka podataka povezanoj vrsti skupa podataka. Npr., za CART model, ako je izlaz tijeka podataka nazvan cart_model2, skup podataka bit će nazvan cart_model2_CART.CART
Oracle Analytics stvorit će tablicu za CART skup podataka (stablo klasifikacije i regresije) koji sadrži stupce koji predstavljaju uvjete i kriterije uvjeta u stablu odlučivanja, predviđanje za svaku grupu i pouzdanost predviđanja. Upotrijebite vizualizaciju razgranatog dijagrama kako biste vizualizirali stablo odlučivanja.
CART skup podataka stvara se nakon odabira kombinacija modela i algoritama.
Model | Algoritam |
---|---|
Numerički | CART za numeričko predviđanje |
Binarna klasifikacija | CART |
Višestruka klasifikacija | CART |
Izvješće o klasifikaciji
Oracle Analytics stvara tablicu za skup podataka povezan s izvješćem o klasifikaciji. Npr., ako ciljni stupac može imati dvije zasebne vrijednosti, Da ili Ne, taj skup podataka prikazuje metriku točnosti kao što je F1, Preciznost, Ponovni poziv i Podrška (broj redaka u skupu podataka za obuku s tom vrijednošću) za svaku zasebnu vrijednost ciljnog stupca.
Skup podataka o klasifikaciji stvara se nakon odabira kombinacija modela i algoritama.
Model | Algoritmi |
---|---|
Binarna klasifikacija |
Naive Bayes Neuronska mreža Podržano vektorsko računalo |
Višestruka klasifikacija |
Naive Bayes Neuronska mreža Podržano vektorsko računalo |
Matrica zamjene
Oracle Analytics stvorit će zaokretnu tablicu za skup vezan uz matricu zamjene, koja je poznata i kao matrica pogrešaka. Svaki redak predstavlja instancu predviđene klase, a svaki stupac predstavlja instancu stvarne klase. U ovoj tablici prikazuje se broj lažno pozitivnih stavki, lažno negativnih stavki, ispravno prepoznatih pozitivnih stavki i ispravno prepoznatih negativnih stavki, pomoću kojih se izračunavaju preciznost, ponovno pozivanje i F1 metrika točnosti.
Skup podataka matrice zamjene stvorit će se nakon odabira kombinacija modela i algoritama.
Model | Algoritmi |
---|---|
Binarna klasifikacija |
Logistička regresija CART (stablo odlučivanja) Naive Bayes Neuronska mreža Nasumično odlučivanje Podržano vektorsko računalo |
Višestruka klasifikacija |
CART (stablo odlučivanja) Naive Bayes Neuronska mreža Nasumično odlučivanje Podržano vektorsko računalo |
Pokretači
Oracle Analytics stvorit će tablicu za skup podataka povezan s pokretačima koji sadrži informacije o stupcima koji određuju ciljne vrijednosti stupaca. Za identificiranje tih stupaca služe linearne regresije. Svakom se stupcu dodjeljuju vrijednosti koeficijenta i korelacije. Vrijednost koeficijenta opisuje omjer mase i starosti stupca te utvrđuje vrijednost ciljnog stupca. Vrijednost korelacije određuje smjer odnosa između ciljnog i ovisnog stupca. Npr., povećava li se vrijednost ciljnog stupca ili pak smanjuje na temelju ovisnog stupca.
Skup podataka o pokretačima stvara se nakon odabira kombinacija modela i algoritama.
Model | Algoritmi |
---|---|
Numerički |
Linearna regresija Elastic Net linearna regresija |
Binarna klasifikacija |
Logistička regresija Podržano vektorsko računalo |
Višestruka klasifikacija | Podržano vektorsko računalo |
Karta lokacija
Oracle Analytics stvorit će tablicu za skup podataka povezan s kartom pogodaka koji sadrži informacije o čvorovima stabla odluka. Svaki redak u tablici predstavlja čvor i sadrži informacije koje opisuju što taj čvor predstavlja, npr. veličinu segmenta, pouzdanost i očekivani broj redaka. Primjerice, očekivani broj točnih predviđanja = veličina segmenta * pouzdanost.
Skup podataka karte lokacija stvorit će se nakon odabira kombinacija modela i algoritama.
Model | Algoritam |
---|---|
Numerički | CART za numeričko predviđanje |
Rezidualne vrijednosti
Oracle Analytics stvorit će tablicu za skup podataka povezan s rezidualnim podacima koji sadrži informacije o kvaliteti rezidualnih predviđanja. Rezidualna vrijednost je razlika između izmjerene i predviđene vrijednosti u regresijskom modelu. Taj skup podataka sadrži zbirnu sumarnu vrijednost s apsolutnom razlikom između stvarnih i predviđenih vrijednosti za sve stupce iz skupa podataka.
Skup podataka rezidualnih vrijednosti stvara se nakon odabira kombinacija modela i algoritama.
Model | Algoritmi |
---|---|
Numeričke vrijednosti |
Linearna regresija Elastic Net linearna regresija CART za numeričko predviđanje |
Binarna klasifikacija | CART (stablo odlučivanja) |
Višestruka klasifikacija | CART (stablo odlučivanja) |
Statistički podaci
Oracle Analytics stvara tablicu za skup podataka povezan sa statistikom. Metrika tog skupa podataka ovisi o algoritmu kojim je generirana. Napominjemo kako se taj popis metričkih vrijednosti temelji na algoritmu:
Taj skup podataka stvara se nakon odabira kombinacija modela i algoritama.
Model | Algoritam |
---|---|
Numerički |
Linearna regresija Elastic Net linearna regresija CART za numeričko predviđanje |
Binarna klasifikacija |
Logistička regresija CART (stablo odlučivanja) Naive Bayes Neuronska mreža Nasumično odlučivanje Podržano vektorsko računalo |
Višestruka klasifikacija |
Naive Bayes Neuronska mreža Nasumično odlučivanje Podržano vektorsko računalo |
Sažetak
Oracle Analytics stvorit će tablicu za skup podataka povezan sa sažetkom koji sadrži informacije poput naziva odredišta i modela.
Skup podataka sažetka stvara se nakon odabira kombinacija modela i algoritama.
Model | Algoritmi |
---|---|
Binarna klasifikacija |
Naive Bayes Neuronska mreža Podržano vektorsko računalo |
Višestruka klasifikacija |
Naive Bayes Neuronska mreža Podržano vektorsko računalo |
Povezani skupovi podataka generiraju se kad obučavate prediktivni model.
Pri izradi scenarija u radnoj knjizi, primijenite prognostički model na skup podataka radne knjige kako biste otkrili trendove i uzorke za čiji je pronalazak model dizajniran.
Bilješka:
Oracle model za strojno učenje ne možete primijeniti na podatke radne knjige.