Oracle Analyticsin ennustemalleissa käytetään useita upotettuja Oracle-koneoppimisen algoritmeja, joilla voidaan louhia tietojoukkoja, ennustaa kohdearvo sekä tunnistaa tietueiden luokkia. Tietovirtaeditorin avulla voit luoda ja opettaa ennustemalleja sekä käyttää niitä tiedoissa.
Oracle Analyticsin ennustemalli käyttää tietojoukossa tiettyä algoritmia ennustamaan arvoja tai luokkia taikka tunnistamaan ryhmiä tiedoissa.
Voit myös käyttää Oraclen koneoppimismalleja tietojen ennustamiseen.
Oracle Analytics -palveluun sisältyy algoritmeja, joiden avulla voidaan opettaa ennustemalleja eri tarkoituksiin. Algoritmeja ovat esimerkiksi luokitus- ja regressiopuut (CART), logistinen regressio ja K-means.
Ensin opetustietojoukon malli opetetaan tietovirtaeditorissa. Kun ennustemalli on opetettu, sitä käytetään ennustettavissa tietojoukoissa.
Voit antaa opetetun mallin toisten käyttäjien käyttöön, jotka voivat käyttää sitä omissa tiedoissaan arvojen ennustamiseen. Joissakin tapauksissa tietyt käyttäjät opettavat malleja ja toisissa käyttäjät käyttävät malleja.
Huomautus::
Jos et ole varma, mitä etsit tiedoista, voit aloittaa käyttämällä Explain-toimintoa. Se tunnistaa trendejä ja malleja koneoppimisen avulla. Sen jälkeen voit luoda ja opettaa tietovirtaeditorissa ennustemalleja, joilla siirrytään Explain-toiminnon löytämiin trendeihin ja malleihin.Viimeistellyn mallin avulla voit pisteyttää tuntemattomia tai otsikoimattomia tietoja ja luoda tietojoukon tietovirrassa tai lisätä ennusteen visualisoinnin työkirjaan.
Esimerkki
Oletetaan, että haluat luoda ja opettaa moniluokitusmallin ennustamaan, millä potilailla on suuri riski sairastua sydäntautiin.
Oracle Analytics tarjoaa algoritmeja kaikkiin koneoppimisen mallinnustarpeisiin, joita ovat numeerinen ennuste, moniluokitus, binaariluokitus ja ryvästys.
Oraclen koneoppimistoiminto on tarkoitettu kokeneille data-analyytikoille, jotka tietävät, mitä he etsivät tiedoista, tuntevat ennakoivien analyysien käytön ja ymmärtävät algoritmien väliset erot.
Huomautus::
Käyttäessäsi Oracle Autonomous Data Warehousesta peräisin olevia tietoja saat koulutettua ennustemallin AutoML-toiminnolla helposti ja nopeasti ilman laajempaa koneoppimisosaamista. Katso Ennustemallin kouluttaminen Autonomous Data Warehousen AutoML-toiminnolla.Yleensä käyttäjät haluavat luoda useita ennustemalleja, vertailla niitä ja valita mallin, joka todennäköisimmin antaa tulokset ehtoja ja vaatimuksia vastaavat tulokset. Nämä ehdot voivat vaihdella. Joskus käyttäjät esimerkiksi valitsevat malleja, joilla on parempi yleinen tarkkuus. Joskus taas käyttäjät valitsevat malleja, joissa on vähintään tyypin I (väärä positiivinen) ja tyypin II (väärä negatiivinen) virheitä. Joskus puolestaan käyttäjät valitsevat malleja, jotka tuottavat tuloksia nopeammin ja riittävällä tarkkuustasolla, vaikka tulokset eivät olisikaan ihanteellisia.
Oracle Analytics sisältää useita koneoppimisen algoritmeja kaiken tyyppisille ennusteille tai luokituksille. Näiden algoritmien avulla käyttäjät voivat luoda useita malleja, käyttää erilaisia hienosäädettyjä parametreja tai käyttää erilaisia syötettyjä opetuksen tietojoukkoja ja valita sen jälkeen parhaan mallin. Käyttäjä voi valita parhaan mallin vertaamalla ja painottamalla malleja omien ehtojensa mukaan. Selvittäessään parasta mallia käyttäjät voivat käyttää mallia ja visualisoida laskelmien tuloksia tarkkuuden määrittämistä varten. He voivat myös avata ja tutkia liittyviä tietojoukkoja, joita Oracle Analytics on käyttänyt tulosteen mallinnuksessa.
Tutustu tähän taulukkoon, jossa kerrotaan tarjolla olevista algoritmeista:
Nimi | Tyyppi | Luokka | Funktio | Kuvaus |
---|---|---|---|---|
CART |
Luokitus Regressio |
Binaariluokittelija Moniluokittelija Numeerinen |
- | Käyttää päätöspuita sekä erillisten että jatkuvien arvojen ennustamiseen.
Käytä suurten tietojoukkojen kanssa. |
Joustavan verkon lineaarinen regressio | Regressio | Numeerinen | ElasticNet | Kehittynyt regressiomalli. Antaa lisätietoja (johdonmukaistus), suorittaa muuttujien valintaa ja suorittaa lineaariyhdistelmiä. Lasso-ja harjaregressiomenetelmien seuraamukset.
Käytä suurta määrää määritteitä kollineaarisuuden (jossa useat määritteet korreloivat täydellisesti) ja ylisovittamisen välttämiseksi. |
Hierarkkinen | Ryvästys | Ryvästys | AgglomerativeClustering | Luo ryvästyshierarkian käyttämällä joko alhaalta ylös -menetelmää (kukin havainto on omassa ryppäässään ja sitten ne yhdistetään) tai ylhäältä alas -menetelmää (kaikki havainnot alkavat yhtenä ryppäänä) ja etäisyysmittareita.
Käytä, kun tietojoukko ei ole suuri eikä ryppäiden määrä ole tiedossa etukäteen. |
K-Means | Ryvästys | Ryvästys | k-means | Osioi tietueet iteratiivisesti k-ryppäiksi, joissa kukin havainto kuuluu lähimmän keskiarvon ryppääseen.
Käytä ryvästysmittarin sarakkeissa, joissa on määritetty tarvittavien ryppäiden odotettu määrä. Toimii hyvin suurissa tietojoukoissa. Tulokset ovat erilaisia jokaisessa ajossa. |
Lineaarinen regressio | Regressio | Numeerinen | Tavallinen pienimmän neliösumman menetelmä
Harja Lasso |
Lineaarinen menetelmä kohdemuuttujan ja tietojoukon muiden määritteiden välisen suhteen mallintamista varten.
Käytä ennustamaan numeerisia arvoja, kun määritteet eivät korreloi täydellisesti keskenään. |
Logistinen regressio | Regressio | Binaariluokittelija | LogisticRegressionCV | Käytä ennustamaan luokasta riippuvainen muuttujan arvo. Riippuvainen muuttuja on binaarimuuttuja, joka sisältää arvoilla 1 tai 0 koodattua tietoa. |
Naive Bayes | Luokitus |
Binaariluokittelija Moniluokittelija |
GaussianNB | Todennäköisyysluokitus, joka perustuu Bayesin teoreemaan, jonka mukaan ominaisuuksien välillä ei ole riippuvuuksia.
Käytä, kun syötedimensioita on paljon. |
Neural Network | Luokitus |
Binaariluokittelija Moniluokittelija |
MLPClassifier | Iteratiivinen luokitusalgoritmi, joka oppii vertaamalla luokitustulosta todelliseen arvoon ja palauttaa sen verkkoon, jotta algoritmia voidaan muokata tulevia iteraatioita varten.
Käytä tekstianalyysissa. |
Random Forest | Luokitus |
Binaariluokittelija Moniluokittelija Numeerinen |
- | Yhdistelmäoppimismenetelmä, joka muodostaa useita päätöspuita ja tulostaa arvon, joka edustaa kollektiivisesti kaikkia päätöspuita.
Käytä ennustamaan numeerisia ja luokkamuuttujia. |
SVM | Luokitus |
Binaariluokittelija Moniluokittelija |
LinearSVC, SVC | Luokittelee tietueet määrittämällä ne tilassa ja muodostamalla hypertasoja, joita voidaan käyttää luokituksessa. Uusien tietueiden (pisteytystietojen) vastaavuudet määritetään tilaan ja niiden ennustetaan kuuluvaan tiettyyn luokkaan. Luokka määräytyy hypertason puolen mukaan. |
Käyttäessäsi Oracle Autonomous Data Warehousesta peräisin olevia tietoja saat käyttöön suositellun ja koulutetun ennustemallin AutoML-toiminnolla. AutoML analysoi tiedot, laskee parhaimman mahdollisen algoritmin ja rekisteröi Oracle Analyticsiin ennustemallin, jolla voit tehdä ennusteita tiedoistasi.
OML_Developer
eikä pääkäyttäjä. Muutoin tietovirta epäonnistuu, kun yrität tallentaa tai ajaa sitä.Kokeneet data-analyytikot luovat ja kouluttavat ennakoivia malleja, joiden avulla voidaan ottaa käyttöön Oracle Machine Learning -algoritmeja tietojoukkojen louhintaa, kohdearvon ennustamista tai tietueiden luokkien tunnistamista varten. Tietovirtaeditorin avulla voit luoda ja kouluttaa ennustemalleja sekä käyttää niitä tiedoissa.
Tarkka malli saavutetaan iteratiivisesti: kokenut data-analyytikko voi kokeilla eri malleja, vertailla niiden tuloksia ja hienosäätää parametreja yrityksen ja erehdyksen kautta. Data-analyytikko voi ennustaa viimeistellyn ja tarkan ennustemallin avulla trendejä muissa tietojoukoissa sekä lisätä mallin työkirjoihin.
Huomautus::
Käyttäessäsi Oracle Autonomous Data Warehousesta peräisin olevia tietoja saat koulutettua ennustemallin AutoML-toiminnolla helposti ja nopeasti ilman laajempaa koneoppimisosaamista. Katso Ennustemallin kouluttaminen Autonomous Data Warehousen AutoML-toiminnolla.Oracle Analytics tarjoaa algoritmeja numeerista ennustetta, moniluokitusta, binaariluokitusta ja ryvästystä varten.
Oracle Analytics -palvelussa voit opettaa koneoppimismalleja käyttämällä tietovirtojen vaiheita. Kun olet opettanut koneoppimismallin, voit käyttää sitä tietoihin Käytä mallia -vaiheen avulla.
Vaiheen nimi | Kuvaus |
---|---|
AutoML (vaatii Oracle Autonomous Data Warehousen) | Oracle Autonomous Data Warehousen AutoML-toiminnolla saat käyttöön suositellun ja koulutetun ennustemallin. AutoML-vaihe analysoi tiedot, laskee parhaimman mahdollisen algoritmin ja rekisteröi ennustemallin Oracle Analyticsiin. |
Binaariluokittelijan opetus |
Opeta koneoppimismalli luokittelemaan tiedot yhteen tai kahteen ennalta määritettyyn luokkaan. |
Ryppäiden luonnin opetus | Opeta koneoppimismalli erottelemaan samanlaisten ominaisuuksien ryhmät ja määrittämään ne ryppäiksi. |
Moniluokittelijan opetus | Opeta koneoppimismalli luokittelemaan tiedot vähintään kolmeen ennalta määritettyyn luokkaan. |
Numeerisen ennusteen opetus | Opeta koneoppimismalli ennustamaan numeerinen arvo tunnettujen tietoarvojen perusteella. |
Kun olet luonut ennustemallin ja ajanut tietovirran, voit tarkistaa mallin tiedot ja varmistaa sen tarkkuuden. Voit mukauttaa malliasetuksia iteratiivisesti näiden tietojen avulla ja parantaa mallin tarkkuutta sekä tuottaa parempia ennustetuloksia.
Ennustemallin tietojen avulla ymmärrät mallia paremmin ja voit määrittää, soveltuuko se tarvittavien tietojen ennustamiseen. Mallin tiedot sisältävät sen luokan, algoritmin, syötesarakkeet ja tulostesarakkeet
Katso tietoja, joiden avulla saat käsityksen ennustemallin laadusta. Voit esimerkiksi tarkastella tarkkuutta koskevia mittareita, joita ovat esimerkiksi mallin tarkkuus, tarkkuus, takaisinkutsu, F1-arvo ja väärien positiivisten tulosten määrä.
Kun ajat tietovirran Oracle Analyticsin ennustemallin opetusmallin luontia varten, Oracle Analytics luo joukon liittyviä tietojoukkoja. Voit avata ja luoda työkirjoja kyseisissä tietojoukoissa, jotta saat selville mallin tarkkuuden.
Liittyvien tietojoukkojen sisältämät tiedot määräytyvät mallille valitun algoritmin mukaan. Niitä voivat olla esimerkiksi ennustussäännöt, tarkkuuden mittarit, virhematriisi, ennusteen avaintekijät jne. Näiden tietojen avulla voit hienosäätää mallia siten, että saat parempia tuloksia. Voit myös verrata malleja liittyvien tietojoukkojen avulla ja päättää, mikä malli on tarkin.
Voit esimerkiksi avata Ajurit-tietojoukon ja ottaa selville, millä sarakkeilla on voimakas positiivinen tai negatiivinen vaikutus malliin. Tutkimalla kyseisiä sarakkeita huomaat, että joitakin sarakkeita ei käsitellä mallimuuttujina, koska ne eivät ole realistisia syötteitä, tai että ne ovat liian tarkkoja ennustetta varten. Voit avata mallin tietovirtaeditoria käyttäen sekä poistaa havaitsemiesi tietojen perusteella merkityksettömät tai liian tarkat sarakkeet ja luoda mallin uudelleen. Voit katsoa Laatu ja tulokset -välilehdestä, onko mallin tarkkuus parantunut. Jatka tätä prosessia, kunnes olet tyytyväinen mallin tarkkuuteen, ja malli on valmis pisteyttämään uuden tietojoukon.
Eri algoritmeilla voidaan luoda samanlaisia liittyviä tietojoukkoja. Tietojoukon yksittäiset parametrit ja sarakkeiden nimet saattavat vaihdella algoritmin tyypin mukaan, mutta tietojoukon toiminnot pysyvät samoina. Esimerkiksi tilastotietojoukon sarakkeiden nimet saattavat muuttua lineaarisesta regressiosta logistiseksi regressioksi, mutta tilastotietojoukko sisältää mallin tarkkuusmittarit.
AutoML-mallien liittyvät tietojoukot
Kun koulutat ennustemallin AutoML-toimintoa käyttäen, Oracle Analytics luo lisätietojoukkoja, jotka sisältävät hyödyllistä tietoa mallista. Luotujen tietojoukkojen määrä riippuu mallin algoritmista. Esimerkiksi Naive Bayes -malleissa Oracle Analytics luo tietojoukon, joka antaa tietoa ehdollisista todennäköisyyksistä. Jos kyseessä on päätöspuumalli, tietojoukko antaa tietoa päätöspuutilastoista. Kun tutkit AutoML-toiminnolla luotua mallia GLM (Generalized Linear Model) -algoritmia käyttäen, näet mallikohtaisten tietojoukkojen GLM*-etuliitteellä merkittyjä syötteitä, jotka sisältävät kyseiseen malliin liittyviä metatietoja.
.png kuvaus
Liittyvät tietojoukot
Huomautus::
Oracle Analytics liittää tietovirran tulosteen nimen liittyvän tietojoukon tyyppiin. Esimerkiksi CART-mallissa, jossa tietovirran tulosteen nimi on cart_model2, tietojoukon nimeksi tulee cart_model2_CART.CART
Oracle Analytics luo liittyvälle CART (Classification and Regression Tree) -tietojoukolle taulun, jonka sarakkeet edustavat ehtoja ja niiden kriteerejä päätöspuussa. Taulu sisältää myös kunkin ryhmän ennusteen sekä sen luotettavuuden. Voit visualisoida tämän päätöspuun käyttämällä puukaaviovisualisointia.
CART-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmi |
---|---|
Numeerinen | Numeerisen ennusteen CART |
Binaariluokitus | CART |
Moniluokitus | CART |
Luokitusraportti
Oracle Analytics luo liittyvälle Luokitusraportti-tietojoukolle taulun. Jos kohdesarakkeella voi esimerkiksi olla kaksi erillistä arvoa, Kyllä ja Ei, tietojoukko näyttää kohdesarakkeen kunkin erillisen arvon tarkkuusmittarit, joita ovat esimerkiksi F1, Tarkkuus, Muisti ja Tuki (tämän arvon sisältävien opetustietojoukon rivien lukumäärä).
Luokitus-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmit |
---|---|
Binaariluokitus |
Naive Bayes Neural Network Support Vector Machine |
Moniluokitus |
Naive Bayes Neural Network Support Vector Machine |
Virhematriisi
Oracle Analytics luo liittyvälle Virhematriisi-tietojoukolle pivot-taulun. Kukin rivi edustaa ennustetun luokan instanssia, ja kukin sarake edustaa todellisen luokan instanssia. Tämä taulukko raportoi väärät positiiviset, väärät negatiiviset, todelliset positiiviset ja todelliset negatiiviset arvot, joiden avulla lasketaan tarkkuuden, takaisinkutsun ja F1:n tarkkuusmittarit.
Virhematriisi-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmit |
---|---|
Binaariluokitus |
Logistinen regressio CART (päätöspuu) Naive Bayes Neural Network Random Forest Support Vector Machine |
Moniluokitus |
CART (päätöspuu) Naive Bayes Neural Network Random Forest Support Vector Machine |
Ajurit
Oracle Analytics luo liittyvälle Ajurit-tietojoukolle taulun, joka sisältää tietoja kohdesarakkeen arvot määrittävistä sarakkeista. Näiden sarakkeiden tunnistamiseen käytetään lineaarista regressiota. Jokaiselle sarakkeelle määritetään kertoimen ja korrelaation arvot. Kertoimen arvo kuvaa sarakkeen painoa ja ikää, joilla määritetään kohdesarakkeen arvo. Korrelaatioarvo osoittaa kohdesarakkeen ja riippuvaisen sarakkeen välisen suhteen suunnan. Eli esimerkiksi sen, lisääntyykö vai väheneekö kohdesarakkeen arvo riippuvaisen sarakkeen perusteella.
Ajurit-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmit |
---|---|
Numeerinen |
Lineaarinen regressio Joustavan verkon lineaarinen regressio |
Binaariluokitus |
Logistinen regressio Support Vector Machine |
Moniluokitus | Support Vector Machine |
Hitmap
Oracle Analytics luo liittyvälle Hitmap-tietojoukolle taulun, joka sisältää tietoja päätöspuun lehtisolmuista. Taulukon kukin rivi edustaa yhtä lehtisolmua ja sisältää tietoja, joissa kuvastaan, mitä lehtisolmu edustaa, eli esimerkiksi segmentin koko, luotettavuus ja odotettu rivien määrä. Esimerkiksi oikeiden ennusteiden odotettu määrä = segmentin koko * luotettavuus
Hitmap-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmi |
---|---|
Numeerinen | Numeerisen ennusteen CART |
Jäännösarvot
Oracle Analytics luo liittyvälle Jäännösarvot-tietojoukolle taulun, joka sisältää tietoja jäännösarvojen ennusteiden laadusta. Jäännösarvo on regressiomallin mitatun arvon ja ennustetun arvon välinen ero. Tämä tietojoukko sisältää tietojoukon kaikkien sarakkeiden todellisten ja ennustettujen arvojen välisen absoluuttisen eron kootun summan arvon.
Jäännösarvot-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmit |
---|---|
Numeerinen |
Lineaarinen regressio Joustavan verkon lineaarinen regressio Numeerisen ennusteen CART |
Binaariluokitus | CART (päätöspuu) |
Moniluokitus | CART (päätöspuu) |
Tilastot
Oracle Analytics luo liittyvälle Tilastotiedot-tietojoukolle taulun. Tämän tietojoukon mittarit määräytyvät sen luonnissa käytetystä algoritmista. Ota huomioon tämä algoritmiin perustuva mittarien lista:
Tämä tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmi |
---|---|
Numeerinen |
Lineaarinen regressio Joustavan verkon lineaarinen regressio Numeerisen ennusteen CART |
Binaariluokitus |
Logistinen regressio CART (päätöspuu) Naive Bayes Neural Network Random Forest Support Vector Machine |
Moniluokitus |
Naive Bayes Neural Network Random Forest Support Vector Machine |
Yhteenveto
Oracle Analytics luo liittyvälle Yhteenveto-tietojoukolle taulun, joka sisältää esimerkiksi kohteen ja mallin nimen.
Yhteenveto-tietojoukko luodaan, kun valitset jonkin seuraavista malli- ja algoritmiyhdistelmistä.
Malli | Algoritmit |
---|---|
Binaariluokitus |
Naive Bayes Neural Network Support Vector Machine |
Moniluokitus |
Naive Bayes Neural Network Support Vector Machine |
Liittyvät tietojoukot luodaan mallin opetuksen yhteydessä.
Kun luot skenaarion työkirjassa, voit käyttää työkirjan tietojoukossa ennustemallia, jolla havaitaan trendit ja mallit, joita malli on suunniteltu etsimään.
Huomautus::
Oraclen koneoppimismallia ei voi soveltaa työkirjan tietoihin.