Prediktive modeller i Oracle Analytics bruker flere innebygde Oracle Machine Learning-algoritmer til å utvinne datasett, forutsi en målverdi eller identifisere klasser med oppføringer. Bruk redigeringsprogrammet for dataflyt når du vil opprette, lære opp og bruke prediktive modeller på data.
En prediktiv modell i Oracle Analytics bruker en bestemt algoritme med et datasett til å forutsi verdier, forutsi klasser eller identifisere grupper i dataene.
Du kan også bruke Oracle-maskinlæringsmodeller til å forutsi data.
Oracle Analytics inneholder algoritmer som hjelper deg å lære opp prediktive modeller for ulike formål. Klassifiserings- og regresjonstrær (CART), logistisk regresjon og K-Means er eksempler på algoritmer.
Du bruker redigeringsprogrammet for dataflyt til å lære opp en modell i et datasett for opplæring først. Når den prediktive modellen er opplært, bruker du den på datasettene du vil forutsi.
Du kan gjøre en opplært modell tilgjengelig for andre brukere som kan bruke den på sine data for å forutsi verdier. I noen tilfeller kan enkelte brukere lære opp modeller, mens andre brukere kan bruke modellene.
Merknad:
Hvis du ikke er sikker på hva du skal lete etter i dataene dine, kan du begynne med å bruke Forklar, som bruker maskinlæring til å identifisere trender og mønstre. Deretter kan du bruke redigeringsprogrammet for dataflyt til å opprette og lære opp prediktive modeller til å drille til trendene og mønstrene som Forklar har funnet.Bruk den fullførte modellen til å vurdere ukjente data eller data uten etikett for å generere et datasett i en dataflyt eller legge til en prediksjonsvisualisering i en arbeidsbok.
Eksempel
Anta at du vil opprette og lære opp en flerklassifiseringsmodell til å forutsi hvilke pasienter som har høy risiko for å utvikle hjertesykdom.
Oracle Analytics tilbyr algoritmer for alle modelleringsbehov innen maskinlæring: numerisk prediksjon, flerklassifisering, binær klassifisering og klynging.
Maskinlæringsfunksjonaliteten fra Oracle er for erfarne dataanalytikere som har en idé om hva de vil finne i dataene, er kjent med praktisering av prediktiv analyse og forstår forskjellene mellom algoritmer.
Merknad:
Hvis du bruker data som er hentet fra Oracle Autonomous Data Warehouse, kan du bruke funksjonen AutoML til å lære opp en prediktiv modell raskt og enkelt, uten at du må ha kunnskaper om maskinlæring. Se Lære opp en prediktiv modell som bruker AutoML i Oracle Autonomous Data Warehouse.Brukerne ønsker vanligvis å opprette flere prediksjonsmodeller, sammenligne dem og velge den som mest sannsynlig gir resultater som tilfredsstiller kriteriene og behovene. Disse kriteriene kan variere. Brukerne velger for eksempel noen ganger modeller som har bedre nøyaktighet generelt, noen ganger modeller som har færrest feil av type-I (falske positive) og type-II (falske negative), og andre ganger modeller som returnerer resultater raskere og med et akseptabelt nøyaktighetsnivå, selv om resultatene ikke er ideelle.
Oracle Analytics inneholder flere maskinlæringsalgoritmer for hver type prediksjon eller klassifisering. Brukerne kan opprette flere modeller, bruke forskjellige finjusterte parametre med disse algoritmene eller bruke forskjellige datasett for inndataopplæring og deretter velge den beste modellen. Brukeren kan velge den beste modellen ved å sammenligne og veie modeller mot sine egne kriterier. Brukerne kan ta i bruk modellen, visualisere resultater fra beregningene og fastslå nøyaktigheten for å finne ut hvilken modell som er best, eller de kan åpne og utforske de relaterte datasettene som ble brukt til å modellere utdataene i Oracle Analytics.
Du finner flere opplysninger om algoritmene som følger med, i denne tabellen:
Navn | Type | Kategori | Funksjon | Beskrivelse |
---|---|---|---|---|
CART |
Klassifisering Regresjon |
Binær klassifisering Flerklassifisering Numerisk |
- | Bruker beslutningstrær til å forutsi både diskrete og kontinuerlige verdier.
Brukes med store datasett. |
Elastisk netto lineær regresjon | Regresjon | Numerisk | ElasticNet | Avansert regresjonsmodell. Angir flere opplysninger (regularisering), utfører variabelvalg og utfører lineære kombinasjoner. Trekk for regresjonsmetodene lasso og topp.
Brukes med et stort antall attributter for å unngå kolineæritet (hvor flere attributter er perfekt korrelert) og overtilpassing. |
Hierarkisk | Klynging | Klynging | AgglomerativeClustering | Bygger et hierarki av klynging enten nedenfra og opp (hver observasjon er sin egen klynge og deretter sammenslått) eller ovenfra og ned (alle observasjoner begynner som én klynge) og avstandsmålinger.
Brukes når datasettet ikke er stort og antall klynger ikke er kjent på forhånd. |
K-Means | Klynging | Klynging | k-means | Partisjonerer oppføringer gjentagende i k-klynger, der hver observasjon tilhører klyngen med nærmeste middelverdi.
Brukes til klynging av målingskolonner og med en bestemt forventing om antall nødvendige klynger. Fungerer bra med store datasett. Resultatene er forskjellige i hver kjøring. |
Lineær regresjon | Regresjon | Numerisk | Vanlig færrest antall kvadrater
Topp Lasso |
Lineær tilnærming for en modelleringsrelasjon mellom en målvariabel og andre attributter i datasettet.
Brukes til å forutsi numeriske verdier når attributtene ikke er perfekt korrelert. |
Logistisk regresjon | Regresjon | Binær klassifisering | LogisticRegressionCV | Brukes til å forutsi verdien for en kategorisk avhengig variabel. Den avhengige variabelen er en binær variabel som inneholder data kodet til 1 eller 0. |
Naive Bayes | Klassifisering |
Binær klassifisering Flerklassifisering |
GaussianNB | Sannsynlighetsklassifisering basert på Bayes' teorem som forutsetter ingen avhengighet mellom funksjoner.
Brukes når det finnes et stort antall inndatadimensjoner. |
Nevralt nettverk | Klassifisering |
Binær klassifisering Flerklassifisering |
MLPClassifier | Gjentagende klassifiseringsalgoritme som lærer ved å sammenligne klassifiseringsresultatet med den faktiske verdien, og returnerer det til nettverket for å endre algoritmen for ytterligere gjentagelser.
Brukes til tekstanalyse. |
Random Forest | Klassifisering |
Binær klassifisering Flerklassifisering Numerisk |
- | En sammensatt opplæringsmetode som konstruerer flere beslutningstrær. Utdata er verdien som samlet representerer alle beslutningstrærne.
Brukes til å forutsi numeriske og kategoriske variabler. |
SVM | Klassifisering |
Binær klassifisering Flerklassifisering |
LinearSVC, SVC | Klassifiserer poster ved å tilordne dem i rom og konstruere hyperplaner som kan brukes til klassifisering. Nye poster (poengdata) tilordnes til rommet og forutsies å tilhøre en kategori, som er basert på hvilken side av hyperplanen de faller på. |
Når du bruker data fra Oracle Autonomous Data Warehouse, kan du bruke funksjonen AutoML til å anbefale og lære opp en prediktiv modell. AutoML analyserer dataene, beregner den beste algoritmen for bruk og registrerer en prediksjonsmodell i Oracle Analytics, slik at du kan generere prediksjoner for dataene.
OML_Developer
og ikke er superbruker av typen admin. I så fall mislykkes dataflyten når du prøver å lagre og kjøre den.Erfarne dataanalytikere oppretter og lærer opp prediktive modeller slik at de kan bruke dem til å implementere Oracle Machine Learning-algoritmer for å utvinne datasett, forutsi en målverdi eller identifisere postklasser. Bruk redigeringsprogrammet for dataflyt til å opprette og lære opp prediktive modeller og deretter bruke dem på dataene.
Prosessen for å komme frem til en nøyaktig modell er gjentagende, og en erfaren dataanalytiker kan prøve forskjellige modeller, sammenligne resultatene og finjustere parametrene basert på prøving og feiling. En dataanalytiker kan bruke den endelige og nøyaktige prediktive modellen til å forutsi trender i andre datasett eller legge til modellen i arbeidsbøker.
Merknad:
Hvis du bruker data som er hentet fra Oracle Autonomous Data Warehouse, kan du bruke funksjonen AutoML til å lære opp en prediktiv modell raskt og enkelt, uten at du må ha kunnskaper om maskinlæring. Se Lære opp en prediktiv modell som bruker AutoML i Oracle Autonomous Data Warehouse.Oracle Analytics tilbyr algoritmer for numerisk prediksjon, flerklassifisering, binær klassifisering og klynging.
Med Oracle Analytics kan du lære opp maskinlæringsmodeller ved hjelp av trinn i dataflyter. Når du har lært opp en maskinlæringsmodell, bruker du den på dataene ved hjelp av trinnet Bruk modell.
Navn på trinn | Beskrivelse |
---|---|
AutoML (krever Oracle Autonomous Data Warehouse) | Bruk funksjonen AutoML i Oracle Autonomous Data Warehouse til å anbefale og lære opp en prediktiv modell for deg. Trinnet AutoML analyserer dataene, beregner den beste algoritmen for bruk og registrerer en prediksjonsmodell i Oracle Analytics. |
Lær opp binær klassifikator |
Lær opp en maskinlæringsmodell til å klassifisere dataene dine i én av to forhåndsdefinerte kategorier. |
Lær opp klynging | Lær opp en maskinlæringsmodell hvis du vil dele inn grupper med lignende trekk og tilordne dem til klynger. |
Lær opp flerklassifikator | Lær opp en maskinlæringsmodell til å klassifisere dataene i tre eller flere forhåndsdefinerte kategorier. |
Lær opp numerisk prediksjon | Lær opp en maskinlæringsmodell hvis du vil forutsi en numerisk verdi basert på kjente dataverdier. |
Når du har opprettet den prediktive modellen og kjørt dataflyten, kan du vurdere opplysninger om modellen for å fastslå nøyaktigheten. Bruk disse opplysningene til gjentagende justering av modellinnstillingene, slik at du kan forbedre nøyaktigheten og forutsi bedre resultater.
De detaljerte opplysningene for en prediktiv modell hjelper deg å forstå modellen og finne ut om den passer til å forutsi dataene. Modelldetaljer omfatter modellklassen, algoritmen, inndatakolonnene, utdatakolonnene og parametrene.
Vis opplysninger som hjelper deg å forstå kvaliteten til en prediktiv modell. Du kan for eksempel vurdere nøyaktighetsmålinger som modellnøyaktighet, presisjon, tilbakekalling, F1-verdi og andel falske positive.
Når du kjører dataflyten for å opprette opplæringsmodellen for den prediktive modellen i Oracle Analytics, oppretter Oracle Analytics et sett med relaterte datasett. Du kan åpne og opprette arbeidsbøker med disse datasettene for å finne ut hvor nøyaktig modellen er.
Relaterte datasett inneholder detaljer om modellen basert på algoritmen du velger for modellen, for eksempel prediksjonsregler, nøyaktighetsmålinger, feilmatrise og nøkkeldrivere for prediksjon. Du kan bruke disse opplysningene til å finjustere modellen for å oppnå bedre resultater, og du kan bruke relaterte datasett til å sammenligne modeller og fastslå hvilken modell som er mest nøyaktig.
Du kan for eksempel åpne et datasett for drivere for å finne ut hvilke kolonner som har sterk positiv eller negativ virkning på modellen. Når du undersøker disse modellene, oppdager du at noen kolonner ikke behandles som modellvariabler fordi de ikke er realistiske inndata eller at de er for detaljerte for prognosen. Du bruker redigeringsprogrammet for dataflyt til å åpne modellen. Du fjerner kolonnene som ikke er relevante eller er for detaljerte, basert på opplysningene du har funnet, og deretter genererer du modellen på nytt. Du åpner fanene Kvalitet og Resulter og kontrollerer om modellnøyaktigheten er forbedret. Du fortsetter denne prosessen til du er tilfreds med modellnøyaktigheten, og deretter er den klar til å vurdere et nytt datasett.
Forskjellige algoritmer genererer lignende relaterte datasett. Individuelle parametre og kolonnenavn kan endres i datasettet, avhengig av typen algoritme, men funksjonaliteten for datasettet forblir den samme. Kolonnenavnene i et datasett for statistikk kan for eksempel endres fra Lineær regresjon til Logistisk regresjon, men datasettet for statistikk inneholder nøyaktighetsmålinger for modellen.
Relaterte datasett for AutoML-modeller
Når du lærer opp en prediktiv modell ved hjelp av AutoML, oppretter Oracle Analytics ytterligere datasett som inneholder nyttig informasjon om modellen. Hvor mange datasett som opprettes, avhenger av modellalgoritmen. For naiv Bayes-modeller oppretter Oracle Analytics for eksempel et datasett som gir informasjon om betingede sannsynligheter. For en beslutningstremodell gir datasettet informasjon om beslutningstrestatistikk. Når du inspiserer en AutoML-generert modell ved hjelp av GLM-algoritmen (generell lineær modell), ser du oppføringer med prefikset GLM* for de modellspesifikke datasettene som inneholder metadataopplysninger om modellen.
.png
Relaterte datasett
Merknad:
Oracle Analytics legger til dataflytens utdatanavn i den relaterte datasettypen. For en CART-modell får datasettet for eksempel navnet cart_model2_CART hvis dataflytens utdata heter cart_model2.CART
Oracle Analytics oppretter en tabell for det CART-relaterte datasettet (klassifiserings- og regresjonstre), som inneholder kolonner som representerer betingelsene og betingelseskriteriene i beslutningstreet, en prediksjon for hver gruppe og en prediksjonskonfidens. Bruk visualiseringen av trediagrammet til å visualisere dette beslutningstreet.
CART-datasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritme |
---|---|
Numerisk | CART for numerisk prediksjon |
Binær klassifisering | CART |
Flerklassifisering | CART |
Klassifiseringsrapport
Oracle Analytics oppretter en tabell for datasettet relatert til klassifiseringsrapporten. Hvis målkolonnen for eksempel kan ha de to unike verdiene Ja og Nei, viser dette datasettet nøyaktighetsmålinger som F1, presisjon, tilbakekalling og støtte (antall rader i opplæringsdatasettet med denne verdien) for hver unike verdi i målkolonnen.
Klassifiseringsdatasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritmer |
---|---|
Binær klassifisering |
Naive Bayes Nevralt nettverk Støttevektormaskin |
Flerklassifisering |
Naive Bayes Nevralt nettverk Støttevektormaskin |
Feilmatrise
Oracle Analytics oppretter en pivottabell for datasettet relatert til feilmatrisen. Hver rad representerer en forekomst av en forutsagt klasse, og hver kolonne representerer en forekomst av en faktisk klasse. Denne tabellen rapporterer antall falske positive, falske negative, sanne positive og sanne negative, som brukes til å beregne nøyaktighetsmålinger for presisjon, tilbakekalling og F1.
Feilmatrisedatasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritmer |
---|---|
Binær klassifisering |
Logistisk regresjon CART (beslutningstre) Naive Bayes Nevralt nettverk Random Forest Støttevektormaskin |
Flerklassifisering |
CART (beslutningstre) Naive Bayes Nevralt nettverk Random Forest Støttevektormaskin |
Drivere
Oracle Analytics oppretter en tabell for det driverrelaterte datasettet, som inneholder opplysninger om kolonnene som fastslår målkolonneverdiene. Lineær regresjon brukes til å identifisere disse kolonnene. Hver kolonne tilordnes koeffisient- og korrelasjonsverdier. Koeffisientverdien beskriver vektalderen for kolonnen, som brukes til å fastslå verdien for målkolonnen. Korrelasjonsverdien angir relasjonsretningen mellom målkolonnen og den avhengige kolonnen. Et eksempel er hvis målkolonneverdien økes eller reduseres basert på den avhengige kolonnen.
Driverdatasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritmer |
---|---|
Numerisk |
Lineær regresjon Elastisk netto lineær regresjon |
Binær klassifisering |
Logistisk regresjon Støttevektormaskin |
Flerklassifisering | Støttevektormaskin |
Hitmap
Oracle Analytics oppretter en tabell for det Hitmap-relaterte datasettet, som inneholder opplysninger om bladknutepunktene for beslutningstreet. Hver rad i tabellen representerer et bladknutepunkt og inneholder opplysninger som beskriver hva dette bladknutepunktet representerer, for eksempel segmentstørrelse, konfidens og forventet antall rader. Eksempel: forventet antall riktige prediksjoner = segmentstørrelse * konfidens.
Hitmap-datasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritme |
---|---|
Numerisk | CART for numerisk prediksjon |
Restverdier
Oracle Analytics oppretter en tabell for datasettet relatert til restverdier, som inneholder opplysninger om kvaliteten på prediksjonene av restverdiene. En restverdi er differansen mellom målt verdi og forutsagt verdi i en regresjonsmodell. Dette datasettet inneholder en aggregert sumverdi for absolutt differanse mellom de faktiske og forutsagte verdiene for alle kolonner i datasettet.
Restverdidatasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritmer |
---|---|
Numeriske verdier |
Lineær regresjon Elastisk netto lineær regresjon CART for numerisk prediksjon |
Binær klassifisering | CART (beslutningstre) |
Flerklassifisering | CART (beslutningstre) |
Statistikk
Oracle Analytics oppretter en tabell for det statistikkrelaterte datasettet. Målingene for dette datasettet avhenger av algoritmen som brukes til å generere den. Vær oppmerksom på denne listen over målinger basert på algoritmer:
Datasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritme |
---|---|
Numerisk |
Lineær regresjon Elastisk netto lineær regresjon CART for numerisk prediksjon |
Binær klassifisering |
Logistisk regresjon CART (beslutningstre) Naive Bayes Nevralt nettverk Random Forest Støttevektormaskin |
Flerklassifisering |
Naive Bayes Nevralt nettverk Random Forest Støttevektormaskin |
Sammendrag
Oracle Analytics oppretter en tabell for det sammendragsrelaterte datasettet, som inneholder opplysninger som målnavn og modellnavn.
Sammendragsdatasettet opprettes når du velger disse kombinasjonene av modell og algoritme.
Modell | Algoritmer |
---|---|
Binær klassifisering |
Naive Bayes Nevralt nettverk Støttevektormaskin |
Flerklassifisering |
Naive Bayes Nevralt nettverk Støttevektormaskin |
Relaterte datasett genereres når du lærer opp en prediktiv modell.
Når du oppretter et scenario i en arbeidsbok, bruker du en prediktiv modell på datasettet i arbeidsboken for å vise trendene og mønstrene modellen ble utformet for å finne.
Merknad:
Du kan ikke bruke en Oracle-maskinlæringsmodell på dataene i en arbeidsbok.