Oracle Analytics-forudsigelsesmodeller bruger flere integrerede Oracle-algoritmer for maskinel indlæring til at minere dine datasæt, forudsige en målværdi eller identificere record-klasser. Brug datafloweditoren til at oprette, træne og anvende forudsigelsesmodeller på dine data.
En Oracle Analytics-forudsigelsesmodel anvender en specifik algoritme på et datasæt for at forudsige værdier, forudsige klasser eller identificere grupper i dataene.
Du kan også bruge Oracle-modeller til maskinel indlæring til at forudsige data.
Oracle Analytics omfatter algoritmer, der kan hjælpe dig med at træne forudsigelsesmodeller til forskellige formål. Eksempler på algoritmer er klassificerings- og regressionstræer (CART), logistisk regression og K-Means.
Du bruger datafloweditoren til først at træne en model i et træningsdatasæt. Når forudsigelsesmodellen er trænet, anvender du den på de datasæt, som du vil forudsige.
Du kan gøre en trænet model tilgængelig for andre brugere, der kan anvende den på deres data for at forudsige værdier. I nogle tilfælde træner bestemte brugere modeller, og andre brugere anvender modellerne.
Bemærk:
Hvis du ikke er sikker på, hvad du skal kigge efter i dine data, kan du starte ved hjælp af Forklar, der bruger maskinel indlæring til at identificere tendenser og mønstre. Derefter kan du bruge datafloweditoren til at oprette og træne forudsigelsesmodeller for at bore ind i de tendenser og mønstre, som Forklar har fundet.Anvend den færdige model på ukendte data eller data uden etiket, så du kan generere et datasæt i et dataflow eller føje en forudsigelsesvisualisering til en projektmappe.
Eksempel
Lad os antage, at du vil oprette og træne en multiklassificeringsmodel for at forudsige, hvilke patienter der har høj risiko for at udvikle hjertesygdomme.
Oracle Analytics omfatter algoritmer til alle dine behov, hvad angår modeller til maskinel indlæring: numerisk forudsigelse, multiklassificering, binær klassificering og klynger.
Oracles funktionalitet til maskinel indlæring er beregnet til erfarne analytikere, som ved, hvad de kigger efter i dataene, er bekendt med, hvordan de skal udføre forudsigelsesanalyser, og forstår forskellen mellem algoritmer.
Bemærk:
Hvis du bruger data, der stammer fra Oracle Autonomous Data Warehouse, kan du bruge AutoML-egenskaben til hurtigt og nemt at træne en prædiktiv model, uden at du behøver at have kendskab til maskinel indlæring. Se Træne en forudsigelsesmodel ved hjælp af AutoML i Autonomous Data Warehouse.Normalt opretter brugere flere forudsigelsesmodeller, sammenligner dem og vælger den, der har størst sandsynlighed for at returnere resultater, som opfylder deres kriterier og krav. Disse kriterier kan variere. Nogle gange vælger brugere for eksempel modeller med en bedre overordnet nøjagtighed, nogle gange vælger de modeller med de færreste type I-fejl (falsk positiv) og type II-fejl (falsk negativ), og nogle gange vælger de modeller, som returnerer resultater hurtigere og med et acceptabelt nøjagtighedsniveau, selvom resultaterne ikke er ideelle.
Oracle Analytics indeholder flere algoritmer til maskinel indlæring for hver type forudsigelse eller klassificering. Med disse algoritmer kan brugerne oprette mere end én model, bruge forskellige finindstillede parametre eller bruge forskellige træningsdatasæt som input og derefter vælge den bedste model. Brugerne kan vælge den bedste model ved at sammenligne og veje modellerne op mod deres egne kriterier. For at finde frem til den bedste model kan brugerne anvende modellen og visualisere resultaterne af beregningerne for at vurdere nøjagtigheden, eller de kan åbne og udforske de relaterede datasæt, som Oracle Analytics brugte modellen til at returnere.
Se denne tabel for at få mere at vide om de angivne algoritmer:
Navn | Type | Kategori | Funktion | Beskrivelse |
---|---|---|---|---|
CART |
Klassificering Regression |
Binær klassificering Multiklassificering Numerisk |
- | Bruger beslutningstræer til at forudsige både diskrete og kontinuerte værdier.
Brug sammen med store datasæt. |
Lineær regression af typen Elastisk net | Regression | Numerisk | ElasticNet | Avanceret regressionsmodel. Angiver yderligere oplysninger (regularisering) og udfører variabelvalg og lineære kombinationer. Straffe for regressionsmetoderne Lasso og Ridge.
Brug sammen med et stort antal attributter for at undgå kollinearitet (hvor flere attributter er perfekt korreleret) og overfitting. |
Hierarkisk | Klynger | Klynger | AgglomerativeClustering | Bygger et klyngehierarki ved hjælp af enten nedefra-og-op- (hver observation er i sin egen klynge og flettes derefter) eller oppefra-og-ned-metrikker (alle observationer starter som én klynge) og afstandsmetrikker.
Brug, når datasættet ikke er stort, og antallet af klynger ikke kendes på forhånd. |
K-Means | Klynger | Klynger | k-means | Opdeler records i k-klynger gentagne gange, hvor hver enkelt observation tilhører klyngen med den nærmeste middelværdi.
Brug til klyngeopdeling af metrikkolonner og sammen med en angivet forventning om det nødvendige antal klynger. Fungerer godt sammen med store datasæt. Resultat er forskelligt for hver kørsel. |
Lineær regression | Regression | Numerisk | Ordinary Least Squares
Ridge Lasso |
Lineær tilgang til en modelleringsrelation mellem målvariablen og andre attributter i datasættet.
Bruges til at forudsige numeriske værdier, når attributterne ikke er perfekt korrelerede. |
Logistisk regression | Regression | Binær klassificering | LogisticRegressionCV | Brug til at forudsige værdien af en kategorisk afhængig variabel. Den afhængige variabel er en binær variabel, der indeholder data, som er kodet til 1 eller 0. |
Naive Bayes | Klassificering |
Binær klassificering Multiklassificering |
GaussianNB | Probabilistisk klassificering, der er baseret på Bayes' sætning, som antager, at der ikke er nogen afhængighed mellem hændelser.
Brug, når der er et stort antal inputdimensioner. |
Neural Network | Klassificering |
Binær klassificering Multiklassificering |
MLPClassifier | Iterativ klassificeringsalgoritme, der lærer ved at sammenligne sit klassificeringsresultat med den faktiske værdi og returnerer det til netværket for at modificere algoritmen med henblik på yderligere gentagelser.
Brug til tekstanalyse. |
Random Forest | Klassificering |
Binær klassificering Multiklassificering Numerisk |
- | En ensemble-læringsmetode, der konstruerer flere beslutningstræer og returnerer den værdi, som kollektivt repræsenterer alle beslutningstræerne.
Brug til at forudsige numeriske og kategoriske variabler. |
SVM | Klassificering |
Binær klassificering Multiklassificering |
LinearSVC, SVC | Klassificerer records ved at mappe dem i rum og konstruere hyperplaner, der kan bruges til klassificering. Nye poster (scoringsdata) mappes til rummet, og det forudsiges, at de tilhører en kategori, som er baseret på siden af den hyperplan, hvor de falder. |
Når du bruger data fra Oracle Autonomous Data Warehouse, kan du bruge dets AutoML-funktion til at anbefale og træne en forudsigelsesmodel. AutoML analyserer dine data, beregner den bedste algoritme til brug og registrerer en forudsigelsesmodel i Oracle Analytics, så du kan foretage forudsigelser af dine data.
OML_Developer
og ikke er 'admin'-superbruger. Ellers fejler dataflowet, når du forsøger at gemme eller køre det.Analytikere af avancerede data opretter og træner forudsigelsesmodeller, så de kan bruge dem til at tage Oracle Machine Learning-algoritmer i brug for at udføre mining af datasæt, forudsige en målværdi eller identificere klasser af records. Brug datafloweditoren til at oprette og træne forudsigelsesmodeller og anvende dem på dine data.
Det er en iterativ proces at finde frem til en nøjagtig model, hvor dataanalytikeren bruger "trial and error"-metoden og afprøver forskellige modeller, sammenligner resultater og finindstiller parametre. En dataanalytiker kan bruge den færdige, nøjagtige forudsigelsesmodel til at forudsige tendenser i andre datasæt eller føje modellen til projektmapper.
Bemærk:
Hvis du bruger data, der stammer fra Oracle Autonomous Data Warehouse, kan du bruge AutoML-egenskaben til hurtigt og nemt at træne en prædiktiv model, uden at du behøver at have kendskab til maskinel indlæring. Se Træne en forudsigelsesmodel ved hjælp af AutoML i Autonomous Data Warehouse.Oracle Analytics omfatter algoritmer til numerisk forudsigelse, multiklassificering, binær klassificering og klynger.
Med Oracle Analytics kan du træne modeller til maskinel indlæring ved hjælp af trin i dataflows. Når du har trænet en model til maskinel indlæring, kan du anvende den på dine data ved hjælp af trinnet Anvend model.
Trinnavn | Beskrivelse |
---|---|
AutoML (kræver Oracle Autonomous Data Warehouse) | Brug AutoML-egenskaben i Oracle Autonomous Data Warehouse til at anbefale og træne en prædiktiv model. AutoML-trinnet analyserer dine data, beregner den bedste algoritme til brug og registrerer en forudsigelsesmodel i Oracle Analytics. |
Træn binær klassificering |
Træne en model til maskinel indlæring til at klassificere dine data i en af de to foruddefinerede kategorier. |
Træn klynger | Træne en model til maskinel indlæring til at udskille grupper med lignende egenskaber og tildele dem i klynger. |
Træn multiklassificering | Træne en model til maskinel indlæring til at klassificere data i tre eller flere foruddefinerede kategorier. |
Træn numerisk forudsigelse | Træne en model til maskinel indlæring til at forudsige en numerisk værdi på basis af kendte dataværdier. |
Når du har oprettet forudsigelsesmodellen og kørt dataflowet, kan du gennemse oplysninger om modellen for at vurdere, hvor nøjagtig den er. Brug disse oplysninger til gentagne gange at regulere modelindstillingerne for at forbedre nøjagtigheden og forudsige bedre resultater.
En forudsigelsesmodels detaljerede oplysninger hjælper dig med at forstå modellen og bestemme, om den er egnet til forudsigelse af dine data. Modellens detaljer indeholder dens klasse, algoritme, inputkolonner og outputkolonner
Se oplysninger, der hjælper dig med at forstå kvaliteten af en forudsigelsesmodel. Du kan for eksempel gennemgå nøjagtighedsmetrikker som modelnøjagtighed, præcision, tilbagekaldelse, F1-værdi og antal falske positiver.
Når du kører dataflowet for at oprette træningsmodellen til Oracle Analytics-forudsigelsesmodellen, opretter Oracle Analytics et sæt relaterede datasæt. Du kan åbne og oprette projektmapper på disse datasæt for at få mere at vide om modellens nøjagtighed.
Afhængigt af den algoritme, som du vælger til modellen, findes der relaterede datasæt, som indeholder detaljer om modellen, herunder forudsigelsesregler, nøjagtighedsmetrikker, forvirringsmatrix og nøgleparametre for forudsigelse. Du kan bruge disse oplysninger til at finindstille modellen, så du opnår bedre resultater, og du kan bruge relaterede datasæt til at sammenligne modeller og se, hvilken model der er mest nøjagtig.
Du kan for eksempel åbne datasættet Drivere for at se, hvilke kolonner der har den stærkeste positive eller negative effekt på modellen. Når du kigger nærmere på de pågældende kolonner, kan du se, at nogle kolonner ikke behandles som modelvariabler, fordi de ikke er realistisk input, eller at de er for specifikke til prognosen. Du bruger datafloweditoren til at åbne modellen, og på grundlag af de oplysninger, du fik ved at kigge på kolonnerne, fjerner du de irrelevante kolonner eller de kolonner, der er for specifikke, og genererer modellen igen. Du kan derefter gå til fanen Kvalitet og resultater og kontrollere, om modellens nøjagtighed er forbedret. Du fortsætter denne proces, indtil du er tilfreds med modellens nøjagtighed, og den er klar til at blive anvendt på et nyt datasæt.
Forskellige algoritmer genererer lignende relaterede datasæt. Afhængigt af algoritmetypen kan individuelle parametre og kolonnenavne ændres i datasættet, men datasættets funktionalitet forbliver uændret. Kolonnenavnene i et statistikdatasæt kan for eksempel ændres fra Lineær regression til Logistisk regression, men statistikdatasæt indeholder nøjagtighedsmetrikker for modellen.
Relaterede datasæt for AutoML-modeller
Når du træner en forudsigelsesmodel ved hjælp af AutoML, opretter Oracle Analytics yderligere datasæt, der indeholder nyttige oplysninger om modellen. Antallet af oprettede datasæt afhænger af modelalgoritmen. For Naive Bayes-modeller opretter Oracle Analytics for eksempel et datasæt med oplysninger om betingede sandsynligheder. For en beslutningstræmodel angiver datasættet oplysninger om statistik for beslutningstræ. Hvis du inspicerer en AutoML-genereret model ved hjælp af GLM-algoritmen (Generalized Linear Model), ser du poster med præfikset GLM* for de modelspecifikke datasæt, der indeholder metadataoplysninger om modellen.
.png
Relaterede datasæt
Bemærk:
Oracle Analytics føjer dataflowets outputnavn til datasættypen. Hvis dataflowets output for en CART-model for eksempel har navnet cart_model2, får datasættet navnet cart_model2_CART.CART
Oracle Analytics opretter en tabel til det relaterede CART-datasæt (Classification and Regression Tree), som indeholder kolonner, der repræsenterer betingelserne og betingelsernes kriterier i beslutningstræet, en forudsigelse for hver gruppe og forudsigelsestillid. Brug trædiagramvisualiseringen til at visualisere dette beslutningstræ.
CART-datasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritme |
---|---|
Numerisk | CART til numerisk forudsigelse |
Binær klassificering | CART |
Multiklassificering | CART |
Klassificeringsrapport
Oracle Analytics opretter en tabel til det relaterede Klassificeringsrapport-datasæt. Hvis målkolonnen for eksempel kan have de to distinkte værdier Ja eller Nej, viser dette datasæt nøjagtighedsmetrikker som F1, præcision, genkaldelse og understøttelse (antallet af rækker i træningsdatasættet med denne værdi) for hver distinkte værdi i målkolonnen.
Klassificeringsdatasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritmer |
---|---|
Binær klassificering |
Naive Bayes Neural Network Support Vector Machine |
Multiklassificering |
Naive Bayes Neural Network Support Vector Machine |
Forvirringsmatrix
Oracle Analytics opretter en pivottabel for det relaterede Forvirringsmatrix-datasæt, som også kaldes en fejlmatrix. Hver række repræsenterer en instans af en forudsagt klasse, og hver kolonne repræsenterer en instans i en faktisk klasse. Denne tabel rapporterer antallet af falske positiver, falske negativer, ægte positiver og ægte negativer, som bruges til at beregne nøjagtighedsmetrikker for præcision, tilbagekaldelse og F1.
Forvirringsmatrix-datasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritmer |
---|---|
Binær klassificering |
Logistisk regression CART (beslutningstræ) Naive Bayes Neural Network Random Forest Support Vector Machine |
Multiklassificering |
CART (beslutningstræ) Naive Bayes Neural Network Random Forest Support Vector Machine |
Drivere
Oracle Analytics opretter en tabel til det relaterede Drivere-datasæt, som indeholder oplysninger om de kolonner, der bestemmer målkolonneværdierne. Der bruges lineære regressioner til at identificere disse kolonner. Hver kolonne har fået tildelt koefficient- og korrelationsværdier. Koefficientværdien beskriver kolonnens vægtning, der bruges til at bestemme målkolonnens værdi. Korrelationsværdien angiver relationsretningen mellem målkolonnen og den afhængige kolonne. For eksempel om målkolonnens værdi øges eller mindskes på grundlag af den afhængige kolonne.
Drivere-datasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritmer |
---|---|
Numerisk |
Lineær regression Lineær regression af typen Elastisk net |
Binær klassificering |
Logistisk regression Support Vector Machine |
Multiklassificering | Support Vector Machine |
Hitmap
Oracle Analytics opretter en tabel til det relaterede Hitmap-datasæt, som indeholder oplysninger om beslutningstræets bladnoder. Hver række i tabellen repræsenterer en bladnode og indeholder oplysninger, der beskriver, hvad den pågældende bladnode repræsenterer, for eksempel segmentstørrelse, tillid og forventet antal rækker. For eksempel er forventet antal korrekte forudsigelser = Segmentstørrelse * Tillid.
Hitmap-datasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritme |
---|---|
Numerisk | CART til numerisk forudsigelse |
Restværdier
Oracle Analytics opretter en tabel til det relaterede Restværdier-datasæt, som indeholder oplysninger om kvaliteten af restværdiforudsigelserne. En restværdi er forskellen mellem den målte værdi og den forudsagte værdi i en regressionsmodel. Dette datasæt indeholder en aggregeret sumværdi af den absolutte forskel mellem de faktiske og de forudsagte værdier for alle kolonner i datasættet.
Restværdier-datasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritmer |
---|---|
Numerisk |
Lineær regression Lineær regression af typen Elastisk net CART til numerisk forudsigelse |
Binær klassificering | CART (beslutningstræ) |
Multiklassificering | CART (beslutningstræ) |
Statistik
Oracle Analytics opretter en tabel til det relaterede Statistik-datasæt. Dette datasæts metrikker afhænger af den algoritme, der blev brugt til at genere det. Se denne liste over metrikker, der er baseret på algoritme:
Dette datasæt oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritme |
---|---|
Numerisk |
Lineær regression Lineær regression af typen Elastisk net CART til numerisk forudsigelse |
Binær klassificering |
Logistisk regression CART (beslutningstræ) Naive Bayes Neural Network Random Forest Support Vector Machine |
Multiklassificering |
Naive Bayes Neural Network Random Forest Support Vector Machine |
Oversigt
Oracle Analytics opretter en tabel til det relaterede Oversigt-datasæt, som indeholder oplysninger som målnavn og modelnavn.
Oversigt-datasættet oprettes, når du vælger disse kombinationer af model og algoritme.
Model | Algoritmer |
---|---|
Binær klassificering |
Naive Bayes Neural Network Support Vector Machine |
Multiklassificering |
Naive Bayes Neural Network Support Vector Machine |
Når du træner en forudsigelsesmodel, genereres der relaterede datasæt.
Hvis du opretter et scenarie i en projektmappe, anvender du en forudsigelsesmodel på projektmappens datasæt for at vise de tendenser og mønstre, som modellen var designet til at finde.
Bemærk:
Du kan ikke anvende en Oracle-model til maskinel indlæring på en projektmappes data.