Förutsägelsemodellerna i Oracle Analytics använder flera inbäddade Oracle Machine Learning-algoritmer för att utvinna dina datamängder, förutsäga ett målvärde och identifiera postklasser. Använd dataflödesredigeraren för att skapa, träna och tillämpa förutsägelsemodeller på data.
En förutsägelsemodell i Oracle Analytics tillämpar en viss algoritm på en datamängd för att förutsäga värden, förutsäga klasser eller identifiera grupper i data.
Du kan även använda modeller från Oracle Machine Learning för att förutsäga data.
Oracle Analytics innehåller algoritmer som hjälper dig att träna förutsägelsemodeller för olika ändamål. Exempel på algoritmer är klassificerings- och regressionsträd (CART), logistisk regression och k-means.
Du använder dataflödesredigeraren för att först träna en modell med en träningsdatamängd. När förutsägelsemodellen har tränats tillämpar du den på datamängder som du vill förutsäga.
Du kan göra en tränad modell tillgänglig för andra användare, som kan tillämpa den på sina data för att förutsäga värden. Ibland är det vissa användare som tränar modeller och andra användare som tillämpar modellerna.
Obs!:
Om du är osäker på vad du ska leta efter i dina data kan du börja med att använda funktionen Förklara, som använder maskininlärning för att identifiera trender och mönster. Sedan kan du använda dataflödesredigeraren för att skapa och träna förutsägelsemodeller för att borra in i de trender och mönster som funktionen Förklara har hittat.Använd den färdiga modellen till att poängsätta okända eller omärkta data och därigenom generera en datamängd inom ett dataflöde, eller till att lägga till en förutsägelsevisualisering i en arbetsbok.
Exempel
Låt oss säga att du vill skapa och träna en multiklassificeringsmodell för att förutsäga vilka patienter som löper hög risk för att utveckla hjärtsjukdom.
Oracle Analytics tillhandahåller algoritmer för alla dina behov inom modellering med maskininlärning: numerisk prediktion, massklassificering, binär klassificering och klustring.
Oracles maskininlärningsfunktion är avsedd för avancerade dataanalytiker som har en uppfattning om vad de letar efter i sina data, är bekanta med användningen av prediktiv analys och förstår skillnaderna mellan algoritmerna.
Obs!:
Om du använder data som hämtats från Oracle Autonomous Data Warehouse kan du använda funktionen AutoML som snabbt och enkelt tränar en förutsägelsemodell åt dig utan att du behöver någon större kunskap om maskininlärning. Se Träna en förutsägelsemodell med AutoML i Oracle Autonomous Data Warehouse.Normalt vill användare skapa flera förutsägelsemodeller, jämföra dem och välja den som med högst sannolikhet ger resultat som uppfyller deras kriterier och krav. Dessa kriterier kan variera. Till exempel väljer användare ibland modeller som har bättre övergripande noggrannhet, ibland modeller som har de lägsta felen av typ I (falskt positiv) och typ II (falskt negativ) och ibland modeller som returnerar resultat snabbare och med en acceptabel noggrannhetsnivå, även om resultaten inte är ideala.
Oracle Analytics innehåller flera olika maskininlärningsalgoritmer för varje typ av prediktion eller klassificering. Med dessa algoritmer kan användare skapa fler än en modell eller använda olika finjusterade parametrar eller använda olika träningsdatamängder som indata och sedan välja den bästa modellen. Användaren kan välja den bästa modellen genom att jämföra och vikta modeller mot sina egna kriterier. För att fastställa vilken modell som är den bästa kan användare tillämpa modellen och visualisera resultaten av beräkningarna för att fastställa noggrannheten, eller öppna och utforska de relaterade datamängder som Oracle Analytics fick som utdata från modellen.
Se den här tabellen för att få information om tillhandahållna algoritmer:
Namn | Typ | Kategori | Funktion | Beskrivning |
---|---|---|---|---|
CART |
Klassificering Regression |
Binär klassificerare Massklassificerare Numerisk |
– | Använder beslutsträd för att förutsäga både diskreta och kontinuerliga värden.
Används för stora datamängder. |
Elastic Net Linear Regression | Regression | Numerisk | ElasticNet | Avancerad regressionsmodell. Tillhandahåller ytterligare information (regularisering), utför variabelurval och utför linjära kombinationer. Straff för regressionsmetoderna Lasso och Ridge.
Används med ett stort antal attribut för att undvika kolinjäritet (där flera attribut är fullkomligt korrelerade) och överanpassning. |
Hierarchical | Klustring | Klustring | AgglomerativeClustering | Skapar en hierarki med klustring antingen nerifrån (varje observation är sitt eget kluster och slås sedan samman) eller uppifrån (alla observationer startar som ett kluster) och avståndsmätetal.
Används när datamängden inte är stor och antalet kluster inte är känt i förväg. |
K-Means | Klustring | Klustring | k-means | Partitionerar iterativt posterna i k-kluster, där varje observation tillhör klustret med det närmaste medelvärdet.
Används för klustring av mätetalskolumner och med en angiven förväntan på det antal kluster som behövs. Fungerar bra med stora datamängder. Resultaten blir olika vid varje körning. |
Linear Regression | Regression | Numerisk | Ordinary Least Squares
Ridge Lasso |
Linjär metod för att modellera relationen mellan målvariabel och andra attribut i datamängden.
Används för att förutsäga numeriska värden när attributen inte är fullkomligt korrelerade. |
Logistic Regression | Regression | Binär klassificerare | LogisticRegressionCV | Används för att förutsäga värdet för en kategoriskt beroende variabel. Den beroende variabeln är en binär variabel som innehåller data kodade till 1 eller 0. |
Naive Bayes | Klassificering |
Binär klassificerare Massklassificerare |
GaussianNB | Probabilistisk klassificering baserad på Bayes sats, som antar att det inte finns något beroende mellan funktioner.
Används när det finns ett stort antal indatadimensioner. |
Neural Network | Klassificering |
Binär klassificerare Massklassificerare |
MLPClassifier | Iterativ klassificeringsalgoritm som lär sig genom att jämföra sina klassificeringsresultat med det faktiska värdet och returnerar det till nätverket för att ändra algoritmen för fortsatta iterationer.
Används för textanalys. |
Slumpmässig skog | Klassificering |
Binär klassificerare Massklassificerare Numerisk |
– | En ensemble-inlärningsmetod som konstruerar flera beslutsträd och som utdata ger det värde som kollektivt representerar alla beslutsträd.
Används för att förutsäga numeriska och kategoriska variabler. |
SVM | Klassificering |
Binär klassificerare Massklassificerare |
LinearSVC, SVC | Klassificerar poster genom att mappa dem i rymden och konstruera hyperplan som kan användas för klassificering. Nya poster (poängsättningsdata) mappas till rymden och förutsägs tillhöra en kategori, som baseras på den sida om hyperplanet där de hamnar. |
När du använder data från Oracle Autonomous Data Warehouse kan du låta funktionen AutoML ge dig rekommendationer och träna en förutsägelsemodell åt dig. Med AutoML analyseras dina data, beräknas den bästa algoritmen att använda och registreras en förutsägelsemodell i Oracle Analytics så att du kan göra förutsägelser angående dina data.
OML_Developer
och inte är en avancerad användare av typen "admin". Annars kan du inte spara eller köra dataflödet.Avancerade dataanalytiker skapar och tränar förutsägelsemodeller som de kan använda för att distribuera algoritmer för Oracle Machine Learning för utvinning av datamängder, förutsägelse av målvärden eller identifiering av klasser av poster. Använd dataflödesredigeraren för att skapa, träna och tillämpa förutsägelsemodeller på data.
Framtagningen av en exakt modell är en iterativ process och en avancerad dataanalytiker kan testa olika modeller, jämföra deras resultat och finjustera parametrar genom att pröva sig fram. En dataanalytiker kan använda den slutförda, exakta förutsägelsemodellen för att förutsäga trender i andra datamängder, eller lägga till modellen i arbetsböcker.
Obs!:
Om du använder data som hämtats från Oracle Autonomous Data Warehouse kan du använda funktionen AutoML som snabbt och enkelt tränar en förutsägelsemodell åt dig utan att du behöver någon större kunskap om maskininlärning. Se Träna en förutsägelsemodell med AutoML i Oracle Autonomous Data Warehouse.Oracle Analytics tillhandahåller algoritmer för numerisk prediktion, multiklassificering, binär klassificering och klustring.
Med Oracle Analytics kan du träna maskininlärningsmodeller med hjälp av steg i dataflöden. När du tränat en maskininlärningsmodell tillämpar du den på dina data med steget Använd modell.
Stegnamn | Beskrivning |
---|---|
AutoML (Oracle Autonomous Data Warehouse krävs) | Låt funktionen för automatisk maskininlärning (AutoML) i Oracle Autonomous Data Warehouse ge dig rekommendationer och träna en förutsägelsemodell åt dig. I steget AutoML analyseras dina data, beräknas den bästa algoritmen att använda och registreras en förutsägelsemodell i Oracle Analytics. |
Träna binär klassificerare |
Träna en maskininlärningsmodell för att klassificera data i en av två fördefinierade kategorier. |
Träna klustring | Träna en maskininlärningsmodell för att avgränsa grupper med liknande egenskaper och tilldela dem till kluster. |
Träna massklassificerare | Träna en maskininlärningsmodell för att klassificera data i tre eller flera fördefinierade kategorier. |
Träna numerisk prediktion | Träna en maskininlärningsmodell för att förutsäga ett numeriskt värde baserat på kända datavärden. |
När du har skapat förutsägelsemodellen och kört dataflödet kan du granska information om modellen för att fastställa dess noggrannhet. Använd den här informationen för att iterativt justera modellinställningarna i syfte att förbättra noggrannheten och förutsäga bättre resultat.
Detaljinformationen för en förutsägelsemodell hjälper dig förstå modellen och avgöra om den är lämplig för förutsägelser av dina data. Modellinformationen innefattar modellklass, algoritm, indatakolumner och utdatakolumner
Visa information som hjälper dig att förstå kvaliteten på en förutsägelsemodell. Du kan till exempel granska noggrannhetsmätetal såsom modellens noggrannhet, precision, täckning, F1-värde och falskt positiva andel.
När du kör dataflödet för att skapa träningsmodellen för förutsägelsemodellen i Oracle Analytics skapar Oracle Analytics en uppsättning relaterade datamängder. Du kan öppna och skapa arbetsböcker för dessa datamängder för att få information om modellens noggrannhet.
Beroende på algoritmen du väljer för modellen, innehåller relaterade datamängder detaljer om modellen, t.ex. prediktionsregler, noggrannhetsmätetal, felmatris och nyckelfaktorer för prediktion. Du kan använda den här informationen för att finjustera modellen i syfte att få bättre resultat, och du kan använda relaterade datamängder för att jämföra modeller och besluta vilken modell som har bäst noggrannhet.
Du kan till exempel öppna en datamängd med Faktorer för att upptäcka vilka kolumner som har en stark positiv eller negativ påverkan på modellen. Genom att granska de här kolumnerna upptäcker du att vissa kolumner inte behandlas som modellvariabler, eftersom de inte är realistiska indata eller de har för hög detaljgrad för prognosen. Du använder dataflödesredigeraren för att öppna modellen. Baserat på den information du har upptäckt tar du bort kolumner som är irrelevanta eller har för hög detaljgrad. Därefter genererar du om modellen. Du kontrollerar flikarna Kvalitet och Resultat och kontrollerar om modellens noggrannhet har förbättrats. Du fortsätter med den här processen tills du är nöjd med modellens noggrannhet och den är klar att poängsätta en ny datamängd.
Olika algoritmer genererar liknande relaterade datamängder. Individuella parametrar och kolumnnamn kan ändras i datamängden, beroende på typen av algoritm, men datamängdens funktion förblir densamma. Exempelvis kan kolumnnamnen i en statistikdatamängd ändras från Linear Regression till Logistic Regression, men statistikdatamängden innehåller noggrannhetsmätetal för modellen.
Relaterade datamängder för AutoML-modeller
När du tränar en förutsägelsemodell med AutoML skapar Oracle Analytics fler datamängder med användbar information om modellen. Hur många datamängder som skapas beror på modellalgoritmen. för Naive Bayes-modeller skapar exempelvis Oracle Analytics en datamängd med information om villkorsstyrda sannolikheter. För modeller med beslutsträd innehåller datamängden statistikinformation för beslutsträdet. När du inspekterar en AutoML-genererad modell med algoritmen för generaliserad linjär modell (GLM) ser du poster med GLM* som prefix för de modellspecifika datamängder som innehåller metadata om modellen.
.png
Relaterade datamängder
Obs!:
Oracle Analytics bifogar dataflödets utdatanamn till den relaterade datamängdstypen. Om namnet på dataflödets utdata för till exempel en CART-modell är cart_model2, är namnet på datamängden cart_model2_CART.CART
Oracle Analytics skapar en tabell för den CART-relaterade (klassificerings- och regressionsträd) datamängden som innehåller kolumner som representerar villkoren och villkorskriterierna i beslutsträdet, en prediktion för varje grupp, och prediktionskonfidens. Använd visualiseringen med träddiagram för att visualisera beslutsträdet.
Datamängden CART skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritm |
---|---|
Numerisk | CART for Numeric Prediction |
Binär klassificering | CART |
Multiklassificering | CART |
Classification Report
Oracle Analytics skapar en tabell för den Classification Report-relaterade datamängden. Exempel: Om målkolumnen kan ha två unika värden, Ja eller Nej, visar datamängden noggrannhetsmätetal, såsom F1, precision, täckning och stöd (antalet rader i träningsdatamängden med värdet), för varje unikt värde i målkolumnen.
Datamängden Classification skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritmer |
---|---|
Binär klassificering |
Naive Bayes Neural Network Stödvektormaskin |
Multiklassificering |
Naive Bayes Neural Network Stödvektormaskin |
Confusion Matrix
Oracle Analytics skapar en pivottabell för den Confusion Matrix-relaterade datamängden, som även kallas för felmatris. Varje rad representerar en instans av en förutsagd klass, och varje kolumn representerar en instans i en faktisk klass. I tabellen rapporteras antalet falskt positiva, falskt negativa, sant positiva och sant negativa, som används för att beräkna mätetal gällande precision, täckning och F1-noggrannhet.
Datamängden Confusion Matrix skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritmer |
---|---|
Binär klassificering |
Logistic Regression CART (Decision Tree) Naive Bayes Neural Network Slumpmässig skog Stödvektormaskin |
Multiklassificering |
CART (Decision Tree) Naive Bayes Neural Network Slumpmässig skog Stödvektormaskin |
Drivers
Oracle Analytics skapar en tabell för den Drivers-relaterade datamängden som innehåller information om de kolumner som fastställer målkolumnens värden. Linjära regressioner används för att identifiera dessa kolumner. Varje kolumn tilldelas koefficient- och korrelationsvärden. Koefficientvärdet beskriver kolumnens vikt-ålder som används för att fastställa målkolumnens värde. Korrelationsvärdet anger relationsriktningen mellan målkolumnen och den beroende kolumnen. Det kan till exempel vara om målkolumnens värde ökar eller minskar baserat på den beroende kolumnen.
Datamängden Drivers skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritmer |
---|---|
Numerisk |
Linear Regression Elastic Net Linear Regression |
Binär klassificering |
Logistic Regression Stödvektormaskin |
Multiklassificering | Stödvektormaskin |
Hitmap
Oracle Analytics skapar en tabell för den Hitmap-relaterade datamängden som innehåller information om beslutsträdets lövnoder. Varje rad i tabellen representerar en lövnod och innehåller information som beskriver vad den lövnoden representerar, t.ex. segmentstorlek, konfidens och förväntat antal rader. Exempelvis är det förväntade antalet korrekta prediktioner = segmentstorlek * konfidens.
Datamängden Hitmap skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritm |
---|---|
Numerisk | CART for Numeric Prediction |
Residuals
Oracle Analytics skapar en tabell för den Residuals-relaterade datamängden som innehåller information om restvärdesprediktionernas kvalitet. Ett restvärde är skillnaden mellan det uppmätta värdet och det förutsagda värdet för en regressionsmodell. Den här datamängden innehåller ett aggregerat summavärde av den absoluta differensen mellan de faktiska och förutsagda värdena för alla kolumner i datamängden.
Datamängden Residuals skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritmer |
---|---|
Numerisk |
Linear Regression Elastic Net Linear Regression CART for Numeric Prediction |
Binär klassificering | CART (Decision Tree) |
Multiklassificering | CART (Decision Tree) |
Statistics
Oracle Analytics skapar en tabell för den Statistics-relaterade datamängden. Den här datamängdens mätetal beror på vilken algoritm som används för att generera den. Observera den här listan över mätetal baserade på algoritm:
Den här datamängden skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritm |
---|---|
Numerisk |
Linear Regression Elastic Net Linear Regression CART for Numeric Prediction |
Binär klassificering |
Logistic Regression CART (Decision Tree) Naive Bayes Neural Network Slumpmässig skog Stödvektormaskin |
Multiklassificering |
Naive Bayes Neural Network Slumpmässig skog Stödvektormaskin |
Summary
Oracle Analytics skapar en tabell för den Summary-relaterade datamängden som innehåller information såsom målnamn och modellnamn.
Datamängden Summary skapas när du väljer dessa kombinationer av modeller och algoritmer.
Modell | Algoritmer |
---|---|
Binär klassificering |
Naive Bayes Neural Network Stödvektormaskin |
Multiklassificering |
Naive Bayes Neural Network Stödvektormaskin |
Relaterade datamängder genereras när du tränar en förutsägelsemodell.
När du skapar ett scenario i en arbetsbok tillämpar du en förutsägelsemodell på arbetsbokens datamängd för att visa de trender och mönster som modellen utformats för att hitta.
Obs!:
Du kan inte tillämpa en modell från Oracle Machine Learning på en arbetsboks data.