Voor voorspellingsmodellen van Oracle Analytics wordt gebruikgemaakt van verschillende ingebouwde algoritmen voor machine learning van Oracle om uw gegevenssets te doorzoeken, een doelwaarde te voorspellen of recordklassen te identificeren. Gebruik de gegevensstroomeditor om voorspellingsmodellen te maken, te trainen en op uw gegevens toe te passen.
Met een voorspellingsmodel van Oracle Analytics wordt een specifieke algoritme toegepast op een gegevensset om waarden of klassen te voorspellen of om groepen in de gegevens te herkennen.
U kunt ook gebruikmaken van Oracle Machine Learning modellen om gegevens te voorspellen.
Oracle Analytics bevat algoritmen waarmee u voorspellingsmodellen kunt trainen voor diverse doeleinden. Voorbeelden van algoritmen zijn 'Classification And Regression Trees' (CART), logistische regressie en 'k-means'.
U gebruikt de gegevensstroomeditor om eerst een model te trainen voor een trainingsgegevensset. Nadat het voorspellingsmodel is getraind, past u dit toe op de gegevenssets die u wilt voorspellen.
U kunt een getraind model beschikbaar stellen voor andere gebruikers, die dit vervolgens op hun gegevens kunnen toepassen om waarden te voorspellen. In sommige gevallen trainen bepaalde gebruikers modellen en passen andere gebruikers de modellen toe.
Opmerking:
Als u niet zeker weet waarnaar u wilt zoeken in uw gegevens, kunt u beginnen met Explain. Deze applicatie maakt gebruik van machine learning om trends en patronen te herkennen. Vervolgens kunt u met de gegevensstroomeditor voorspellingsmodellen maken en trainen om de trends en patronen te verkennen die met Explain zijn gevonden.Gebruik het definitieve model om de score van onbekende, of ongelabelde, gegevens te bepalen en zo een gegevensset in een gegevensstroom te genereren of een voorspellingsvisualisatie toe te voegen aan een werkmap.
Voorbeeld
Stel dat u een model op basis van meervoudige classificatie wilt maken en trainen om te voorspellen welke patiënten een groot risico op hart- en vaatziekten lopen.
Oracle Analytics biedt algoritmen voor al uw modelleringswensen op basis van machine learning: numerieke voorspelling, meervoudige classificatie, binaire classificatie en clustering.
De machine learning-functionaliteit van Oracle is bedoeld voor gevorderde gegevensanalisten die weten waarnaar ze willen zoeken in hun gegevens, bekend zijn met voorspellende analysen en de verschillen tussen de algoritmen kennen.
Opmerking:
Als u gegevens gebruikt die afkomstig zijn uit Oracle Autonomous Data Warehouse, kunt u de functie AutoML gebruiken om snel en eenvoudig een voorspellingsmodel voor u te trainen. U hebt hiervoor geen vaardigheden voor automatisch leren nodig. Zie voor meer informatie: Een voorspellingsmodel trainen met AutoML in Autonomous Data Warehouse.Gebruikers willen normaal gesproken meerdere voorspellingsmodellen maken, deze met elkaar vergelijken en vervolgens het model kiezen waarvan de resultaten waarschijnlijk het beste overeenkomen met de opgegeven criteria en vereisten. Deze criteria kunnen variëren. Gebruikers kunnen bijvoorbeeld kiezen voor modellen met een betere algehele nauwkeurigheid, voor modellen met de minste fouten van type I (foutpositief) en type II (foutnegatief) of voor modellen waarmee resultaten sneller worden geretourneerd (met een acceptabele nauwkeurigheid ook al zijn de resultaten niet ideaal).
Oracle Analytics bevat meerdere machine learning-algoritmen voor elk soort voorspelling of classificatie. Op basis van deze algoritmen kunt u meer dan één model maken, verschillende afgestemde parameters gebruiken of verschillende trainingsgegevenssets als invoer gebruiken om vervolgens het beste model te kiezen. U kunt het beste model kiezen door modellen te vergelijken en tegen elkaar af te wegen op basis van uw eigen criteria. Door het model toe te passen en de resultaten van de berekeningen te visualiseren om de nauwkeurigheid te bepalen, kunt u het beste model bepalen. U kunt ook de gerelateerde gegevenssets openen en verkennen die in Oracle Analytics zijn gebruikt om de uitvoer te modelleren.
In deze tabel ziet u de beschikbare algoritmen:
Naam | Type | Categorie | Functie | Beschrijving |
---|---|---|---|---|
CART |
Classificatie Regressie |
Binaire classificatie Meervoudige classificatie Numeriek |
- | Maakt gebruik van beslissingsbomen om zowel unieke als continue waarden te voorspellen.
Gebruik deze algoritme voor grote gegevenssets. |
Elastische lineaire nettoregressie | Regressie | Numeriek | ElasticNet | Geavanceerd regressiemodel. Biedt aanvullende informatie (regularisatie), selecteert variabelen en voert lineaire combinaties uit. Penalty's (overeenkomstinperking) van de regressiemethoden 'Lasso' en 'Ridge'.
Gebruik deze algoritme met een groot aantal attributen om collineariteit (waarbij meerdere attributen perfect zijn gecorreleerd) en te veel passende resultaten te vermijden. |
Hiërarchisch | Clustering | Clustering | AgglomerativeClustering | Stelt een clusteringhiërarchie samen met metrieken op basis van bottom-up (alle waarnemingen vormen een afzonderlijke cluster en worden vervolgens samengevoegd) of top-down (alle waarnemingen zijn aanvankelijk één cluster) en afstand.
Gebruik deze algoritme voor gegevenssets die niet groot zijn en als het aantal clusters niet vooraf bekend is. |
K-means | Clustering | Clustering | k-means | Verdeelt records herhaaldelijk in k-clusters, waarbij elke waarneming tot de cluster met het dichtstbijzijnde gemiddelde behoort.
Gebruik deze algoritme om metrische kolommen te clusteren, waarbij een verwachting is ingesteld voor het aantal benodigde clusters. Zeer geschikt voor grote gegevenssets. De resultaten verschillen per uitvoering. |
Lineaire regressie | Regressie | Numeriek | Ordinary Least Squares
Ridge Lasso |
Lineaire benadering voor een modelleringsrelatie tussen een doelvariabele en andere attributen in een gegevensset
Gebruik deze algoritme om numerieke waarden te voorspellen als de attributen niet perfect zijn gecorreleerd. |
Logistische regressie | Regressie | Binaire classificatie | LogisticRegressionCV | Gebruik deze algoritme om de waarde van een categorisch afhankelijke variabele te voorspellen. De afhankelijke variabele is een binaire variabele waarvan de gegevens zijn gecodeerd als 1 of 0. |
Naive Bayes | Classificatie |
Binaire classificatie Meervoudige classificatie |
GaussianNB | Probabilistische classificatie op basis van de stelling van Bayes waarbij wordt aangenomen dat er geen afhankelijkheid is tussen de functies.
Gebruik deze algoritme in geval van een groot aantal invoerdimensies. |
Neuraal netwerk | Classificatie |
Binaire classificatie Meervoudige classificatie |
MLPClassifier | Zelflerende algoritme op basis van iteratieve classificatie, waarbij het classificatieresultaat wordt vergeleken met de werkelijke waarde en het resultaat aan het netwerk wordt geretourneerd om de algoritme te wijzigen voor toekomstige iteraties.
Gebruik deze algoritme voor tekstanalyse. |
Random Forest | Classificatie |
Binaire classificatie Meervoudige classificatie Numeriek |
- | Een collectieve leermethode waarbij meerdere beslissingsbomen worden opgebouwd en de waarde wordt uitgevoerd die alle beslissingsbomen vertegenwoordigt.
Gebruik deze algoritme om numerieke en categorische variabelen te voorspellen. |
SVM | Classificatie |
Binaire classificatie Meervoudige classificatie |
LinearSVC, SVC | Classificeert records door deze ruimtelijk toe te wijzen en hypervlakken samen te stellen die voor classificatie kunnen worden gebruikt. Nieuwe records (beoordelingsgegevens) worden ruimtelijk toegewezen en er wordt voorspeld tot welke categorie de records behoren, op basis van de zijde van het hypervlak waar ze deel van uitmaken. |
Wanneer u gegevens uit Oracle Autonomous Data Warehouse gebruikt, kunt u de bijbehorende AutoML-functie toepassen voor het aanbevelen en trainen van een voorspellingsmodel. Uw gegevens worden door AutoML geanalyseerd. Vervolgens wordt het beste algoritme berekend dat kan worden gebruikt en wordt een voorspellingsmodel in Oracle Analytics geregistreerd zodat u voorspellingen kunt doen op basis van uw gegevens.
OML_Developer
heeft en geen beheerhoofdgebruiker is. Anders mislukt de gegevensstroom wanneer u deze probeert op te slaan of uit te voeren.Geavanceerde gegevensanalyses maken en trainen voorspellingsmodellen, zodat ze deze kunnen gebruiken om Oracle Machine Learning algoritmen te implementeren om gegevenssets te doorzoeken, een doelwaarde te voorspellen of klassen records te identificeren. Gebruik de gegevensstroomeditor om voorspellingsmodellen te maken, te trainen en ze toe te passen op uw gegevens.
Voordat een nauwkeurig model wordt verkregen, moet hetzelfde proces meerdere keren worden herhaald. Een gevorderde gegevensanalist kan verschillende modellen uitproberen, de resultaten vergelijken en de parameters verfijnen op basis van de testpogingen. De gegevensanalist kan het definitieve, nauwkeurige voorspellingsmodel toepassen om trends in andere gegevenssets te voorspellen. Het model kan ook aan werkmappen worden toegevoegd.
Opmerking:
Als u gegevens uit Oracle Autonomous Data Warehouse gebruikt, kunt u met de AutoML-functie snel en eenvoudig een voorspellend model voor u laten trainen. U hebt hiervoor geen vaardigheden op het gebied van automatisch leren te hebben. Zie voor meer informatie: Een voorspellend model trainen met behulp van AutoML in Autonomous Data Warehouse.Oracle Analytics biedt algoritmen voor numerieke voorspelling, meervoudige classificatie, binaire classificatie en clustering.
In Oracle Analytics kunt u machine learning-modellen trainen aan de hand van stappen in gegevensstromen. Wanneer u een machine learning-model hebt getraind, past u deze toe op uw gegevens met de stap Model toepassen.
Stapnaam | Beschrijving |
---|---|
AutoML (Oracle Autonomous Data Warehouse vereist) | Gebruik de functie 'AutoML' van Oracle Autonomous Data Warehouse om voor u een voorspellingsmodel aan te bevelen en te trainen. In de AutoML-stap worden uw gegevens geanalyseerd. Vervolgens wordt het beste algoritme berekend dat kan worden gebruikt en wordt een voorspellingsmodel in Oracle Analytics geregistreerd. |
Binaire classificatie trainen |
Train een model voor automatisch leren om uw gegevens in een van de twee vooraf gedefinieerde categorieën te classificeren. |
Clustering trainen | Train een model voor automatisch leren om groepen met vergelijkbare kenmerken te scheiden en ze aan clusters toe te wijzen. |
Multi-classificatie trainen | Train een model voor automatisch leren om uw gegevens in drie of meer vooraf gedefinieerde categorieën te classificeren. |
Numerieke voorspelling trainen | Train een model voor automatisch leren om een numerieke waarde te voorspellen op basis van bekende gegevenswaarden. |
Wanneer u het voorspellingsmodel hebt gemaakt en de gegevensstroom hebt uitgevoerd, kunt u controleren of de modelinformatie nauwkeurig is. Aan de hand van deze informatie kunt u de modelinstellingen zo vaak u wilt aanpassen om de nauwkeurigheid te vergroten en de voorspelling van resultaten te verbeteren.
De detailgegevens van een voorspellingsmodel bieden u meer inzicht in het model en helpen u te bepalen of het model geschikt is voor het voorspellen van uw gegevens. Modelgegevens omvatten de modelklasse, algoritme en invoer- en uitvoerkolommen.
Bekijk informatie waarmee u een beter inzicht krijg in de kwaliteit van een voorspellingsmodel. U kunt bijvoorbeeld metrics als de nauwkeurigheid, de precisie, het aantal treffers, de F1-waarde en het aantal foutpositieven bekijken.
Als u de gegevensstroom uitvoert om het trainingsmodel van het Oracle Analytics-voorspellingsmodel samen te stellen, maakt Oracle Analytics een set gerelateerde gegevenssets. Op basis van deze gegevenssets kunt u werkmappen openen en maken om de nauwkeurigheid van het model vast te stellen.
Afhankelijk van de door u gekozen algoritme voor het model bevatten de gerelateerde gegevenssets onder meer de volgende details over het model: voorspellingsregels, nauwkeurigheidsmetrieken, verwarringsmatrix en belangrijkste voorspellingscriteria. Aan de hand van deze informatie kunt u het model verfijnen om de resultaten te verbeteren. De gerelateerde gegevenssets kunt u gebruiken om modellen te vergelijken en te bepalen welk model nauwkeuriger is.
U kunt bijvoorbeeld de gegevenssets 'Drivers' openen om te bepalen welke kolommen het model in grote mate positief of negatief beïnvloeden. Door de kolommen te onderzoeken, ontdekt u dat enkele kolommen niet als modelvariabelen worden behandeld omdat ze geen realistische invoer zijn of omdat ze te gedetailleerd zijn voor de prognose. U gebruikt de gegevensstroomeditor om het model te openen. Op basis van de door u ontdekte informatie verwijdert u de irrelevante of te gedetailleerde kolommen en genereert u het model opnieuw. U controleert op het tabblad 'Kwaliteit' en 'Resultaten' of de nauwkeurigheid van het model is verbeterd. Dit proces blijft u herhalen totdat u tevreden bent met de nauwkeurigheid van het model en dit klaar is voor de scorebepaling van een nieuwe gegevensset.
Met verschillende algoritmen worden vergelijkbare, gerelateerde gegevenssets gegenereerd. Afzonderlijke parameters en kolomnamen in de gegevensset kunnen worden gewijzigd afhankelijk van het soort algoritme, maar de functionaliteit van de gegevensset blijft hetzelfde. Bijvoorbeeld: de kolomnamen in een statistische gegevensset kunnen worden gewijzigd van 'Lineaire regressie' in 'Logistische regressie', maar de statistische gegevensset bevat nauwkeurigheidsmetrieken van het model.
Gerelateerde gegevenssets voor AutoML-modellen
Wanneer u een voorspellend model traint met AutoML, maakt Oracle Analytics aanvullende gegevenssets met handige informatie over het model. Het aantal gegevenssets dat wordt gemaakt, is afhankelijk van het modelalgoritme. Voor Naive Bayes-modellen bijvoorbeeld maakt Oracle Analytics een gegevensset die informatie over voorwaardelijke waarschijnlijkheden biedt. Voor een beslissingsboommodel biedt de gegevensset informatie over beslissingboomstatistieken. Wanneer u een door AutoML gegenereerd model inspecteert met behulp van het GLM-algoritme (gegeneraliseerd lineair model), ziet u items voorafgegaan door GLM* voor de modelspecifieke gegevenssets die metagegevens over het model bevatten.
.png
Gerelateerde gegevenssets
Opmerking:
In Oracle Analytics wordt de naam van de uitvoer van de gegevensstroom aan het gerelateerde type gegevensset toegevoegd. Voor bijvoorbeeld een CART-model waarbij de uitvoer van de gegevensstroom cart_model2 wordt genoemd, krijgt de gegevensset de naam cart_model2_CART.CART
In Oracle Analytics wordt een tabel gemaakt voor de aan CART (Classification and Regression Tree) gerelateerde gegevensset. Deze tabel bevat kolommen die de voorwaarden en de criteria voor de voorwaarden in de beslissingsboom, een voorspelling voor elke groep en de betrouwbaarheid van de voorspelling voorstellen. Gebruik de visualisatie van het boomdiagram om deze beslissingsboom te visualiseren.
De CART-gegevensset wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritme |
---|---|
Numeriek | CART voor numerieke voorspelling |
Binaire classificatie | CART |
Meervoudige classificatie | CART |
Classificatierapport
In Oracle Analytics wordt een tabel gemaakt voor de gerelateerde gegevensset 'Classificatierapport'. Bijvoorbeeld: als de doelkolom twee unieke waarden heeft ('Ja' en 'Nee'), worden in deze gegevensset nauwkeurigheidsmetrieken getoond zoals de F1-waarde, de precisie, het aantal treffers en overeenkomsten (het aantal rijen in de trainingsgegevensset met deze waarde) voor elke unieke waarde van de doelkolom.
De gegevensset 'Classificatie' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritmen |
---|---|
Binaire classificatie |
Naive Bayes Neuraal netwerk Support Vector Machine |
Meervoudige classificatie |
Naive Bayes Neuraal netwerk Support Vector Machine |
Verwarringsmatrix
In Oracle Analytics wordt een draaitabel gemaakt voor de gerelateerde gegevensset 'Verwarringsmatrix', ook wel 'foutenmatrix' genoemd. Elke rij is een instance van een voorspelde klasse en elke kolom is een instance in een daadwerkelijke klasse. Deze tabel bevat het aantal foutpositieven, foutnegatieven, terecht positieven en terecht negatieven. Op basis hiervan worden de precisie, het aantal treffers en de F1-waarde voor de precisie berekend.
De gegevensset 'Verwarringsmatrix' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritmen |
---|---|
Binaire classificatie |
Logistische regressie CART (beslissingsboom) Naive Bayes Neuraal netwerk Random Forest Support Vector Machine |
Meervoudige classificatie |
CART (beslissingsboom) Naive Bayes Neuraal netwerk Random Forest Support Vector Machine |
Drivers
In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Drivers' gemaakt, die informatie bevat over de kolommen waarmee de waarden in de doelkolom worden bepaald. De kolommen worden vastgesteld op basis van lineaire regressies. Aan elke kolom worden waarden voor de coëfficiënt en correlatie toegewezen. De coëfficiëntwaarde beschrijft de wegingsfactor van de kolom bij het bepalen van de waarde van de doelkolom. De correlatiewaarde geeft de relatierichting aan tussen de doelkolom en de afhankelijke kolom. Bijvoorbeeld of de waarde van de doelkolom toe- of afneemt op basis van de afhankelijke kolom.
De gegevensset 'Drivers' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritmen |
---|---|
Numeriek |
Lineaire regressie Elastische lineaire nettoregressie |
Binaire classificatie |
Logistische regressie Support Vector Machine |
Meervoudige classificatie | Support Vector Machine |
Trefferkaart
In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Trefferkaart' gemaakt, die informatie bevat over de leafnodes van de beslissingsboom. Elke rij in de tabel is een leafnode en bevat informatie die aangeeft waar de desbetreffende leafnode voor staat, zoals de segmentgrootte, de zekerheidsfactor en het verwachte aantal rijen. Bijvoorbeeld: verwacht aantal juiste voorspellingen = segmentgrootte * zekerheidsfactor.
De gegevensset 'Trefferkaart' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritme |
---|---|
Numeriek | CART voor numerieke voorspelling |
Restwaarden
In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Restwaarden' gemaakt, die informatie bevat over de kwaliteit van de resterende voorspellingen. Een restwaarde is het verschil tussen de gemeten waarde en de voorspelde waarde van een regressiemodel. Deze gegevensset bevat een cumulatieve somwaarde van het absolute verschil tussen de werkelijke en voorspelde waarden voor alle kolommen in de gegevensset.
De gegevensset 'Restwaarden' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritmen |
---|---|
Numerieke strings |
Lineaire regressie Elastische lineaire nettoregressie CART voor numerieke voorspelling |
Binaire classificatie | CART (beslissingsboom) |
Meervoudige classificatie | CART (beslissingsboom) |
Statistieken
In Oracle Analytics wordt een tabel gemaakt voor de gerelateerde gegevensset 'Statistieken'. De metrieken van deze gegevensset zijn afhankelijk van de algoritme waarmee deze is gegenereerd. De lijst met metrieken op basis van de algoritme is als volgt:
Deze gegevensset wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritme |
---|---|
Numeriek |
Lineaire regressie Elastische lineaire nettoregressie CART voor numerieke voorspelling |
Binaire classificatie |
Logistische regressie CART (beslissingsboom) Naive Bayes Neuraal netwerk Random Forest Support Vector Machine |
Meervoudige classificatie |
Naive Bayes Neuraal netwerk Random Forest Support Vector Machine |
Overzicht
In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Overzicht' gemaakt, die informatie bevat zoals doelnaam en modelnaam.
De gegevensset 'Overzicht' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.
Model | Algoritmen |
---|---|
Binaire classificatie |
Naive Bayes Neuraal netwerk Support Vector Machine |
Meervoudige classificatie |
Naive Bayes Neuraal netwerk Support Vector Machine |
Gerelateerde gegevenssets worden gegenereerd wanneer u een voorspellingsmodel traint.
Als u een scenario in een werkmap maakt, past u een voorspellingsmodel toe op de gegevensset van de werkmap om de trends en patronen te tonen die met het model kunnen worden gevonden.
Opmerking:
U kunt geen Oracle machine learning-model toepassen op de gegevens van een werkmap.