Voorspellingsmodellen van Oracle Analytics maken en gebruiken

Voor voorspellingsmodellen van Oracle Analytics wordt gebruikgemaakt van verschillende ingebouwde algoritmen voor machine learning van Oracle om uw gegevenssets te doorzoeken, een doelwaarde te voorspellen of recordklassen te identificeren. Gebruik de gegevensstroomeditor om voorspellingsmodellen te maken, te trainen en op uw gegevens toe te passen.

Wat zijn voorspellingsmodellen van Oracle Analytics?

Met een voorspellingsmodel van Oracle Analytics wordt een specifieke algoritme toegepast op een gegevensset om waarden of klassen te voorspellen of om groepen in de gegevens te herkennen.

U kunt ook gebruikmaken van Oracle Machine Learning modellen om gegevens te voorspellen.

Oracle Analytics bevat algoritmen waarmee u voorspellingsmodellen kunt trainen voor diverse doeleinden. Voorbeelden van algoritmen zijn 'Classification And Regression Trees' (CART), logistische regressie en 'k-means'.

U gebruikt de gegevensstroomeditor om eerst een model te trainen voor een trainingsgegevensset. Nadat het voorspellingsmodel is getraind, past u dit toe op de gegevenssets die u wilt voorspellen.

U kunt een getraind model beschikbaar stellen voor andere gebruikers, die dit vervolgens op hun gegevens kunnen toepassen om waarden te voorspellen. In sommige gevallen trainen bepaalde gebruikers modellen en passen andere gebruikers de modellen toe.

Opmerking:

Als u niet zeker weet waarnaar u wilt zoeken in uw gegevens, kunt u beginnen met Explain. Deze applicatie maakt gebruik van machine learning om trends en patronen te herkennen. Vervolgens kunt u met de gegevensstroomeditor voorspellingsmodellen maken en trainen om de trends en patronen te verkennen die met Explain zijn gevonden.
U gebruikt de gegevensstroomeditor om een model te trainen:
  • Allereerst maakt u een gegevensstroom en voegt u de gegevensset toe waarmee u het model wilt trainen. Deze trainingsgegevensset bevat de gegevens die u wilt voorspellen (bijvoorbeeld een waarde zoals een verkoopcijfer of leeftijd, of een variabele zoals een kredietrisicocategorie).
  • Indien nodig kunt u de gegevensset bewerken met de gegevensstroomeditor door kolommen toe te voegen, te selecteren, te koppelen enzovoort.
  • Wanneer u zeker weet dat de gegevens klaar zijn om het model mee te trainen, voegt u een trainingsstap toe aan de gegevensstroom en kiest u een classificatie- (binair of meervoudig), regressie- of clusteralgoritme om een model te trainen. Vervolgens geeft u het resulterende model een naam, slaat u de gegevensstroom op en voert u deze uit om het model te trainen en te maken.
  • Bekijk de eigenschappen in de machine learning-objecten om de kwaliteit van het model te bepalen. U kunt het trainingsproces indien nodig herhalen totdat het model van de gewenste kwaliteit is.

Gebruik het definitieve model om de score van onbekende, of ongelabelde, gegevens te bepalen en zo een gegevensset in een gegevensstroom te genereren of een voorspellingsvisualisatie toe te voegen aan een werkmap.

Voorbeeld

Stel dat u een model op basis van meervoudige classificatie wilt maken en trainen om te voorspellen welke patiënten een groot risico op hart- en vaatziekten lopen.

  1. Geef een trainingsgegevensset op met daarin de attributen van afzonderlijke patiënten, zoals de leeftijd, het geslacht en of de patiënt eerder pijn op de borst heeft gehad, en met metingen van bijvoorbeeld bloeddruk, glucose, cholesterol en maximale hartslag. De trainingsgegevensset bevat ook de kolom 'Waarschijnlijkheid'. Aan deze kolom worden een van de volgende waarden toegewezen: 'afwezig', 'minder waarschijnlijk', 'waarschijnlijk', 'zeer waarschijnlijk' of 'aanwezig'.
  2. Kies de algoritme 'CART' (Beslissingsboom)', omdat hiermee overbodige kolommen voor de voorspelling worden genegeerd en alleen kolommen worden gebruikt waarmee het doel kan worden voorspeld. Als u de algoritme aan de gegevensstroom toevoegt, kiest u de kolom 'Waarschijnlijkheid' om het model te trainen. De algoritme maakt gebruik van machine learning om de driverkolommen te kiezen waarmee voorspellingen en gerelateerde gegevenssets kunnen worden uitgevoerd en gegenereerd.
  3. Inspecteer de resultaten en verfijn het trainingsmodel. Pas het model vervolgens toe op een grotere gegevensset om te voorspellen welke patiënten een groot risico op hart- en vaatziekten lopen.

Hoe kies ik een algoritme voor een voorspellingsmodel?

Oracle Analytics biedt algoritmen voor al uw modelleringswensen op basis van machine learning: numerieke voorspelling, meervoudige classificatie, binaire classificatie en clustering.

De machine learning-functionaliteit van Oracle is bedoeld voor gevorderde gegevensanalisten die weten waarnaar ze willen zoeken in hun gegevens, bekend zijn met voorspellende analysen en de verschillen tussen de algoritmen kennen.

Opmerking:

Als u gegevens gebruikt die afkomstig zijn uit Oracle Autonomous Data Warehouse, kunt u de functie AutoML gebruiken om snel en eenvoudig een voorspellingsmodel voor u te trainen. U hebt hiervoor geen vaardigheden voor automatisch leren nodig. Zie voor meer informatie: Een voorspellingsmodel trainen met AutoML in Autonomous Data Warehouse.

Gebruikers willen normaal gesproken meerdere voorspellingsmodellen maken, deze met elkaar vergelijken en vervolgens het model kiezen waarvan de resultaten waarschijnlijk het beste overeenkomen met de opgegeven criteria en vereisten. Deze criteria kunnen variëren. Gebruikers kunnen bijvoorbeeld kiezen voor modellen met een betere algehele nauwkeurigheid, voor modellen met de minste fouten van type I (foutpositief) en type II (foutnegatief) of voor modellen waarmee resultaten sneller worden geretourneerd (met een acceptabele nauwkeurigheid ook al zijn de resultaten niet ideaal).

Oracle Analytics bevat meerdere machine learning-algoritmen voor elk soort voorspelling of classificatie. Op basis van deze algoritmen kunt u meer dan één model maken, verschillende afgestemde parameters gebruiken of verschillende trainingsgegevenssets als invoer gebruiken om vervolgens het beste model te kiezen. U kunt het beste model kiezen door modellen te vergelijken en tegen elkaar af te wegen op basis van uw eigen criteria. Door het model toe te passen en de resultaten van de berekeningen te visualiseren om de nauwkeurigheid te bepalen, kunt u het beste model bepalen. U kunt ook de gerelateerde gegevenssets openen en verkennen die in Oracle Analytics zijn gebruikt om de uitvoer te modelleren.

In deze tabel ziet u de beschikbare algoritmen:

Naam Type Categorie Functie Beschrijving
CART

Classificatie

Regressie

Binaire classificatie

Meervoudige classificatie

Numeriek

- Maakt gebruik van beslissingsbomen om zowel unieke als continue waarden te voorspellen.

Gebruik deze algoritme voor grote gegevenssets.

Elastische lineaire nettoregressie Regressie Numeriek ElasticNet Geavanceerd regressiemodel. Biedt aanvullende informatie (regularisatie), selecteert variabelen en voert lineaire combinaties uit. Penalty's (overeenkomstinperking) van de regressiemethoden 'Lasso' en 'Ridge'.

Gebruik deze algoritme met een groot aantal attributen om collineariteit (waarbij meerdere attributen perfect zijn gecorreleerd) en te veel passende resultaten te vermijden.

Hiërarchisch Clustering Clustering AgglomerativeClustering Stelt een clusteringhiërarchie samen met metrieken op basis van bottom-up (alle waarnemingen vormen een afzonderlijke cluster en worden vervolgens samengevoegd) of top-down (alle waarnemingen zijn aanvankelijk één cluster) en afstand.

Gebruik deze algoritme voor gegevenssets die niet groot zijn en als het aantal clusters niet vooraf bekend is.

K-means Clustering Clustering k-means Verdeelt records herhaaldelijk in k-clusters, waarbij elke waarneming tot de cluster met het dichtstbijzijnde gemiddelde behoort.

Gebruik deze algoritme om metrische kolommen te clusteren, waarbij een verwachting is ingesteld voor het aantal benodigde clusters. Zeer geschikt voor grote gegevenssets. De resultaten verschillen per uitvoering.

Lineaire regressie Regressie Numeriek Ordinary Least Squares

Ridge

Lasso

Lineaire benadering voor een modelleringsrelatie tussen een doelvariabele en andere attributen in een gegevensset

Gebruik deze algoritme om numerieke waarden te voorspellen als de attributen niet perfect zijn gecorreleerd.

Logistische regressie Regressie Binaire classificatie LogisticRegressionCV Gebruik deze algoritme om de waarde van een categorisch afhankelijke variabele te voorspellen. De afhankelijke variabele is een binaire variabele waarvan de gegevens zijn gecodeerd als 1 of 0.
Naive Bayes Classificatie

Binaire classificatie

Meervoudige classificatie

GaussianNB Probabilistische classificatie op basis van de stelling van Bayes waarbij wordt aangenomen dat er geen afhankelijkheid is tussen de functies.

Gebruik deze algoritme in geval van een groot aantal invoerdimensies.

Neuraal netwerk Classificatie

Binaire classificatie

Meervoudige classificatie

MLPClassifier Zelflerende algoritme op basis van iteratieve classificatie, waarbij het classificatieresultaat wordt vergeleken met de werkelijke waarde en het resultaat aan het netwerk wordt geretourneerd om de algoritme te wijzigen voor toekomstige iteraties.

Gebruik deze algoritme voor tekstanalyse.

Random Forest Classificatie

Binaire classificatie

Meervoudige classificatie

Numeriek

- Een collectieve leermethode waarbij meerdere beslissingsbomen worden opgebouwd en de waarde wordt uitgevoerd die alle beslissingsbomen vertegenwoordigt.

Gebruik deze algoritme om numerieke en categorische variabelen te voorspellen.

SVM Classificatie

Binaire classificatie

Meervoudige classificatie

LinearSVC, SVC Classificeert records door deze ruimtelijk toe te wijzen en hypervlakken samen te stellen die voor classificatie kunnen worden gebruikt. Nieuwe records (beoordelingsgegevens) worden ruimtelijk toegewezen en er wordt voorspeld tot welke categorie de records behoren, op basis van de zijde van het hypervlak waar ze deel van uitmaken.

U kunt een voorspellingsmodel trainen met AutoML in Oracle Autonomous Data Warehouse.

Wanneer u gegevens uit Oracle Autonomous Data Warehouse gebruikt, kunt u de bijbehorende AutoML-functie toepassen voor het aanbevelen en trainen van een voorspellingsmodel. Uw gegevens worden door AutoML geanalyseerd. Vervolgens wordt het beste algoritme berekend dat kan worden gebruikt en wordt een voorspellingsmodel in Oracle Analytics geregistreerd zodat u voorspellingen kunt doen op basis van uw gegevens.

Als u AutoML gebruikt, doet Oracle Autonomous Data Warehouse al het moeilijke werk voor u, zodat u een voorspellingsmodel kunt implementeren zonder dat u vaardigheden op het gebied van automatisch leren of kunstmatige intelligentie hebt. Het gegenereerde voorspellingsmodel wordt opgeslagen in het gebied 'Modellen' van de pagina 'Automatisch leren'. Als u gegevens op basis van het nieuwe model wilt voorspellen, maakt u een gegevensstroom en gebruikt u de stap Model toepassen.
Voordat u begint:
  • Maak een gegevensset op basis van de gegevens in Oracle Autonomous Data Warehouse waarover u voorspellingen wilt doen. U hebt bijvoorbeeld gegevens over het verloop van werknemers, waaronder een veld met de naam VERLOOP dat "Ja" of "Nee" aangeeft voor het verloop.
  • Zorg ervoor dat de databasegebruiker die is opgegeven in de Oracle Analytics verbinding met Oracle Autonomous Data Warehouse, de rol OML_Developer heeft en geen beheerhoofdgebruiker is. Anders mislukt de gegevensstroom wanneer u deze probeert op te slaan of uit te voeren.
  1. Klik op de beginpagina op Maken en vervolgens op Gegevensstroom.
  2. Selecteer in Gegevensset toevoegen de gegevensset op basis van Oracle Autonomous Data Warehouse die de te analyseren gegevens bevat.
  3. Klik achtereenvolgens op Stap toevoegen en AutoML.
  4. Klik voor het doel op Een kolom selecteren en selecteer de gegevenskolom met de waarde die u probeert te voorspellen.
    Als u bijvoorbeeld het personeelsverloop wilt voorspellen, kunt u een veld met de naam VERLOOP selecteren dat 'WAAR' of 'NIET WAAR' aangeeft voor de vraag of werknemers een organisatie hebben verlaten of niet.

  5. Accepteer het voorgestelde taaktype en de metric voor modelrangschikking die in Oracle Analytics wordt aanbevolen, of selecteer een ander algoritme.
  6. Klik op Model opslaan en geef de naam op van het gegenereerde voorspellingsmodel.
  7. Klik op Opslaan en geef een naam op voor de gegevensstroom.
  8. Klik op Uitvoeren om de gegevens te analyseren en een voorspellend model te genereren.
  9. Klik op de beginpagina op Navigeren, klik vervolgens op Automatisch leren, klik vervolgens met de rechtermuisknop op het gegenereerde model en selecteer Inspecteren.
U kunt het model dat Oracle Analytics maakt vinden op de pagina Machine Learning op het tabblad Modellen. Inspecteer het model om de kwaliteit ervan te beoordelen. Zie voor meer informatie: De kwaliteit van een voorspellingsmodel beoordelen. U kunt ook verwijzen naar gerelateerde gegevenssets die zijn gegenereerd voor modellen van AutoML. Zie voor meer informatie: Wat zijn de gerelateerde gegevenssets van een voorspellingsmodel?.

Een voorspellingsmodel maken en trainen

Geavanceerde gegevensanalyses maken en trainen voorspellingsmodellen, zodat ze deze kunnen gebruiken om Oracle Machine Learning algoritmen te implementeren om gegevenssets te doorzoeken, een doelwaarde te voorspellen of klassen records te identificeren. Gebruik de gegevensstroomeditor om voorspellingsmodellen te maken, te trainen en ze toe te passen op uw gegevens.

Pictogram voor zelfstudie LiveLabs Sprint

Voordat een nauwkeurig model wordt verkregen, moet hetzelfde proces meerdere keren worden herhaald. Een gevorderde gegevensanalist kan verschillende modellen uitproberen, de resultaten vergelijken en de parameters verfijnen op basis van de testpogingen. De gegevensanalist kan het definitieve, nauwkeurige voorspellingsmodel toepassen om trends in andere gegevenssets te voorspellen. Het model kan ook aan werkmappen worden toegevoegd.

Opmerking:

Als u gegevens uit Oracle Autonomous Data Warehouse gebruikt, kunt u met de AutoML-functie snel en eenvoudig een voorspellend model voor u laten trainen. U hebt hiervoor geen vaardigheden op het gebied van automatisch leren te hebben. Zie voor meer informatie: Een voorspellend model trainen met behulp van AutoML in Autonomous Data Warehouse.

Oracle Analytics biedt algoritmen voor numerieke voorspelling, meervoudige classificatie, binaire classificatie en clustering.

  1. Klik op de beginpagina op Maken en selecteer vervolgens Gegevensstroom.
  2. Selecteer de gegevensset die u wilt gebruiken om het model te trainen. Klik op Toevoegen.
  3. Klik in de gegevensstroomeditor op Stap toevoegen (+).
    Wanneer u een gegevensset hebt toegevoegd, kunt u alle kolommen in de gegevensset gebruiken om het model samen te stellen, maar u kunt ook alleen de relevante kolommen selecteren. Voor het kiezen van de relevante kolommen moet u kennis hebben van de gegevensset. Negeer de kolommen waarvan u weet dat deze de resultaten niet zullen beïnvloeden of die overbodige informatie bevatten. U kunt de relevante kolommen kiezen door de stap Kolommen selecteren toe te voegen. Gebruik alle kolommen als u niet zeker bent van de relevante kolommen.
  4. Selecteer een trainingsmodelstap (zoals Numerieke voorspelling trainen of Clustering trainen).
  5. Selecteer een algoritme en klik op OK.
  6. Als u met een beheerd model werkt, zoals een verwachtings- of voorspellingsmodel, klikt u op Doel en selecteert u de kolom die u wilt voorspellen. Bijvoorbeeld: als u een model maakt om iemands inkomen te voorspellen, selecteert u de kolom 'Inkomen'.
    Als u met een niet-beheerd model werkt, zoals clustering, is een doelkolom niet vereist.
  7. Wijzig de standaardinstellingen voor het model om de nauwkeurigheid van de voorspelde uitvoer te verfijnen en te verbeteren. Deze instellingen worden bepaald door het gebruikte model.
  8. Klik op de stap Model opslaan en geef een naam en beschrijving op.
  9. Klik op Opslaan, voer een naam en een beschrijving voor de gegevensstroom in en klik op OK om de gegevensstroom op te slaan.
  10. Klik op Gegevensstroom uitvoeren om het voorspellingsmodel te maken op basis van de door u opgegeven invoergegevensset en modelinstellingen.

Stappen in gegevensstroom voor het trainen van machine learning-modellen

In Oracle Analytics kunt u machine learning-modellen trainen aan de hand van stappen in gegevensstromen. Wanneer u een machine learning-model hebt getraind, past u deze toe op uw gegevens met de stap Model toepassen.

Stapnaam Beschrijving
AutoML (Oracle Autonomous Data Warehouse vereist) Gebruik de functie 'AutoML' van Oracle Autonomous Data Warehouse om voor u een voorspellingsmodel aan te bevelen en te trainen. In de AutoML-stap worden uw gegevens geanalyseerd. Vervolgens wordt het beste algoritme berekend dat kan worden gebruikt en wordt een voorspellingsmodel in Oracle Analytics geregistreerd.
Binaire classificatie trainen

Train een model voor automatisch leren om uw gegevens in een van de twee vooraf gedefinieerde categorieën te classificeren.

Clustering trainen Train een model voor automatisch leren om groepen met vergelijkbare kenmerken te scheiden en ze aan clusters toe te wijzen.
Multi-classificatie trainen Train een model voor automatisch leren om uw gegevens in drie of meer vooraf gedefinieerde categorieën te classificeren.
Numerieke voorspelling trainen Train een model voor automatisch leren om een numerieke waarde te voorspellen op basis van bekende gegevenswaarden.

Een voorspellingsmodel inspecteren

Wanneer u het voorspellingsmodel hebt gemaakt en de gegevensstroom hebt uitgevoerd, kunt u controleren of de modelinformatie nauwkeurig is. Aan de hand van deze informatie kunt u de modelinstellingen zo vaak u wilt aanpassen om de nauwkeurigheid te vergroten en de voorspelling van resultaten te verbeteren.

Details van een voorspellingsmodel bekijken

De detailgegevens van een voorspellingsmodel bieden u meer inzicht in het model en helpen u te bepalen of het model geschikt is voor het voorspellen van uw gegevens. Modelgegevens omvatten de modelklasse, algoritme en invoer- en uitvoerkolommen.

  1. Klik op de beginpagina op Navigator Pictogram Navigator dat gebruikt wordt om de Navigator weer te geven en klik vervolgens op Machine learning.
  2. Klik op het menupictogram voor een trainingsmodel en selecteer Inspecteren.
  3. Klik op Details om de gegevens van het model te bekijken.

De kwaliteit van een voorspellingsmodel beoordelen

Bekijk informatie waarmee u een beter inzicht krijg in de kwaliteit van een voorspellingsmodel. U kunt bijvoorbeeld metrics als de nauwkeurigheid, de precisie, het aantal treffers, de F1-waarde en het aantal foutpositieven bekijken.

Oracle Analytics biedt vergelijkbare metrieken ongeacht de algoritme waarmee het model, is gemaakt. Daardoor is het vergelijken van verschillende modellen eenvoudig. Terwijl het model wordt gemaakt, worden de invoergegevens in twee delen gesplitst om het model te trainen en te testen op basis van de parameter 'Percentage trainingsverdeling'. Het testgedeelte van de gegevensset wordt gebruikt om de nauwkeurigheid van het gemaakte model te testen.
Op basis van uw bevindingen op het tabblad Kwaliteit moet u mogelijk de modelparameters aanpassen en het model opnieuw trainen.
  1. Klik op de beginpagina op Navigator Pictogram Navigator dat gebruikt wordt om de Navigator weer te geven en klik vervolgens op Machine learning.
  2. Klik op het menupictogram voor een trainingsmodel en selecteer Inspecteren.
  3. Klik op het tabblad Kwaliteit om de kwaliteitsmetrics van het model te evalueren en het model te beoordelen. Evalueer bijvoorbeeld de score voor Modelnauwkeurigheid.

Tip: klik op Meer om details te evalueren van de weergaven die voor het model zijn gegenereerd.

Wat zijn de gerelateerde gegevenssets van een voorspellingsmodel?

Als u de gegevensstroom uitvoert om het trainingsmodel van het Oracle Analytics-voorspellingsmodel samen te stellen, maakt Oracle Analytics een set gerelateerde gegevenssets. Op basis van deze gegevenssets kunt u werkmappen openen en maken om de nauwkeurigheid van het model vast te stellen.

Afhankelijk van de door u gekozen algoritme voor het model bevatten de gerelateerde gegevenssets onder meer de volgende details over het model: voorspellingsregels, nauwkeurigheidsmetrieken, verwarringsmatrix en belangrijkste voorspellingscriteria. Aan de hand van deze informatie kunt u het model verfijnen om de resultaten te verbeteren. De gerelateerde gegevenssets kunt u gebruiken om modellen te vergelijken en te bepalen welk model nauwkeuriger is.

U kunt bijvoorbeeld de gegevenssets 'Drivers' openen om te bepalen welke kolommen het model in grote mate positief of negatief beïnvloeden. Door de kolommen te onderzoeken, ontdekt u dat enkele kolommen niet als modelvariabelen worden behandeld omdat ze geen realistische invoer zijn of omdat ze te gedetailleerd zijn voor de prognose. U gebruikt de gegevensstroomeditor om het model te openen. Op basis van de door u ontdekte informatie verwijdert u de irrelevante of te gedetailleerde kolommen en genereert u het model opnieuw. U controleert op het tabblad 'Kwaliteit' en 'Resultaten' of de nauwkeurigheid van het model is verbeterd. Dit proces blijft u herhalen totdat u tevreden bent met de nauwkeurigheid van het model en dit klaar is voor de scorebepaling van een nieuwe gegevensset.

Met verschillende algoritmen worden vergelijkbare, gerelateerde gegevenssets gegenereerd. Afzonderlijke parameters en kolomnamen in de gegevensset kunnen worden gewijzigd afhankelijk van het soort algoritme, maar de functionaliteit van de gegevensset blijft hetzelfde. Bijvoorbeeld: de kolomnamen in een statistische gegevensset kunnen worden gewijzigd van 'Lineaire regressie' in 'Logistische regressie', maar de statistische gegevensset bevat nauwkeurigheidsmetrieken van het model.

Gerelateerde gegevenssets voor AutoML-modellen

Wanneer u een voorspellend model traint met AutoML, maakt Oracle Analytics aanvullende gegevenssets met handige informatie over het model. Het aantal gegevenssets dat wordt gemaakt, is afhankelijk van het modelalgoritme. Voor Naive Bayes-modellen bijvoorbeeld maakt Oracle Analytics een gegevensset die informatie over voorwaardelijke waarschijnlijkheden biedt. Voor een beslissingsboommodel biedt de gegevensset informatie over beslissingboomstatistieken. Wanneer u een door AutoML gegenereerd model inspecteert met behulp van het GLM-algoritme (gegeneraliseerd lineair model), ziet u items voorafgegaan door GLM* voor de modelspecifieke gegevenssets die metagegevens over het model bevatten.
Beschrijving van GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png volgt hierna
.png

Gerelateerde gegevenssets

Opmerking:

In Oracle Analytics wordt de naam van de uitvoer van de gegevensstroom aan het gerelateerde type gegevensset toegevoegd. Voor bijvoorbeeld een CART-model waarbij de uitvoer van de gegevensstroom cart_model2 wordt genoemd, krijgt de gegevensset de naam cart_model2_CART.

CART

In Oracle Analytics wordt een tabel gemaakt voor de aan CART (Classification and Regression Tree) gerelateerde gegevensset. Deze tabel bevat kolommen die de voorwaarden en de criteria voor de voorwaarden in de beslissingsboom, een voorspelling voor elke groep en de betrouwbaarheid van de voorspelling voorstellen. Gebruik de visualisatie van het boomdiagram om deze beslissingsboom te visualiseren.

De CART-gegevensset wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritme
Numeriek CART voor numerieke voorspelling
Binaire classificatie CART
Meervoudige classificatie CART

Classificatierapport

In Oracle Analytics wordt een tabel gemaakt voor de gerelateerde gegevensset 'Classificatierapport'. Bijvoorbeeld: als de doelkolom twee unieke waarden heeft ('Ja' en 'Nee'), worden in deze gegevensset nauwkeurigheidsmetrieken getoond zoals de F1-waarde, de precisie, het aantal treffers en overeenkomsten (het aantal rijen in de trainingsgegevensset met deze waarde) voor elke unieke waarde van de doelkolom.

De gegevensset 'Classificatie' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritmen
Binaire classificatie

Naive Bayes

Neuraal netwerk

Support Vector Machine

Meervoudige classificatie

Naive Bayes

Neuraal netwerk

Support Vector Machine

Verwarringsmatrix

In Oracle Analytics wordt een draaitabel gemaakt voor de gerelateerde gegevensset 'Verwarringsmatrix', ook wel 'foutenmatrix' genoemd. Elke rij is een instance van een voorspelde klasse en elke kolom is een instance in een daadwerkelijke klasse. Deze tabel bevat het aantal foutpositieven, foutnegatieven, terecht positieven en terecht negatieven. Op basis hiervan worden de precisie, het aantal treffers en de F1-waarde voor de precisie berekend.

De gegevensset 'Verwarringsmatrix' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritmen
Binaire classificatie

Logistische regressie

CART (beslissingsboom)

Naive Bayes

Neuraal netwerk

Random Forest

Support Vector Machine

Meervoudige classificatie

CART (beslissingsboom)

Naive Bayes

Neuraal netwerk

Random Forest

Support Vector Machine

Drivers

In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Drivers' gemaakt, die informatie bevat over de kolommen waarmee de waarden in de doelkolom worden bepaald. De kolommen worden vastgesteld op basis van lineaire regressies. Aan elke kolom worden waarden voor de coëfficiënt en correlatie toegewezen. De coëfficiëntwaarde beschrijft de wegingsfactor van de kolom bij het bepalen van de waarde van de doelkolom. De correlatiewaarde geeft de relatierichting aan tussen de doelkolom en de afhankelijke kolom. Bijvoorbeeld of de waarde van de doelkolom toe- of afneemt op basis van de afhankelijke kolom.

De gegevensset 'Drivers' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritmen
Numeriek

Lineaire regressie

Elastische lineaire nettoregressie

Binaire classificatie

Logistische regressie

Support Vector Machine

Meervoudige classificatie Support Vector Machine

Trefferkaart

In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Trefferkaart' gemaakt, die informatie bevat over de leafnodes van de beslissingsboom. Elke rij in de tabel is een leafnode en bevat informatie die aangeeft waar de desbetreffende leafnode voor staat, zoals de segmentgrootte, de zekerheidsfactor en het verwachte aantal rijen. Bijvoorbeeld: verwacht aantal juiste voorspellingen = segmentgrootte * zekerheidsfactor.

De gegevensset 'Trefferkaart' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritme
Numeriek CART voor numerieke voorspelling

Restwaarden

In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Restwaarden' gemaakt, die informatie bevat over de kwaliteit van de resterende voorspellingen. Een restwaarde is het verschil tussen de gemeten waarde en de voorspelde waarde van een regressiemodel. Deze gegevensset bevat een cumulatieve somwaarde van het absolute verschil tussen de werkelijke en voorspelde waarden voor alle kolommen in de gegevensset.

De gegevensset 'Restwaarden' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritmen
Numerieke strings

Lineaire regressie

Elastische lineaire nettoregressie

CART voor numerieke voorspelling

Binaire classificatie CART (beslissingsboom)
Meervoudige classificatie CART (beslissingsboom)

Statistieken

In Oracle Analytics wordt een tabel gemaakt voor de gerelateerde gegevensset 'Statistieken'. De metrieken van deze gegevensset zijn afhankelijk van de algoritme waarmee deze is gegenereerd. De lijst met metrieken op basis van de algoritme is als volgt:

  • Lineaire regressie, CART voor numerieke voorspelling, Elastische lineaire nettoregressie – Deze algoritmen bevatten R-Square, R-Square Adjusted, Mean Absolute Error (MAE), Mean Squared Error (MSE), Relative Absolute Error (RAE), Related Squared Error (RSE), Root Mean Squared Error (RMSE).
  • CART (Classification And Regression Trees), Naive Bayes-classificatie, Neuraal netwerk, Support Vector Machine (SVM), Random Forest, Logistische regressie – Deze algoritmen bevatten Nauwkeurigheid, Totale F1.

Deze gegevensset wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritme
Numeriek

Lineaire regressie

Elastische lineaire nettoregressie

CART voor numerieke voorspelling

Binaire classificatie

Logistische regressie

CART (beslissingsboom)

Naive Bayes

Neuraal netwerk

Random Forest

Support Vector Machine

Meervoudige classificatie

Naive Bayes

Neuraal netwerk

Random Forest

Support Vector Machine

Overzicht

In Oracle Analytics wordt een tabel voor de gerelateerde gegevensset 'Overzicht' gemaakt, die informatie bevat zoals doelnaam en modelnaam.

De gegevensset 'Overzicht' wordt gemaakt wanneer u deze combinaties van model en algoritme selecteert.

Model Algoritmen
Binaire classificatie

Naive Bayes

Neuraal netwerk

Support Vector Machine

Meervoudige classificatie

Naive Bayes

Neuraal netwerk

Support Vector Machine

Gerelateerde gegevenssets van een voorspellingsmodel zoeken

Gerelateerde gegevenssets worden gegenereerd wanneer u een voorspellingsmodel traint.

Afhankelijk van de algoritme bevatten gerelateerde gegevenssets onder meer de volgende details over het model: voorspellingsregels, nauwkeurigheidsmetrieken, verwarringsmatrix, belangrijkste voorspellingscriteria enzovoort. Deze parameters geven aan welke regels in het model zijn gebruikt om de voorspellingen en classificaties te bepalen.
  1. Klik op de beginpagina op Navigator Pictogram Navigator dat gebruikt wordt om de Navigator weer te geven en klik vervolgens op Machine learning.
  2. Klik op het menupictogram voor een trainingsmodel en selecteer Inspecteren.
  3. Klik op het tabblad Gerelateerd om de gerelateerde gegevenssets van het model te zien.
  4. Dubbelklik op een gerelateerde gegevensset om deze te tonen of in een werkmap te gebruiken.

Een voorspellingsmodel toevoegen aan een werkmap

Als u een scenario in een werkmap maakt, past u een voorspellingsmodel toe op de gegevensset van de werkmap om de trends en patronen te tonen die met het model kunnen worden gevonden.

Opmerking:

U kunt geen Oracle machine learning-model toepassen op de gegevens van een werkmap.
Wanneer u het model aan de werkmap hebt toegevoegd en de invoer van het model hebt toegewezen aan de kolommen in de gegevensset, bevat het deelvenster Gegevens de objecten uit het model, die u naar het canvas kunt slepen. De waarden van het model worden via automatisch leren gegenereerd op basis van de overeenkomende gegevenskolommen van de visualisatie.
  1. Klik op de beginpagina op Maken en klik vervolgens op Werkmap.
  2. Selecteer de gegevensset die u wilt gebruiken om de werkmap te maken en klik op Toevoegen aan werkmap.
  3. In het deelvenster Gegevens klikt u op Toevoegen en selecteert u Scenario maken.
  4. Selecteer in het dialoogvenster Scenario maken - Model selecteren een model en klik op OK.
    U kunt alleen een voorspellingsmodel toepassen. U kunt geen Oracle Machine Learning model toepassen.
    Als niet elk modelinvoerelement aan een gegevenselement kan worden toegewezen, wordt het dialoogvenster Gegevens toewijzen aan het model weergegeven.
  5. Als het dialoogvenster Gegevens toewijzen aan het model wordt weergegeven, selecteert u in het veld Gegevensset de gegevensset die u samen met het model wilt gebruiken.
  6. Koppel de modelinvoer waar nodig aan de gegevenselementen. Klik op Gereed.
    Het scenario wordt als gegevensset weergegeven in het deelvenster Gegevenselementen.
  7. Sleep elementen uit de gegevensset en het model naar het canvas Visualiseren.
  8. U kunt het scenario aanpassen door met de rechtermuisknop op het scenario in het deelvenster Gegevenselementen te klikken en Scenario bewerken te selecteren.
  9. Wijzig de gegevensset en werk de toewijzing van de modelinvoer aan de gegevenselementen waar nodig bij.
  10. Klik op Opslaan om de werkmap op te slaan.