Oracle Analytics-Vorhersagemodelle erstellen und verwenden

Oracle Analytics-Vorhersagemodelle nutzen mehrere eingebettete Oracle Machine Learning-Algorithmen. Damit können Sie Dataset Mining durchführen, einen Zielwert vorhersagen oder Klassen von Datensätzen identifizieren. Mit dem Datenflusseditor können Sie Vorhersagemodelle erstellen, trainieren und auf Ihre Daten anwenden.

Was sind Vorhersagemodelle von Oracle Analytics?

Ein Oracle Analytics-Vorhersagemodell wendet einen bestimmten Algorithmus auf ein Dataset an, um Werte oder Klassen vorherzusagen oder Gruppen in den Daten zu identifizieren.

Sie können Daten auch mit Oracle Machine Learning-Modellen vorhersagen.

Oracle Analytics umfasst Algorithmen, mit denen Sie Vorhersagemodelle für verschiedene Zwecke trainieren können. Beispiele für Algorithmen sind Klassifizierungs- und Regressionsbäume (CART), logistische Regression und K-Means.

Zunächst trainieren Sie ein Modell mit einem Trainings-Dataset im Datenflusseditor. Nachdem das Vorhersagemodell trainiert wurde, wenden Sie es auf die vorherzusagenden Datasets an.

Sie können ein trainiertes Modell für andere Benutzer verfügbar machen, damit diese damit Werte anhand ihrer Daten vorhersagen können. In einigen Fällen trainieren bestimmte Benutzer Modelle, während andere Benutzer sie anwenden.

Hinweis:

Wenn Sie sich nicht sicher sind, wonach Sie in Ihren Daten suchen, können Sie Explain einsetzen. Damit werden über maschinelles Lernen Trends und Muster identifiziert. Anschließend können Sie im Datenflusseditor Vorhersagemodelle erstellen und trainieren, um einen Drilldown in die von Explain ermittelten Trends und Muster auszuführen.
Sie trainieren ein Modell mit dem Datenflusseditor:
  • Zunächst erstellen Sie einen Datenfluss und fügen das Dataset hinzu, mit dem Sie das Modell trainieren möchten. Dieses Trainings-Dataset enthält die Daten, die Sie vorhersagen möchten (z.B. Werte wie Umsatz oder Alter oder Variablen wie Kreditrisikogruppen).
  • Sie können das Dataset gegebenenfalls im Datenflusseditor bearbeiten, indem Sie Spalten hinzufügen, auswählen, verknüpfen usw.
  • Nachdem Sie sichergestellt haben, dass das Dataset die gewünschten Daten enthält, fügen Sie einen Trainingsschritt zum Datenfluss hinzu und wählen den Algorithmus (Klassifizierung (binär oder mehrfach), Regression oder Clustering) zum Trainieren eines Modells aus. Anschließend geben Sie dem resultierenden Modell einen Namen, speichern den Datenfluss und führen ihn aus, um das Modell zu trainieren und zu erstellen.
  • Prüfen Sie die Eigenschaften in den Objekten für das maschinelle Lernen, um die Qualität des Modells zu bestimmen. Sie können den Trainingsprozess gegebenenfalls wiederholen, bis das Modell die gewünschte Qualität aufweist.

Mit dem fertiggestellten Modell können Sie unbekannte (d.h. nicht gekennzeichnete) Daten bewerten, um ein Dataset in einem Datenfluss zu generieren, oder eine Vorhersagevisualisierung zu einer Arbeitsmappe hinzufügen.

Beispiel

Beispiel: Sie möchten ein Mehrfach-Klassifizierungsmodell erstellen und trainieren, um vorherzusagen, welche Patienten ein hohes Risiko für Herzkrankheiten aufweisen.

  1. Stellen Sie ein Trainings-Dataset mit Attributen zu individuellen Patienten bereit, wie Alter, Geschlecht, Vorkommen von Brustschmerzen, sowie Metriken wie Blutdruck, Nüchternblutzucker, Cholesterin und maximale Herzfrequenz. Das Trainings-Dataset enthält auch die Spalte "Wahrscheinlichkeit", der einer der folgenden Werte zugewiesen wird: Nicht vorhanden, Geringe Wahrscheinlichkeit, Wahrscheinlich, Hohe Wahrscheinlichkeit oder Vorhanden.
  2. Wählen Sie den CART-Algorithmus (Entscheidungsbaum) aus, da dieser überflüssige Spalten ignoriert, die nicht zur Vorhersage beitragen, und die Spalten identifiziert, die zum Vorhersagen des Ziels nützlich sind, und nur diese verwendet. Wenn Sie den Algorithmus zum Datenfluss hinzufügen, wählen Sie die Spalte "Wahrscheinlichkeit" zum Trainieren des Modells aus. Der Algorithmus wählt anhand von maschinellem Lernen die wichtigen Spalten aus, die zum Durchführen und Ausgeben von Vorhersagen und zugehörigen Datasets erforderlich sind.
  3. Prüfen Sie die Ergebnisse, und optimieren Sie das Trainingsmodell. Wenden Sie das Modell dann auf ein größeres Dataset an, um vorherzusagen, welche Patienten ein hohes Risiko für Herzkrankheiten aufweisen.

Wie wähle ich einen Vorhersagemodellalgorithmus aus?

Oracle Analytics bietet zahlreiche Algorithmen für die Modellierung mit maschinellem Lernen: numerische Vorhersage, Mehrfachklassifizierung, binäre Klassifizierung und Clustering.

Die Funktion für maschinelles Lernen von Oracle eignet sich für erfahrene Datenanalysten, die wissen, wonach sie in den Daten suchen, mit Vorhersageanalysen vertraut sind und die Unterschiede zwischen Algorithmen kennen.

Hinweis:

Wenn Sie Daten aus Oracle Autonomous Data Warehouse verwenden, können Sie mit der AutoML-Funktion schnell und einfach ein Vorhersagemodell trainieren, ohne dass Sie dafür Fachkenntnisse im Bereich maschinelles Lernen benötigen. Siehe Vorhersagemodell mit AutoML in Autonomous Data Warehouse trainieren.

Normalerweise möchten Benutzer mehrere Vorhersagemodelle erstellen, diese vergleichen und das Modell auswählen, dessen Ergebnisse am ehesten ihre Kriterien und Anforderungen erfüllen. Dabei kann es sich um verschiedene Kriterien handeln. Beispiel: Manche Benutzer wählen Modelle mit einer besseren Gesamtgenauigkeit aus. Manche Benutzer wählen Modelle mit den wenigsten Fehlern vom Typ I (falsch positive Ergebnisse) und Typ II (falsch negative Ergebnisse) aus, und wieder andere wählen Modelle aus, die Ergebnisse schneller und mit einer akzeptablen Genauigkeit zurückgeben, auch wenn die Ergebnisse nicht optimal sind.

Oracle Analytics umfasst mehrere Algorithmen des maschinellen Lernens für jede Art von Vorhersage oder Klassifizierung. Mit diesen Algorithmen können Benutzer mehrere Modelle erstellen, verschiedene angepasste Parameter verwenden oder verschiedene Trainings-Datasets verwenden und das beste Modell auswählen. Bei der Auswahl des besten Modells vergleichen Benutzer Modelle mit ihren eigenen Kriterien. Zur Bestimmung des besten Modells können Benutzer das Modell anwenden und Ergebnisse der Berechnungen visualisieren, um die Genauigkeit zu bestimmen. Sie können auch die zugehörigen Datasets öffnen und explorieren, die Oracle Analytics mit dem Model ausgegeben hat.

In dieser Tabelle erhalten Sie weitere Informationen zu den bereitgestellten Algorithmen:

Name Typ Kategorie Funktion Beschreibung
CART

Klassifizierung

Regression

Binärer Classifier

Mehrklassen-Classifier

Numerisch

- Sagt anhand von Entscheidungsbäumen sowohl diskrete als auch kontinuierliche Werte vorher.

Verwenden Sie diese Option mit großen Datasets.

Elastisches Netz (lineare Regression) Regression Numerisch ElasticNet Erweitertes Regressionsmodell. Liefert zusätzliche Informationen (Regularisierung), wählt Variablen aus und führt lineare Kombinationen durch. Penalisierung von Lasso- und Ridge-Regressionsmethoden.

Verwenden Sie diesen Algorithmus mit einer großen Anzahl Attributen, um Kollinearität (wenn mehrere Attribute perfekt korrelieren) und Überanpassung zu vermeiden.

Hierarchisch Clustering Clustering AgglomerativeClustering Erstellt eine Clustering-Hierarchie entweder von unten nach oben (jede Beobachtung ist ein eigenes Cluster, die dann zusammengeführt werden) oder von oben nach unten (alle Beobachtungen beginnen als ein Cluster) und mit Entfernungsmetriken.

Verwenden Sie diesen Algorithmus, wenn das Dataset nicht groß ist und Sie die Anzahl der Cluster nicht im Voraus kennen.

K-Means Clustering Clustering k-means Datensätze werden iterativ in K-Clustern partitioniert, wobei jede Beobachtung zu dem Cluster mit dem am nächsten gelegenen Mittelwert gehört.

Verwenden Sie diesen Algorithmus zum Clustering von Metrikspalten und mit einer festgelegten erforderlichen Anzahl an Clustern. Funktioniert gut mit großen Datasets. Die Ergebnisse sehen bei jeder Ausführung anders aus.

Lineare Regression Regression Numerisch Ordinary Least Squares (Gewöhnliche Methode der kleinsten Quadrate)

Ridge

Lasso

Linearer Ansatz für eine Modellierungsbeziehung zwischen der Zielvariablen und anderen Attributen im Dataset.

Damit können Sie numerische Werte vorhersagen, wenn die Attribute nicht perfekt korrelieren.

Logistische Regression Regression Binärer Classifier LogisticRegressionCV Damit können Sie den Wert einer kategorisch abhängigen Variablen vorhersagen. Die abhängige Variable ist eine binäre Variable mit Daten, die als 1 oder 0 codiert sind.
Naive Bayes Klassifizierung

Binärer Classifier

Mehrklassen-Classifier

GaussianNB Wahrscheinlichkeitsklassifizierung basierend auf dem Satz von Bayes, bei dem keine Abhängigkeit zwischen Features angenommen wird.

Verwenden Sie diese Option, wenn es sehr viele Eingabedimensionen gibt.

Neuronales Netzwerk Klassifizierung

Binärer Classifier

Mehrklassen-Classifier

MLPClassifier Iterativer Klassifizierungsalgorithmus, der lernt, indem das Klassifizierungsergebnis mit dem tatsächlichen Wert verglichen wird. Dieser wird an das Netzwerk zurückgegeben, um den Algorithmus für weitere Iterationen zu ändern.

Verwenden Sie diesen Algorithmus für die Textanalyse.

Random Forest Klassifizierung

Binärer Classifier

Mehrklassen-Classifier

Numerisch

- Eine Ensemble-Lernmethode, die mehrere Entscheidungsbäume erstellt und den Wert ausgibt, der alle Entscheidungsbäume kollektiv repräsentiert.

Damit können Sie numerische und kategorische Variablen vorhersagen.

SVM Klassifizierung

Binärer Classifier

Mehrklassen-Classifier

LinearSVC, SVC Klassifiziert Datensätze, indem diese räumlich abgebildet werden und Hyperebenen für die Klassifizierung erstellt werden. Neue Datensätze (Scoringdaten) werden räumlich abgebildet und per Vorhersage einer Kategorie zugeordnet, basierend auf der Seite der Hyperebene, auf der sie liegen.

Prognosemodell in Oracle Autonomous Data Warehouse mit AutoML trainieren

Wenn Sie Daten aus Oracle Autonomous Data Warehouse verwenden, können Sie die AutoML-Funktion verwenden, um ein Vorhersagemodell zu empfehlen und zu trainieren. Mit AutoML werden Ihre Daten analysiert, der am besten geeignete Algorithmus berechnet und ein Vorhersagemodell in Oracle Analytics registriert, sodass Sie Vorhersagen zu Ihren Daten treffen können.

Wenn Sie AutoML verwenden, übernimmt Oracle Autonomous Data Warehouse die schwierigen Aufgaben für Sie. So können Sie ein Vorhersagemodell auch ohne Fachkenntnisse in maschinellem Lernen oder künstlicher Intelligenz bereitstellen. Das generierte Vorhersagemodell wird auf der Seite "Maschinelles Lernen" im Bereich "Modelle" gespeichert. Um Daten basierend auf dem neuen Modell vorherzusagen, erstellen Sie einen Datenfluss, und verwenden Sie den Schritt Modell anwenden.
Bevor Sie beginnen:
  • Erstellen Sie ein Dataset basierend auf den Daten in Oracle Autonomous Data Warehouse, zu denen Sie Vorhersagen treffen möchten. Beispiel: Angenommen, Sie haben Daten zum Mitarbeiterabgang, einschließlich eines Feldes namens ATTRITION, in dem "Ja" oder "Nein" für den Abgang angegeben ist.
  • Stellen Sie sicher, dass der Datenbankbenutzer, den Sie in der Verbindung von Oracle Analytics zu Oracle Autonomous Data Warehouse angeben, die Rolle OML_Developer hat und kein "Admin"-Superuser ist. Andernfalls kann der Datenfluss nicht erfolgreich gespeichert oder ausgeführt werden.
  1. Klicken Sie auf der Homepage auf Erstellen und dann auf Datenfluss.
  2. Wählen Sie unter "Dataset hinzufügen" das Dataset aus, das auf Oracle Autonomous Data Warehouse basiert und die zu analysierenden Daten enthält.
  3. Klicken Sie auf Schritt hinzufügen, und klicken Sie dann auf AutoML.
  4. Klicken Sie unter Ziel auf Spalte auswählen, und wählen Sie die Datenspalte mit dem Wert aus, den Sie vorhersagen möchten.
    Beispiel: Um den Mitarbeiterabgang vorherzusagen, können Sie ein Feld namens ATTRITION auswählen, das "TRUE" oder "FALSE" enthält, je nachdem, ob Mitarbeiter eine Organisation verlassen haben oder nicht.

  5. Übernehmen Sie die von Oracle Analytics empfohlenen Werte für Aufgabentyp und Modellrankingmetrik, oder wählen Sie einen anderen Algorithmus aus.
  6. Klicken Sie auf Modell speichern, und geben Sie den Namen des generierten Vorhersagemodells an.
  7. Klicken Sie auf Speichern, und geben Sie einen Namen für den Datenfluss an.
  8. Klicken Sie auf Ausführen, um die Daten zu analysieren und ein Vorhersagemodell zu generieren.
  9. Klicken Sie auf der Homepage auf Navigieren und dann auf Maschinelles Lernen. Klicken Sie anschließend mit der rechten Maustaste auf das generierte Modell, und wählen Sie Prüfen aus.
Sie finden das von Oracle Analytics generierte Modell auf der Seite Maschinelles Lernen auf der Registerkarte Modelle. Prüfen Sie das Modell, um seine Qualität zu bewerten. Siehe Qualität eines Vorhersagemodells beurteilen. Sie können auch zugehörige Datasets referenzieren, die für von AutoML generierte Modelle generiert werden. Siehe Was sind die zugehörigen Datasets eines Vorhersagemodells?.

Vorhersagemodell erstellen und trainieren

Je nach dem zu lösenden Problem wählt ein erfahrener Datenanalyst einen geeigneten Algorithmus aus, um ein Vorhersagemodell zu trainieren. Anschließend beurteilt er die Ergebnisse des Modells.

Tutorialsymbol LiveLabs-Sprint

Um ein akkurates Modell zu erreichen, muss ein iterativer Prozess durchgeführt werden. Dabei kann ein erfahrener Datenanalyst verschiedene Modelle ausprobieren, deren Ergebnisse vergleichen und Parameter immer wieder anpassen. Anhand des abgeschlossenen, akkuraten Vorhersagemodells können Datenanalysten Trends in anderen Datasets vorhersagen. Sie können das Modell zudem Arbeitsmappen hinzufügen.

Hinweis:

Wenn Sie Daten aus Oracle Autonomous Data Warehouse verwenden, können Sie mit der AutoML-Funktion schnell und einfach ein Vorhersagemodell trainieren, ohne dass Sie dafür Fachkenntnisse im Bereich maschinelles Lernen benötigen. Siehe Vorhersagemodell mit AutoML in Autonomous Data Warehouse trainieren.

Oracle Analytics bietet Algorithmen für numerische Vorhersage, Mehrfachklassifizierung, binäre Klassifizierung und Clustering.

  1. Klicken Sie auf der Homepage auf Erstellen, und wählen Sie Datenfluss aus.
  2. Wählen Sie das Dataset aus, mit dem Sie das Modell trainieren möchten. Klicken Sie auf Hinzufügen.
  3. Klicken Sie im Datenflusseditor auf Schritt hinzufügen (+).
    Nachdem Sie ein Dataset hinzugefügt haben, können Sie entweder alle Spalten im Dataset zum Erstellen des Modells verwenden oder nur die relevanten Spalten auswählen. Zur Auswahl der relevanten Spalten müssen Sie den Inhalt des Datasets verstehen. Ignorieren Sie Spalten, von denen Sie wissen, dass Sie das Ergebnis nicht beeinflussen oder die überflüssige Informationen enthalten. Indem Sie den Schritt Spalten auswählen hinzufügen, können Sie nur relevante Spalten auswählen. Wenn Sie sich nicht sicher sind, welche Spalten relevant sind, verwenden Sie alle Spalten.
  4. Wählen Sie einen der Schritte zum Trainieren von Modellen aus (z.B. Numerische Vorhersage trainieren oder Clustering trainieren).
  5. Wählen Sie einen Algorithmus aus, und klicken Sie auf OK.
  6. Wenn Sie mit einem überwachten Modell wie Vorhersage oder Klassifizierung arbeiten, klicken Sie auf Ziel, und wählen Sie die Spalte aus, die Sie vorhersagen möchten. Beispiel: Wenn Sie ein Modell zum Vorhersagen des Einkommens einer Person erstellen, wählen Sie die Spalte "Einkommen" aus.
    Wenn Sie mit einem nicht überwachten Modell wie Clustering arbeiten, ist keine Zielspalte erforderlich.
  7. Ändern Sie die Standardeinstellungen für das Modell so, dass die Genauigkeit des vorhergesagten Ergebnisses optimiert wird. Diese Einstellungen hängen davon ab, mit welchem Modell Sie arbeiten.
  8. Klicken Sie auf den Schritt Modell speichern, und geben Sie einen Namen und eine Beschreibung an.
  9. Klicken Sie auf Speichern, geben Sie einen Namen und eine Beschreibung für den Datenfluss ein, und klicken Sie auf OK, um den Datenfluss zu speichern.
  10. Klicken Sie auf Datenfluss ausführen, um das Vorhersagemodell basierend auf dem angegebenen Eingabe-Dataset und den vorgenommenen Modelleinstellungen zu erstellen.

Datenflussschritte zum Trainieren von Modellen für maschinelles Lernen

Mit Oracle Analytics können Sie Modelle für maschinelles Lernen anhand von Schritten in Datenflüssen trainieren. Wenn Sie ein Modell für maschinelles Lernen trainiert haben, wenden Sie es mit dem Schritt Modell anwenden auf die Daten an.

Schrittname Beschreibung
AutoML (erfordert Oracle Autonomous Data Warehouse) Mit der AutoML-Funktion von Oracle Autonomous Data Warehouse erhalten Sie Empfehlungen zu Vorhersagemodellen und können diese trainieren. Der AutoML-Schritt analysiert Ihre Daten, berechnet den am besten geeigneten Algorithmus und registriert ein Vorhersagemodell in Oracle Analytics.
Binären Classifier trainieren

Trainieren Sie ein Modell für maschinelles Lernen, um Ihre Daten in zwei vordefinierte Kategorien einzuteilen.

Clustering trainieren Trainieren Sie ein Modell für maschinelles Lernen, um Gruppen mit ähnlichen Merkmalen in Cluster einzuteilen.
Mehrklassen-Classifier trainieren Trainieren Sie ein Modell für maschinelles Lernen, um Ihre Daten in drei oder mehr vordefinierte Kategorien einzuteilen.
Numerische Vorhersage trainieren Trainieren Sie ein Modell für maschinelles Lernen, um einen numerischen Wert basierend auf bekannten Datenwerten vorherzusagen.

Vorhersagemodell prüfen

Nachdem Sie das Vorhersagemodell erstellt und den Datenfluss ausgeführt haben, können Sie Informationen zur Genauigkeit des Modells anzeigen. Anhand dieser Informationen können Sie die Modelleinstellungen iterativ anpassen, um die Genauigkeit zu verbessern und bessere Ergebnisse vorherzusagen.

Details zu einem Vorhersagemodell anzeigen

Mit den Detailinformationen zu einem Vorhersagemodell können Sie das Modell besser verstehen und erkennen, ob es für das Vorhersagen Ihrer Daten geeignet ist. Zu den Modelldetails gehören Modellklasse, Algorithmus, Eingabe- und Ausgabespalten.

  1. Klicken Sie auf der Homepage auf Navigator und dann auf Maschinelles Lernen.
  2. Klicken Sie auf das Menüsymbol für ein Trainingsmodell, und wählen Sie Prüfen aus.
  3. Klicken Sie auf Details, um die Informationen zum Modell anzuzeigen.

Qualität eines Vorhersagemodells beurteilen

Zeigen Sie Informationen zur Qualität eines Vorhersagemodells an. Sie können beispielsweise Genauigkeitsmetriken wie Modellgenauigkeit, Präzision, Trefferquote, F1-Wert und Falsch-Positiv-Rate anzeigen.

Oracle Analytics liefert ähnliche Metriken unabhängig vom Algorithmus, mit dem das Modell erstellt wurde. So können Sie verschiedene Modelle ganz einfach vergleichen. Während der Modellerstellung wird das Eingabe-Dataset basierend auf dem Parameter für Trainingspartition in Prozent in zwei Teile aufgeteilt, um das Modell zu trainieren und zu testen. Das Modell testet die Genauigkeit des erstellten Modells anhand des Testteils des Datasets.
Je nach den Ergebnissen auf der Registerkarte Qualität können Sie die Modellparameter anpassen und das Modell nachtrainieren.
  1. Klicken Sie auf der Homepage auf Navigator und dann auf Maschinelles Lernen.
  2. Klicken Sie auf das Menüsymbol für ein Trainingsmodell, und wählen Sie Prüfen aus.
  3. Klicken Sie auf die Registerkarte Qualität, um die Qualitätsmetriken des Modells anzuzeigen und das Modell zu bewerten. Beispiel: Prüfen Sie den Score für die Modellgenauigkeit.

Tipp: Klicken Sie auf Mehr, um Details der für das Modell generierten Ansichten zu prüfen.

Was sind die zugehörigen Datasets eines Vorhersagemodells?

Wenn Sie den Datenfluss ausführen, um das Trainingsmodell für das Oracle Analytics-Vorhersagemodell zu erstellen, legt Oracle Analytics ein Set aus zugehörigen Datasets an. Sie können Arbeitsmappen für diese Datasets öffnen und erstellen, um die Genauigkeit des Modells zu prüfen.

Je nach dem für das Modell ausgewählten Algorithmus enthalten die zugehörigen Datasets Details zum Modell wie: Vorhersageregeln, Genauigkeitsmetriken, Konfusionsmatrix und Schlüsselfaktoren für die Vorhersage. Anhand dieser Informationen können Sie das Modell optimieren, um die Ergebnisse zu verbessern. Außerdem können Sie mit zugehörigen Datasets Modelle vergleichen und das genauere Modell bestimmen.

Beispiel: Sie können das Dataset "Drivers" öffnen, um herauszufinden, welche Spalten einen starken positiven oder negativen Einfluss auf das Modell haben. Bei der Prüfung dieser Spalten stellen Sie fest, dass einige Spalten nicht als Modellvariablen behandelt werden, da sie keine realistischen Eingaben sind, oder dass sie zu granular für die Prognose sind. Sie öffnen das Modell im Datenflusseditor und entfernen je nach den ermittelten Informationen die irrelevanten oder zu granularen Spalten. Anschließend generieren Sie das Modell erneut. Sie prüfen auf den Registerkarten "Qualität" und "Ergebnisse", ob sich die Modellgenauigkeit verbessert hat. Diesen Prozess wiederholen Sie, bis Sie mit der Modellgenauigkeit zufrieden sind und das Modell zum Bewerten eines neuen Datasets eingesetzt werden kann.

Verschiedene Algorithmen generieren ähnliche zugehörige Datasets. Individuelle Parameter und Spaltennamen im Dataset können sich je nach Typ des Algorithmus ändern. Die Funktionalität des Datasets bleibt aber gleich. Beispiel: Die Spaltennamen in einem Statistik-Dataset können sich von "Lineare Regression" in "Logistische Regression" ändern, das Statistik-Dataset enthält aber Genauigkeitsmetriken des Modells.

Zugehörige Datasets für AutoML-Modelle

Wenn Sie ein Vorhersagemodell mit AutoML trainieren, erstellt Oracle Analytics zusätzliche Datasets mit nützlichen Informationen zu dem Modell. Die Anzahl der erstellten Datasets ist vom Modellalgorithmus abhängig. Beispiel: Für Naïve Bayes-Modelle erstellt Oracle Analytics ein Dataset mit Informationen zu bedingten Wahrscheinlichkeiten. Für ein Entscheidungsbaummodell bietet das Dataset Informationen zur Entscheidungsbaumstatistik. Wenn Sie ein AutoML-generiertes Modell mit dem GLM-Algorithmus prüfen, finden Sie Einträge (mit Präfix GLM*) für die modellspezifischen Datasets vor, die Metadateninformationen zu dem Modell enthalten.
Beschreibung von GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png folgt
.png

Zugehörige Datasets

CARTree

Dieses Dataset ist eine tabellarische Darstellung von CART (Entscheidungsbaum) für die Vorhersage der Zielspaltenwerte. Es enthält Spalten für die Bedingungen und deren Kriterien im Entscheidungsbaum, eine Vorhersage für jede Gruppe und die Vorhersagekonfidenz. Die integrierte Baumdiagrammvisualisierung kann zum Visualisieren dieses Entscheidungsbaums verwendet werden.

Das Dataset "CARTree" wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmus
Numerisch CART für numerische Vorhersage
Binäre Klassifizierung CART (Entscheidungsbaum)
Mehrfachklassifizierung CART (Entscheidungsbaum)

Classification Report (Klassifizierungsbericht)

Dieses Dataset ist eine tabellarische Darstellung der Genauigkeitsmetriken für jeden eindeutigen Wert der Zielspalte. Beispiel: Die Zielspalte enthält die zwei eindeutigen Werte "Ja" und "Nein". In diesem Fall zeigt dieses Dataset Genauigkeitsmetriken wie F1, Genauigkeit, Trefferquote und Unterstützung (die Anzahl der Zeilen im Trainings-Dataset mit diesem Wert) für jeden eindeutigen Wert der Zielspalte.

Das Klassifizierungs-Dataset wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmen
Binäre Klassifizierung

Naive Bayes

Neuronales Netzwerk

Support Vector Machine

Mehrfachklassifizierung

Naive Bayes

Neuronales Netzwerk

Support Vector Machine

Confusion Matrix (Konfusionsmatrix)

Dieses Dataset (auch als Fehlermatrix bezeichnet) ist ein Pivot-Tabellenlayout. Jede Zeile steht für eine Instanz einer vorhergesagten Klasse und jede Spalte für eine Instanz in einer tatsächlichen Klasse. Diese Tabelle enthält die Anzahl der falsch positiven Ergebnisse, falsch negativen Ergebnisse, wahren positiven Ergebnissen und wahren negativen Ergebnissen. Damit werden die Genauigkeitsmetriken für Genauigkeit, Trefferquote und F1 berechnet.

Das Dataset "Confusion Matrix" wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmen
Binäre Klassifizierung

Logistische Regression

CART (Entscheidungsbaum)

Naive Bayes

Neuronales Netzwerk

Random Forest

Support Vector Machine

Mehrfachklassifizierung

CART (Entscheidungsbaum)

Naive Bayes

Neuronales Netzwerk

Random Forest

Support Vector Machine

Drivers (Treiber)

Dieses Dataset liefert Informationen zu den Spalten, die die Zielspaltenwerte bestimmen. Diese Spalten werden mit linearen Regressionen identifiziert. Jeder Spalte werden Koeffizienten- und Korrelationswerte zugewiesen. Der Koeffizientenwert beschreibt die Gewichtung der Spalte für die Bestimmung des Wertes der Zielspalte. Der Korrelationswert gibt die Beziehungsrichtung zwischen der Zielspalte und der abhängigen Spalte an. Beispiel: Ob der Wert der Zielspalte basierend auf der abhängigen Spalte erhöht oder verringert wird.

Das Dataset "Drivers" wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmen
Numerisch

Lineare Regression

Elastisches Netz (lineare Regression)

Binäre Klassifizierung

Logistische Regression

Support Vector Machine

Mehrfachklassifizierung Support Vector Machine

Hitmap

Dieses Dataset enthält Informationen zu den Blattknoten des Entscheidungsbaums. Jede Zeile in der Tabelle steht für einen Blattknoten und enthält Informationen zu diesem Blattknoten, wie Segmentgröße, Konfidenz und erwartete Zeilenanzahl. Beispiel: Erwartete Anzahl korrekter Vorhersagen = Segmentgröße * Konfidenz.

Das Dataset "Hitmap" wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmus
Numerisch CART für numerische Vorhersage

Residuals (Residuen)

Dieses Dataset liefert Informationen zur Qualität der Residuenvorhersagen. Ein Residuum ist die Differenz zwischen dem gemessenen Wert und dem vorhergesagten Wert eines Regressionsmodells. Dieses Dataset enthält einen aggregierten Summenwert der absoluten Differenz zwischen den tatsächlichen und den vorhergesagten Werten für alle Spalten im Dataset.

Das Dataset "Residuals" wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmen
Zahlen

Lineare Regression

Elastisches Netz (lineare Regression)

CART für numerische Vorhersage

Binäre Klassifizierung CART (Entscheidungsbaum)
Mehrfachklassifizierung CART (Entscheidungsbaum)

Statistics (Statistiken)

Die Metriken dieses Datasets hängen vom Algorithmus ab, mit dem es generiert wird. Liste der Metriken basierend auf Algorithmus:

  • Lineare Regression, CART für numerische Vorhersage, Elastisches Netz (lineare Regression) - Diese Algorithmen enthalten R-Quadrat, Korrigiertes R-Quadrat, Mittlerer absoluter Fehler (MAE), Mittlerer quadratischer Fehler (MSE), Relativer absoluter Fehler (RAE), Relativer quadratischer Fehler (RSE), Wurzel des mittleren quadratischen Fehlers (RMSE).
  • CART (Classification And Regression Trees, Klassifizierungs- und Regressionsbäume), Naive Bayes-Klassifizierung, Neuronales Netzwerk, Support Vector Machine (SVM), Random Forest, Logistische Regression - Diese Algorithmen enthalten Genauigkeit, F1 gesamt.

Dieses Dataset wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmus
Numerisch

Lineare Regression

Elastisches Netz (lineare Regression)

CART für numerische Vorhersage

Binäre Klassifizierung

Logistische Regression

CART (Entscheidungsbaum)

Naive Bayes

Neuronales Netzwerk

Random Forest

Support Vector Machine

Mehrfachklassifizierung

Naive Bayes

Neuronales Netzwerk

Random Forest

Support Vector Machine

Summary (Übersicht)

Dieses Dataset enthält Informationen wie Zielname und Modellname.

Das Dataset "Summary" wird ausgegeben, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.

Modell Algorithmen
Binäre Klassifizierung

Naive Bayes

Neuronales Netzwerk

Support Vector Machine

Mehrfachklassifizierung

Naive Bayes

Neuronales Netzwerk

Support Vector Machine

Zugehörige Datasets eines Vorhersagemodells suchen

Die zugehörigen Datasets werden beim Trainieren eines Vorhersagemodells generiert.

Je nach Algorithmus enthalten die zugehörigen Datasets Details zum Modell, wie Vorhersageregeln, Genauigkeitsmetriken, Konfusionsmatrix, Schlüsselfaktoren für die Vorhersage usw. Anhand dieser Parameter können Sie die Regeln nachvollziehen, mit denen das Modell die Vorhersagen und Klassifizierungen bestimmt.
  1. Klicken Sie auf der Homepage auf Navigator und dann auf Maschinelles Lernen.
  2. Klicken Sie auf das Menüsymbol für ein Trainingsmodell, und wählen Sie Prüfen aus.
  3. Klicken Sie auf die Registerkarte Zugehörig, um auf die zugehörigen Datasets des Modells zuzugreifen.
  4. Doppelklicken Sie auf ein zugehöriges Dataset, um es anzuzeigen oder in einer Arbeitsmappe zu verwenden.

Vorhersagemodell zu Arbeitsmappe hinzufügen

Wenn Sie ein Szenario in einer Arbeitsmappe erstellen, wenden Sie ein Vorhersagemodell auf das Dataset der Arbeitsmappe an, um die Trends und Muster aufzudecken, die das Modell finden soll.

Hinweis:

Sie können keine Oracle Machine Learning-Modelle auf die Daten einer Arbeitsmappe anwenden.
Nachdem Sie das Modell zur Arbeitsmappe hinzugefügt und die Eingaben des Modells den Spalten des Datasets zugeordnet haben, enthält der Datenbereich die Objekte des Modells. Diese können Sie per Drag-and-Drop auf die Leinwand ziehen. Die Werte des Modells werden mit maschinellem Lernen basierend auf den entsprechenden Datenspalten der Visualisierung generiert.
  1. Klicken Sie auf der Homepage auf Erstellen und dann auf Arbeitsmappe.
  2. Wählen Sie das Dataset aus, mit dem Sie die Arbeitsmappe erstellen möchten, und klicken Sie auf Der Arbeitsmappe hinzufügen.
  3. Klicken Sie im Datenbereich auf Hinzufügen, und wählen Sie Szenario erstellen aus.
  4. Wählen Sie im Dialogfeld "Szenario erstellen - Modell auswählen" ein Modell aus, und klicken Sie auf OK.
    Sie können nur Vorhersagemodelle anwenden. Oracle Machine Learning-Modelle können nicht angewendet werden.
    Wenn nicht jede Modelleingabe einem Datenelement zugeordnet werden kann, wird das Dialogfeld "Daten dem Modell zuordnen" angezeigt.
  5. Wenn das Dialogfeld "Daten dem Modell zuordnen" angezeigt wird, wählen Sie im Feld Dataset das Dataset aus, das mit dem Modell verwendet werden soll.
  6. Ordnen Sie die Modelleingabe und Datenelemente nach Bedarf zu. Klicken Sie auf Fertig.
    Das Szenario wird als Dataset im Bereich "Datenelemente" angezeigt.
  7. Ziehen Sie Elemente per Drag-and-Drop aus dem Dataset und Modell auf die Leinwand "Visualisieren".
  8. Um das Szenario anzupassen, klicken Sie im Bereich "Datenelemente" mit der rechten Maustaste auf das Dataset, und wählen Sie Szenario bearbeiten aus.
  9. Ändern Sie das Dataset, und aktualisieren Sie die Zuordnung von Modelleingabe und Datenelementen nach Bedarf.
  10. Klicken Sie auf Speichern, um die Arbeitsmappe zu speichern.