Oracle Analytics-Vorhersagemodelle nutzen mehrere eingebettete Oracle Machine Learning-Algorithmen. Damit können Sie Dataset Mining durchführen, einen Zielwert vorhersagen oder Klassen von Datensätzen identifizieren. Mit dem Datenflusseditor können Sie Vorhersagemodelle erstellen, trainieren und auf Ihre Daten anwenden.
Ein Oracle Analytics-Vorhersagemodell wendet einen bestimmten Algorithmus auf ein Dataset an, um Werte oder Klassen vorherzusagen oder Gruppen in den Daten zu identifizieren.
Sie können Daten auch mit Oracle Machine Learning-Modellen vorhersagen.
Oracle Analytics umfasst Algorithmen, mit denen Sie Vorhersagemodelle für verschiedene Zwecke trainieren können. Beispiele für Algorithmen sind Klassifizierungs- und Regressionsbäume (CART), logistische Regression und K-Means.
Zunächst trainieren Sie ein Modell mit einem Trainings-Dataset im Datenflusseditor. Nachdem das Vorhersagemodell trainiert wurde, wenden Sie es auf die vorherzusagenden Datasets an.
Sie können ein trainiertes Modell für andere Benutzer verfügbar machen, damit diese damit Werte anhand ihrer Daten vorhersagen können. In einigen Fällen trainieren bestimmte Benutzer Modelle, während andere Benutzer sie anwenden.
Hinweis:
Wenn Sie sich nicht sicher sind, wonach Sie in Ihren Daten suchen, können Sie Explain einsetzen. Damit werden über maschinelles Lernen Trends und Muster identifiziert. Anschließend können Sie im Datenflusseditor Vorhersagemodelle erstellen und trainieren, um einen Drilldown in die von Explain ermittelten Trends und Muster auszuführen.Mit dem fertiggestellten Modell können Sie unbekannte (d.h. nicht gekennzeichnete) Daten bewerten, um ein Dataset in einem Datenfluss zu generieren, oder eine Vorhersagevisualisierung zu einer Arbeitsmappe hinzufügen.
Beispiel
Beispiel: Sie möchten ein Mehrfach-Klassifizierungsmodell erstellen und trainieren, um vorherzusagen, welche Patienten ein hohes Risiko für Herzkrankheiten aufweisen.
Oracle Analytics bietet zahlreiche Algorithmen für die Modellierung mit maschinellem Lernen: numerische Vorhersage, Mehrfachklassifizierung, binäre Klassifizierung und Clustering.
Die Funktion für maschinelles Lernen von Oracle eignet sich für erfahrene Datenanalysten, die wissen, wonach sie in den Daten suchen, mit Vorhersageanalysen vertraut sind und die Unterschiede zwischen Algorithmen kennen.
Hinweis:
Wenn Sie Daten aus Oracle Autonomous Data Warehouse verwenden, können Sie mit der AutoML-Funktion schnell und einfach ein Vorhersagemodell trainieren, ohne dass Sie dafür Fachkenntnisse im Bereich maschinelles Lernen benötigen. Siehe Vorhersagemodell mit AutoML in Autonomous Data Warehouse trainieren.Normalerweise möchten Benutzer mehrere Vorhersagemodelle erstellen, diese vergleichen und das Modell auswählen, dessen Ergebnisse am ehesten ihre Kriterien und Anforderungen erfüllen. Dabei kann es sich um verschiedene Kriterien handeln. Beispiel: Manche Benutzer wählen Modelle mit einer besseren Gesamtgenauigkeit aus. Manche Benutzer wählen Modelle mit den wenigsten Fehlern vom Typ I (falsch positive Ergebnisse) und Typ II (falsch negative Ergebnisse) aus, und wieder andere wählen Modelle aus, die Ergebnisse schneller und mit einer akzeptablen Genauigkeit zurückgeben, auch wenn die Ergebnisse nicht optimal sind.
Oracle Analytics umfasst mehrere Algorithmen des maschinellen Lernens für jede Art von Vorhersage oder Klassifizierung. Mit diesen Algorithmen können Benutzer mehrere Modelle erstellen, verschiedene angepasste Parameter verwenden oder verschiedene Trainings-Datasets verwenden und das beste Modell auswählen. Bei der Auswahl des besten Modells vergleichen Benutzer Modelle mit ihren eigenen Kriterien. Zur Bestimmung des besten Modells können Benutzer das Modell anwenden und Ergebnisse der Berechnungen visualisieren, um die Genauigkeit zu bestimmen. Sie können auch die zugehörigen Datasets öffnen und explorieren, die Oracle Analytics mit dem Model ausgegeben hat.
In dieser Tabelle erhalten Sie weitere Informationen zu den bereitgestellten Algorithmen:
Name | Typ | Kategorie | Funktion | Beschreibung |
---|---|---|---|---|
CART |
Klassifizierung Regression |
Binärer Classifier Mehrklassen-Classifier Numerisch |
- | Sagt anhand von Entscheidungsbäumen sowohl diskrete als auch kontinuierliche Werte vorher.
Verwenden Sie diese Option mit großen Datasets. |
Elastisches Netz (lineare Regression) | Regression | Numerisch | ElasticNet | Erweitertes Regressionsmodell. Liefert zusätzliche Informationen (Regularisierung), wählt Variablen aus und führt lineare Kombinationen durch. Penalisierung von Lasso- und Ridge-Regressionsmethoden.
Verwenden Sie diesen Algorithmus mit einer großen Anzahl Attributen, um Kollinearität (wenn mehrere Attribute perfekt korrelieren) und Überanpassung zu vermeiden. |
Hierarchisch | Clustering | Clustering | AgglomerativeClustering | Erstellt eine Clustering-Hierarchie entweder von unten nach oben (jede Beobachtung ist ein eigenes Cluster, die dann zusammengeführt werden) oder von oben nach unten (alle Beobachtungen beginnen als ein Cluster) und mit Entfernungsmetriken.
Verwenden Sie diesen Algorithmus, wenn das Dataset nicht groß ist und Sie die Anzahl der Cluster nicht im Voraus kennen. |
K-Means | Clustering | Clustering | k-means | Datensätze werden iterativ in K-Clustern partitioniert, wobei jede Beobachtung zu dem Cluster mit dem am nächsten gelegenen Mittelwert gehört.
Verwenden Sie diesen Algorithmus zum Clustering von Metrikspalten und mit einer festgelegten erforderlichen Anzahl an Clustern. Funktioniert gut mit großen Datasets. Die Ergebnisse sehen bei jeder Ausführung anders aus. |
Lineare Regression | Regression | Numerisch | Ordinary Least Squares (Gewöhnliche Methode der kleinsten Quadrate)
Ridge Lasso |
Linearer Ansatz für eine Modellierungsbeziehung zwischen der Zielvariablen und anderen Attributen im Dataset.
Damit können Sie numerische Werte vorhersagen, wenn die Attribute nicht perfekt korrelieren. |
Logistische Regression | Regression | Binärer Classifier | LogisticRegressionCV | Damit können Sie den Wert einer kategorisch abhängigen Variablen vorhersagen. Die abhängige Variable ist eine binäre Variable mit Daten, die als 1 oder 0 codiert sind. |
Naive Bayes | Klassifizierung |
Binärer Classifier Mehrklassen-Classifier |
GaussianNB | Wahrscheinlichkeitsklassifizierung basierend auf dem Satz von Bayes, bei dem keine Abhängigkeit zwischen Features angenommen wird.
Verwenden Sie diese Option, wenn es sehr viele Eingabedimensionen gibt. |
Neuronales Netzwerk | Klassifizierung |
Binärer Classifier Mehrklassen-Classifier |
MLPClassifier | Iterativer Klassifizierungsalgorithmus, der lernt, indem das Klassifizierungsergebnis mit dem tatsächlichen Wert verglichen wird. Dieser wird an das Netzwerk zurückgegeben, um den Algorithmus für weitere Iterationen zu ändern.
Verwenden Sie diesen Algorithmus für die Textanalyse. |
Random Forest | Klassifizierung |
Binärer Classifier Mehrklassen-Classifier Numerisch |
- | Eine Ensemble-Lernmethode, die mehrere Entscheidungsbäume erstellt und den Wert ausgibt, der alle Entscheidungsbäume kollektiv repräsentiert.
Damit können Sie numerische und kategorische Variablen vorhersagen. |
SVM | Klassifizierung |
Binärer Classifier Mehrklassen-Classifier |
LinearSVC, SVC | Klassifiziert Datensätze, indem diese räumlich abgebildet werden und Hyperebenen für die Klassifizierung erstellt werden. Neue Datensätze (Scoringdaten) werden räumlich abgebildet und per Vorhersage einer Kategorie zugeordnet, basierend auf der Seite der Hyperebene, auf der sie liegen. |
Wenn Sie Daten aus Oracle Autonomous Data Warehouse verwenden, können Sie die AutoML-Funktion verwenden, um ein Vorhersagemodell zu empfehlen und zu trainieren. Mit AutoML werden Ihre Daten analysiert, der am besten geeignete Algorithmus berechnet und ein Vorhersagemodell in Oracle Analytics registriert, sodass Sie Vorhersagen zu Ihren Daten treffen können.
OML_Developer
hat und kein "Admin"-Superuser ist. Andernfalls kann der Datenfluss nicht erfolgreich gespeichert oder ausgeführt werden.Erfahrene Datenanalysten erstellen und trainieren Vorhersagemodelle, um damit Oracle Machine Learning-Algorithmen bereitzustellen. So können sie Dataset Mining durchführen, einen Zielwert vorhersagen oder Klassen von Datensätzen identifizieren. Mit dem Datenflusseditor können Sie Vorhersagemodelle erstellen, trainieren und auf Ihre Daten anwenden.
Um ein akkurates Modell zu erreichen, muss ein iterativer Prozess durchgeführt werden. Dabei kann ein erfahrener Datenanalyst verschiedene Modelle ausprobieren, deren Ergebnisse vergleichen und Parameter immer wieder anpassen. Anhand des abgeschlossenen, akkuraten Vorhersagemodells können Datenanalysten Trends in anderen Datasets vorhersagen. Sie können das Modell zudem Arbeitsmappen hinzufügen.
Hinweis:
Wenn Sie Daten aus Oracle Autonomous Data Warehouse verwenden, können Sie mit der AutoML-Funktion schnell und einfach ein Vorhersagemodell trainieren, ohne dass Sie dafür Fachkenntnisse im Bereich maschinelles Lernen benötigen. Siehe Vorhersagemodell mit AutoML in Autonomous Data Warehouse trainieren.Oracle Analytics bietet Algorithmen für numerische Vorhersage, Mehrfachklassifizierung, binäre Klassifizierung und Clustering.
Mit Oracle Analytics können Sie Modelle für maschinelles Lernen anhand von Schritten in Datenflüssen trainieren. Wenn Sie ein Modell für maschinelles Lernen trainiert haben, wenden Sie es mit dem Schritt Modell anwenden auf die Daten an.
Schrittname | Beschreibung |
---|---|
AutoML (erfordert Oracle Autonomous Data Warehouse) | Mit der AutoML-Funktion von Oracle Autonomous Data Warehouse erhalten Sie Empfehlungen zu Vorhersagemodellen und können diese trainieren. Der AutoML-Schritt analysiert Ihre Daten, berechnet den am besten geeigneten Algorithmus und registriert ein Vorhersagemodell in Oracle Analytics. |
Binären Classifier trainieren |
Trainieren Sie ein Modell für maschinelles Lernen, um Ihre Daten in zwei vordefinierte Kategorien einzuteilen. |
Clustering trainieren | Trainieren Sie ein Modell für maschinelles Lernen, um Gruppen mit ähnlichen Merkmalen in Cluster einzuteilen. |
Mehrklassen-Classifier trainieren | Trainieren Sie ein Modell für maschinelles Lernen, um Ihre Daten in drei oder mehr vordefinierte Kategorien einzuteilen. |
Numerische Vorhersage trainieren | Trainieren Sie ein Modell für maschinelles Lernen, um einen numerischen Wert basierend auf bekannten Datenwerten vorherzusagen. |
Nachdem Sie das Vorhersagemodell erstellt und den Datenfluss ausgeführt haben, können Sie Informationen zur Genauigkeit des Modells anzeigen. Anhand dieser Informationen können Sie die Modelleinstellungen iterativ anpassen, um die Genauigkeit zu verbessern und bessere Ergebnisse vorherzusagen.
Mit den Detailinformationen zu einem Vorhersagemodell können Sie das Modell besser verstehen und erkennen, ob es für das Vorhersagen Ihrer Daten geeignet ist. Zu den Modelldetails gehören Modellklasse, Algorithmus, Eingabe- und Ausgabespalten.
Zeigen Sie Informationen zur Qualität eines Vorhersagemodells an. Sie können beispielsweise Genauigkeitsmetriken wie Modellgenauigkeit, Präzision, Trefferquote, F1-Wert und Falsch-Positiv-Rate anzeigen.
Wenn Sie den Datenfluss ausführen, um das Trainingsmodell für das Oracle Analytics-Vorhersagemodell zu erstellen, legt Oracle Analytics ein Set aus zugehörigen Datasets an. Sie können Arbeitsmappen für diese Datasets öffnen und erstellen, um die Genauigkeit des Modells zu prüfen.
Je nach dem für das Modell ausgewählten Algorithmus enthalten die zugehörigen Datasets Details zum Modell wie: Vorhersageregeln, Genauigkeitsmetriken, Konfusionsmatrix und Schlüsselfaktoren für die Vorhersage. Anhand dieser Informationen können Sie das Modell optimieren, um die Ergebnisse zu verbessern. Außerdem können Sie mit zugehörigen Datasets Modelle vergleichen und das genauere Modell bestimmen.
Beispiel: Sie können das Dataset "Drivers" öffnen, um herauszufinden, welche Spalten einen starken positiven oder negativen Einfluss auf das Modell haben. Bei der Prüfung dieser Spalten stellen Sie fest, dass einige Spalten nicht als Modellvariablen behandelt werden, da sie keine realistischen Eingaben sind, oder dass sie zu granular für die Prognose sind. Sie öffnen das Modell im Datenflusseditor und entfernen je nach den ermittelten Informationen die irrelevanten oder zu granularen Spalten. Anschließend generieren Sie das Modell erneut. Sie prüfen auf den Registerkarten "Qualität" und "Ergebnisse", ob sich die Modellgenauigkeit verbessert hat. Diesen Prozess wiederholen Sie, bis Sie mit der Modellgenauigkeit zufrieden sind und das Modell zum Bewerten eines neuen Datasets eingesetzt werden kann.
Verschiedene Algorithmen generieren ähnliche zugehörige Datasets. Individuelle Parameter und Spaltennamen im Dataset können sich je nach Typ des Algorithmus ändern. Die Funktionalität des Datasets bleibt aber gleich. Beispiel: Die Spaltennamen in einem Statistik-Dataset können sich von "Lineare Regression" in "Logistische Regression" ändern, das Statistik-Dataset enthält aber Genauigkeitsmetriken des Modells.
Zugehörige Datasets für AutoML-Modelle
Wenn Sie ein Vorhersagemodell mit AutoML trainieren, erstellt Oracle Analytics zusätzliche Datasets mit nützlichen Informationen zu dem Modell. Die Anzahl der erstellten Datasets ist vom Modellalgorithmus abhängig. Beispiel: Für Naïve Bayes-Modelle erstellt Oracle Analytics ein Dataset mit Informationen zu bedingten Wahrscheinlichkeiten. Für ein Entscheidungsbaummodell bietet das Dataset Informationen zur Entscheidungsbaumstatistik. Wenn Sie ein AutoML-generiertes Modell mit dem GLM-Algorithmus (generalisiertes lineares Modell) prüfen, finden Sie Einträge mit Präfix GLM* für die modellspezifischen Datasets vor, die Metadateninformationen zum Modell enthalten.
.png
Zugehörige Datasets
Hinweis:
Oracle Analytics hängt den Ausgabenamen des Datenflusses an den zugehörigen Dataset-Typ an. Beispiel: Wenn für ein CART-Modell die Ausgabe des Datenflusses den Namen "cart_model2" hat, erhält das Dataset den Namen "cart_model2_CART".CART
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "CART" (Classification And Regression Tree, Klassifizierungs- und Regressionsbaum). Dieses enthält Spalten für die Bedingungen und deren Kriterien im Entscheidungsbaum, eine Vorhersage für jede Gruppe und die Vorhersagekonfidenz. Verwenden Sie die Baumdiagrammvisualisierung zum Visualisieren dieses Entscheidungsbaums.
Das CART-Dataset wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmus |
---|---|
Numerisch | CART für numerische Vorhersage |
Binäre Klassifizierung | CART |
Mehrfachklassifizierung | CART |
Classification Report (Klassifizierungsbericht)
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "Classification Report". Beispiel: Die Zielspalte enthält die zwei eindeutigen Werte "Ja" und "Nein". In diesem Fall zeigt dieses Dataset Genauigkeitsmetriken wie F1, Genauigkeit, Trefferquote und Unterstützung (die Anzahl an Zeilen im Trainings-Dataset mit diesem Wert) für jeden eindeutigen Wert der Zielspalte an.
Das Klassifizierungs-Dataset wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmen |
---|---|
Binäre Klassifizierung |
Naive Bayes Neuronales Netzwerk Support Vector Machine |
Mehrfachklassifizierung |
Naive Bayes Neuronales Netzwerk Support Vector Machine |
Confusion Matrix (Konfusionsmatrix)
Oracle Analytics erstellt eine Pivot-Tabelle für das zugehörige Dataset "Confusion Matrix" (auch als Fehlermatrix bezeichnet). Jede Zeile steht für eine Instanz einer vorhergesagten Klasse und jede Spalte für eine Instanz in einer tatsächlichen Klasse. Diese Tabelle enthält die Anzahl der falsch positiven Ergebnisse, falsch negativen Ergebnisse, wahren positiven Ergebnissen und wahren negativen Ergebnissen. Damit werden die Genauigkeitsmetriken für Genauigkeit, Trefferquote und F1 berechnet.
Das Dataset "Confusion Matrix" wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmen |
---|---|
Binäre Klassifizierung |
Logistische Regression CART (Entscheidungsbaum) Naive Bayes Neuronales Netzwerk Random Forest Support Vector Machine |
Mehrfachklassifizierung |
CART (Entscheidungsbaum) Naive Bayes Neuronales Netzwerk Random Forest Support Vector Machine |
Drivers (Treiber)
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "Drivers", das Informationen zu den Spalten enthält, die die Zielspaltenwerte bestimmen. Diese Spalten werden mit linearen Regressionen identifiziert. Jeder Spalte werden Koeffizienten- und Korrelationswerte zugewiesen. Der Koeffizientenwert beschreibt die Gewichtung der Spalte für die Bestimmung des Wertes der Zielspalte. Der Korrelationswert gibt die Beziehungsrichtung zwischen der Zielspalte und der abhängigen Spalte an. Beispiel: Ob der Wert der Zielspalte basierend auf der abhängigen Spalte erhöht oder verringert wird.
Das Dataset "Drivers" wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmen |
---|---|
Numerisch |
Lineare Regression Elastisches Netz (lineare Regression) |
Binäre Klassifizierung |
Logistische Regression Support Vector Machine |
Mehrfachklassifizierung | Support Vector Machine |
Hitmap
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "Hitmap", das Informationen zu den Blattknoten des Entscheidungsbaums enthält. Jede Zeile in der Tabelle steht für einen Blattknoten und enthält Informationen zu diesem Blattknoten, wie Segmentgröße, Konfidenz und erwartete Zeilenanzahl. Beispiel: Erwartete Anzahl korrekter Vorhersagen = Segmentgröße * Konfidenz.
Das Dataset "Hitmap" wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmus |
---|---|
Numerisch | CART für numerische Vorhersage |
Residuals (Residuen)
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "Residuals", das Informationen zur Qualität der Residuenvorhersagen enthält. Ein Residuum ist die Differenz zwischen dem gemessenen Wert und dem vorhergesagten Wert eines Regressionsmodells. Dieses Dataset enthält einen aggregierten Summenwert der absoluten Differenz zwischen den tatsächlichen und den vorhergesagten Werten für alle Spalten im Dataset.
Das Dataset "Residuals" wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmen |
---|---|
Zahlen |
Lineare Regression Elastisches Netz (lineare Regression) CART für numerische Vorhersage |
Binäre Klassifizierung | CART (Entscheidungsbaum) |
Mehrfachklassifizierung | CART (Entscheidungsbaum) |
Statistics (Statistiken)
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "Statistics". Die Metriken dieses Datasets hängen vom Algorithmus ab, mit dem es generiert wird. Liste der Metriken basierend auf Algorithmus:
Dieses Dataset wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmus |
---|---|
Numerisch |
Lineare Regression Elastisches Netz (lineare Regression) CART für numerische Vorhersage |
Binäre Klassifizierung |
Logistische Regression CART (Entscheidungsbaum) Naive Bayes Neuronales Netzwerk Random Forest Support Vector Machine |
Mehrfachklassifizierung |
Naive Bayes Neuronales Netzwerk Random Forest Support Vector Machine |
Summary (Übersicht)
Oracle Analytics erstellt eine Tabelle für das zugehörige Dataset "Summary", das Informationen wie Zielnamen und Modellnamen enthält.
Das Dataset "Summary" wird erstellt, wenn Sie diese Kombinationen aus Modell und Algorithmus auswählen.
Modell | Algorithmen |
---|---|
Binäre Klassifizierung |
Naive Bayes Neuronales Netzwerk Support Vector Machine |
Mehrfachklassifizierung |
Naive Bayes Neuronales Netzwerk Support Vector Machine |
Die zugehörigen Datasets werden beim Trainieren eines Vorhersagemodells generiert.
Wenn Sie ein Szenario in einer Arbeitsmappe erstellen, wenden Sie ein Vorhersagemodell auf das Dataset der Arbeitsmappe an, um die Trends und Muster aufzudecken, die das Modell finden soll.
Hinweis:
Sie können keine Oracle Machine Learning-Modelle auf die Daten einer Arbeitsmappe anwenden.