Verwenden Sie einen Datenfluss, um eine Ähnlichkeitsanalyse auf Ihre Daten anzuwenden, mit der Sie Datensätze identifizieren können, die einem bestimmten Datensatz ähneln.
- Klicken Sie auf der Homepage auf Erstellen und dann auf Datenfluss.
- Wählen Sie unter "Daten hinzufügen" ein Dataset aus, und klicken Sie auf Hinzufügen.
Sie müssen Oracle Database oder Oracle Autonomous AI Lakehouse V23ai oder höher verwenden.
- Deaktivieren Sie in der Liste der Spalten die Spalten, die Sie nicht analysieren möchten (sie sind standardmäßig alle ausgewählt). Sie müssen eine Spalte mit einer eindeutigen ID einschließen. Es wird empfohlen, zwischen 10 und 15 Spalten auszuwählen. Die Auswahl von mehr als 15 Spalten kann sich negativ auf die Performance auswirken.
- Zeigen Sie mit der Maus auf den Dataset-Knoten, und wählen Sie Schritt hinzufügen aus. Klicken Sie dann auf Ähnlichkeitsanalyse.
- Wählen Sie das gewünschte Modell aus, und klicken Sie auf OK.
- Blenden Sie den Abschnitt Ausgaben ein, und wählen Sie Profile_expression aus.
Dadurch wird eine verkettete Ausgabespalte aller ausgewählten Daten hinzugefügt.
- Blenden Sie den Abschnitt Parameter ein.
- Konfigurieren Sie die Parameter:
- Quelle: Klicken Sie auf Wert auswählen, und wählen Sie die Datenspalte und den Wert aus, um den Datensatz, den Sie mit anderen im Dataset vergleichen möchten, eindeutig zu identifizieren. Beispiel: Sie können "ID" angeben und einen Patienten mit der ID "100002" auswählen.
- Top (größte Ähnlichkeit) oder Bottom (geringste Ähnlichkeit): Wählen Sie "Top" aus, um die ähnlichsten Datensätze zu suchen, oder "Bottom", um die am wenigsten ähnlichen Datensätze zu suchen.
- Anzahl Ergebnisse: Geben Sie die Anzahl der übereinstimmenden Datensätze an, die zurückgegeben werden sollen. Beispiel: Wählen Sie "100" aus, um die Top 100 übereinstimmenden Datensätze zu suchen, die Ihrem Zieldatensatz am nächsten sind.
- (Optional) Referenzspalte 1, 2 und 3: Geben Sie eine Spalte oder Spaltenkombination an, die eindeutig die Datensätze identifiziert, mit denen Sie den Wert unter Quelle vergleichen. Beispiel: Für medizinische Patienten können Sie "ID", "Alter" und "Medikamente" auswählen. Sie müssen keine Auswahl in Referenzspalten treffen.
- Referenzspalten für Profiling einschließen: Wählen Sie "Nein" aus, um die in Referenzspalte 1, 2 und 3 angegebenen Referenzspalten aus dem Profiling auszuschließen, oder "Ja", um sie in das Profiling einzuschließen.
- Klicken Sie neben dem Knoten Ähnlichkeitsanalyse im Diagramm auf +, klicken Sie auf Schritt hinzufügen, und wählen Sie Daten speichern aus.
- Konfigurieren Sie den Schritt "Daten speichern":
- Dataset: Ändern Sie den Standardwert in einen aussagekräftigeren Namen. Beispiel: "Ähnlichkeitsanalyse - Top 10".
- Tabelle: Ändern Sie nicht den Standardwert. Oracle Analytics erstellt bei Ausführung des Datenflusses einen neuen Wert basierend auf dem angegebenen Dataset-Namen.
- (Optional) Standardaggregation: Ändern Sie die Standardaggregation. Sie können sie beispielsweise in "Durchschnitt" ändern.
- Klicken Sie auf Modell speichern, und geben Sie den Namen des generierten Vorhersagemodells an.
- Klicken Sie auf Speichern, und geben Sie einen Namen für den Datenfluss an.
- Klicken Sie auf Ausführen, um die Daten zu analysieren und ein Vorhersagemodell zu generieren.