11 Herkunft (Vorschau)

Die Herkunft in Oracle AI Data Platform Workbench zeigt, wie Datenartefakte über Notizbuch- und Workflowausführungen miteinander verknüpft sind. Mit dem Liniendiagramm können Sie Upstreamquellen, nachgelagerte Consumer und Ableitungen auf Spaltenebene für unterstützte Artefakte verfolgen.

Hinweis:

Herkunftsmetadaten werden aus Notizbuch- und Workflowausführungen erfasst. Für jeden Prozesslauf zeigt der Service derzeit die zuletzt erfasste Herkunft an und zeigt noch keine historische Herkunft an.

Lineage Capture ist auf Compute-Ebene als Teil der Spark-Konfiguration aktiviert oder deaktiviert. Standardmäßig ist die Herkunft in jeder von Ihnen erstellten Berechnung aktiviert. Um die Herkunft manuell zu deaktivieren, fügen Sie unter "Erweiterte Optionen" dem Spark-Konfigurationsfeld in Ihrer Compute-Instanz spark.aidp.lineage.enabled = false hinzu. Um die Herkunft erneut zu aktivieren, verwenden Sie spark.aidp.lineage.enabled = true. Diese Einstellung ist rechenspezifisch. Wenn Sie also die Herkunft in einem Compute deaktivieren, werden Workflows, die auf einem anderen Compute ausgeführt werden, bei dem die Herkunft noch aktiviert ist, weiterhin erfasst.

Sie können die Herkunft der AI Data Platform-Artefakte im Masterkatalog anzeigen, indem Sie mit der rechten Maustaste auf ein Artefakt klicken und Lineage auswählen. Sie können die Herkunft eines beliebigen Datenartefakts in AI Data Platform anzeigen, wie Tabellen und Volumes. Lineage unterstützt derzeit Tabellen als Ankerknoten, zeigt jedoch sowohl Tabellen als auch Volumes als Teil des Herkunftsdiagramms an.


Herkunftsdiagramm.

In der Herkunftsansicht wird ein Herkunftsdiagramm mit vor- und nachgelagerten Artefakten für das ausgewählte Datenartefakt angezeigt. Sie können zwischen vollständigem Diagramm, reiner Upstream-Ansicht und reiner Downstream-Ansicht wechseln.


Navigatorleiste des Herkunftsdiagramms. Downstream-, Upstream-, Liniendiagramm-, Anker- und Zoom-Dropdown-Menü werden durch roten Text angezeigt.

Sie können die Herkunft auf Spaltenebene anzeigen, um zu verfolgen, wie Spalten in einem Datenartefakt aus anderen Artefakten abgeleitet, transformiert oder in Spalten propagiert werden.

Sie können die Filter oben auf Ihrer Leinwand ausblenden, indem Sie oben links auf das Filtersymbol klicken.


Filterleiste für Herkunftsdiagramm.

Sie können Datenartefakte in Ihrem Herkunftsfluss einblenden, indem Sie unten auf der Artefaktkarte auf den Pfeil nach unten klicken. Wenn das Artefakt erweitert wird, können Sie die Upstream- und Downstream-Vererbung bestimmter Datenspalten anzeigen. Diese Funktion funktioniert nur für Artefakte, die Datenspalten wie Tabellen und Volumes enthalten.


Das Herkunftsdiagramm wird angezeigt. Der Tabellenknoten content_engagement ist ausgewählt und eingeblendet.

Bei erweiterten Artefaktkarten erweitern Sie eine Tabelle oder ein Volume, um die zugehörigen Spalten und die damit verbundenen Herkunftsbeziehungen auf Spaltenebene anzuzeigen. Sie können Datenartefakte in Ihrem Herkunftsfluss einblenden, indem Sie unten auf der Artefaktkarte auf den Pfeil nach unten klicken. Wenn das Artefakt erweitert wird, können Sie den Upstream- und Downstream-Datenfluss für bestimmte Spalten anzeigen. Diese Funktion funktioniert nur für Artefakte, die Datenspalten wie Tabellen und Volumes enthalten.

Sie können mehrere Tabellen und Volumes in Ihrem Herkunftsdiagramm erweitern, um den Datenfluss von beiden anzuzeigen. Wenn Sie das Datenartefakt einblenden, zeigen blaue Pfeile, wie Spalten in Quellartefakten über Notizbuch- oder Workflowausführungen zu Spalten in Zielartefakten beitragen. Sie markieren den Pfad einer einzelnen Spalte, indem Sie darauf doppelklicken.

Blaue Pfeile zeigen Zeilenbeziehungen auf Spaltenebene zwischen Quell- und Zielspalten an. Diese Beziehungen geben an, wie Daten über Tabellen, Volumes, Notizbücher, Aufgaben und Workflows hinweg abgeleitet, transformiert oder propagiert werden. Doppelklicken Sie auf eine Spalte, um deren Herkunftspfad im Diagramm hervorzuheben.


Das Herkunftsdiagramm wird angezeigt. Der Knoten content_engagement wird eingeblendet, und die Datenspalte engagement_date wird ausgewählt. Dunkelblaue Pfeile verbinden die Datenspalte mit Upstream- und Downstream-Knoten.

Sie können mehrere Datenspalten auswählen, indem Sie bei gedrückter Umschalt- oder Strg-Taste auf sie klicken, um mehrere Pfade hervorzuheben.

Im Menü "Aktionen" oben rechts im Fenster "Herkunft" können Sie Ihre Herkunftseinstellungen steuern, was sich auf die Tiefe der angezeigten vor- und nachgelagerten Artefakte auswirkt, oder Sie können Ihr Herkunftsdiagramm freigeben, indem Sie einen Link kopieren oder ein PNG-Bild exportieren.


Die Aktionsschaltfläche "Herkunft" wurde eingeblendet, und es werden die Optionen "Herkunftseinstellungen", "Link kopieren" und "Aktuelle Herkunft exportieren" angezeigt.

Herkunftsdetails

Wenn Sie im Herkunftsdiagramm auf ein Artefakt doppelklicken, werden Details für dieses Artefakt angezeigt. Für Aufgaben enthält die Detailseite sowohl Details für die Aufgabe als auch den Job, zu dem sie gehört. Für Tabellen und Volumes enthält die Detailseite Informationen zur Tabelle oder zum Volume und deren Spalten.

Sie können mit der rechten Maustaste auf Datenartefakte klicken, um entweder Details anzeigen oder Als Anker festlegen zu wählen. Wenn Sie das Datenartefakt als Anker festlegen, wird das aktuell angezeigte Diagramm stattdessen auf diesen Knoten zentriert.

Im oberen Bereich des Fensters "Details" werden der Artefakttyp, das zugehörige Schema und die Anzahl der Upstream- und Downstream-Artefakte angezeigt. Wenn Sie im Bereich "Beschreibung" auf den Link Asset klicken, gelangen Sie zum Artefakt in Ihrem Workspace.


Die Seite "Herkunftsdetails" für den Knoten content_engagement_clean wird angezeigt. Die Registerkarte "Details" ist ausgewählt.

Bei Datenartefakten wird im Fenster "Details" angezeigt, wann das Artefakt zuletzt aktualisiert wurde, Informationen zu Datenspalten, Format und dem Katalog, zu dem das Datenartefakt gehört. Über das Dropdown-Menü können Sie nach bestimmten Datenspalten nach Name suchen und nach Datentyp filtern.

Bei Prozessartefakten, die Aufgaben und Notizbücher umfassen, werden im Fenster "Details" Informationen zum Artefakt angezeigt, darunter der aktuelle Aufgaben- und Jobstatus, die Dauer, der Aufgabentyp, der Job- oder Notizbuchname und die ID sowie das angehängte Cluster. Im rechten Fensterbereich können Sie Quell- und Zielartefakte basierend auf dem Artefaktnamen oder über das Dropdown-Menü nach Transformationstyp filtern.

Transformationstypen

AI Data Platform Workbench unterstützt die folgenden Transformationstypen bei der Verfolgung der Herkunft:

Typ Bedeutung Beispielszenario Beispielfeldzuordnung
AGGREGATION Das Ausgabefeld wird durch Aggregieren mehrerer Eingabe-Records berechnet. Aggregattabellen oder Metriken erstellen total_sales = SUM(Betrag)
IDENTITÄT Das Ausgabefeld ist identisch mit dem Eingabefeld (keine Änderung). Datensets werden von einer Tabelle in eine andere kopiert. customer_id → customer_id
TRANSFORMATION Die Ausgabe wird aus Eingabefeldern mit Funktionen, Gips, Verkettung usw. abgeleitet. Standardisierung oder Bereinigung von Daten. full_name = CONCAT(first_name, ', last_name)

Auswirkungsanalyse

Als Ankerknoten ausgewählte Datenartefakte verfügen im Fenster "Details" über eine zusätzliche Registerkarte für die Auswirkungsanalyse. Auf der Registerkarte "Auswirkungsanalyse" können Sie nach bestimmten Artefaktnamen suchen oder nach Artefakttyp filtern. Sie können "Vorgelagert" oder "Nachgelagert" auswählen, um nur Artefakte anzuzeigen, die dem aktuell ausgewählten Artefakt vorgelagert oder nachgelagert sind.


Die Detailseite content_engagement_clean des Herkunftsknotens wird angezeigt. Die Registerkarte "Auswirkungsanalyse" ist ausgewählt.

Verwenden Sie die Upstreamauswirkungsanalyse, um Abhängigkeiten zu verstehen. Verwenden Sie die Downstreamauswirkungsanalyse, um Verbraucher zu identifizieren, die von Änderungen am ausgewählten Artefakt betroffen sein können.

Klicken Sie auf Importanalyse exportieren, um die Artefakte zu exportieren, die sich auf das ausgewählte Datenartefakt beziehen. Sie können Upstreamartefakte, Downstreamartefakte oder alle zugehörigen Artefakte exportieren.

Entitäts- und Spaltenherkunft

In einigen Herkunftsszenarios, in denen mehrere Upstream-Datasets an der Erstellung eines Zieldatensets beteiligt sind, tragen nur einige dieser Upstream-Datasets tatsächliche Spaltenwerte zum Ziel bei.

Die Hauptunterscheidung zwischen Entityherkunft und Spaltenherkunft ist die Frage, die sie beantworten:
  • Antworten auf Entityherkunft: Welche Datasets haben am Erstellen des Ziels teilgenommen?
  • Antworten auf Spaltenherkunft: Welche Quellspalten haben die Zielspaltenwerte angegeben?
Da diese Fragen unterschiedlich sind, können Entityherkunft und Spaltenherkunft für dieselbe Pipeline unterschiedlich aussehen.
Bei einigen Transformationen stellt eine Eingabe die Zeilen und Spaltenwerte bereit, die in das Ziel geschrieben werden, während eine andere Eingabe nur als Referenz für die Filterung verwendet wird. In diesen Fällen gilt:
  • In der Entityherkunft werden alle Upstream-Datasets angezeigt, von denen das Ziel abhängt.
  • Unter Spaltenherkunft kann der Ablauf auf Spaltenebene nur aus der wertgebenden Eingabe angezeigt werden.
  • Eine Referenzeingabe kann sich auf das Zielzeilenset auswirken, ohne Werte in Zielspalten aufzunehmen.
Hierbei handelt es sich um erwartetes Verhalten.

Beispiel: Entity- und Spaltenherkunft

Angenommen, zwei Quell-Datasets enthalten dieselben Spalten, aber nicht dieselben Zeilen:
  • source_table_1 enthält das primäre Dataset.
  • source_table_2 enthält eine Referenzmenge von Zeilen.
  • Die Zieltabelle wird erstellt, indem nur die Zeilen beibehalten werden, die in beiden Quelltabellen vorhanden sind.
Beispiel:

Tabelle 11-1: source_table_1

product_id sales_date Menge Gesamtbetrag
101 01.06.2025 10 150
102 02.06.2025 20 300
103 03.06.2025 15 225
104 04.06.2025 12 180

Tabelle 11-2: source_table_2

product_id sales_date Menge Gesamtbetrag
102 02.06.2025 20 300
103 03.06.2025 15 225
105 05.06.2025 18 270

Tabelle 11-3: target_table

product_id sales_date Menge Gesamtbetrag
102 02.06.2025 20 300
103 03.06.2025 15 225

In diesem Beispiel sind beide Quelltabellen an der Erstellung des Ziels beteiligt, da beide zur Bestimmung des endgültigen ZeilenSets erforderlich sind.


Die Herkunftsleinwand wird mit den Knoten source_table_1 und source_table_2 angezeigt, die mit dem instersect ipynb-Knoten verbunden sind, der mit dem Knoten target_table verbunden ist.

Aus der Perspektive einer Spaltenherkunft können die Zielspaltenwerte jedoch nur der wertgebenden Eingabe zugeordnet werden, wie source_table_1. Die zweite Eingabe, source_table_2, wird verwendet, um zu bestimmen, welche Zeilen für das Ziel in Frage kommen. Die zugehörigen Werte werden jedoch nicht unbedingt in die Zielspalten kopiert.


Lineage-Leinwand mit eingeblendeten Knoten source_table_1 und blauen Pfeilen, die Spalten mit dem instersect-Notizbuchknoten verbinden, der mit den vier von target_table geerbten Spalten verbunden ist

Aus diesen Gründen werden, wenn die Herkunftsansicht in source_table_2 verankert ist, keine Zeilenlinks auf Spaltenebene angezeigt, wie unten gezeigt.


Lineage-Leinwand, die source_table_2 als Ankerknoten und keine Zeilenverknüpfungen auf Spaltenebene an target_table anzeigt.

Warum Entityherkunft beide Eingaben anzeigt

Entityherkunft erfasst Abhängigkeiten auf Dataset-Ebene. Wenn ein Verarbeitungsjob zwei Datasets liest und das Ergebnis von beiden abhängt, sind beide Datasets legitime Upstream-Entitys. In diesem Muster:
  • Das Ziel kann ohne Quell-Dataset A nicht vollständig erklärt werden.
  • Das Ziel kann auch ohne Quelldatenset B nicht vollständig erläutert werden, da das Quelldatenset B bestimmt, welche Datensätze aus dem Quelldatenset A beibehalten werden.
  • Daher sollten sowohl das Quell-Dataset A als auch das Quell-Dataset B als vorgelagerte Entitäten für das Ziel-Dataset C angezeigt werden.
Dies ist die Abhängigkeitsherkunft, nicht die Wertherkunft.

Warum die Spaltenherkunft nur die wertgebende Eingabe anzeigt

Die Spaltenherkunft erfasst die Wertherkunft. Hier wird beschrieben, woher die Werte in jeder Zielspalte stammen.

Beispiel: Wenn die Zieltabelle mit Zeilen aus dem Quell-Dataset A geschrieben wird, nachdem Zeilen aus dem Quell-Dataset B gefiltert wurden, stammen die Zielspaltenwerte immer noch aus dem Quell-Dataset A.

Beispiel für Spaltenzuordnungen:

Zielspalte Quellspalte
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

Quell-Dataset B beeinflusst, ob eine Zeile vorhanden ist, deren Spaltenwerte jedoch nicht in das Ziel kopiert werden. Daher kann das Quelldatenset B in der Entitätsherkunft angezeigt werden, ohne dass es in der Spaltenherkunft angezeigt wird.

Datenherkunft anzeigen

Die Vererbung von Daten in Ihrem Workspace wird angezeigt, wenn sie zwischen verschiedenen Oracle AI Data Platform Workbench-Artefakten verschoben werden.

  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und dann auf Linie. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.

    Die Hauptkatalogansicht eines AI Data Platform Workbench-Workspace wird angezeigt. Eine Tabelle wurde mit der rechten Maustaste angeklickt und zeigt die Menüoptionen Freigabe und Herkunft an. Die Herkunft ist hervorgehoben.

  3. Das Herkunftsdiagramm wird angezeigt.

Herkunft für bestimmte Datenspalten anzeigen

Sie können die Herkunft einer bestimmten Datenspalte über Ihr Herkunftsdiagramm verfolgen.

  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und dann auf Linie. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Klicken Sie auf den Pfeil unten in einer Tabelle oder einem Volume-Artefakt, um es einzublenden.
  4. Doppelklicken Sie auf die Datenspalte, für die Sie die Herkunft hervorheben möchten.

Details für ein Herkunftsartefakt anzeigen

Sie können zusätzliche Details für ein Artefakt in Ihren Herkunftsdiagrammen anzeigen.

  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und dann auf Linie. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Doppelklicken Sie auf ein Artefakt im Herkunftsdiagramm, um weitere Details anzuzeigen. Sie können auch mit der rechten Maustaste klicken und auf Details anzeigen klicken.
  4. Klicken Sie auf die Registerkarte "Auswirkungsanalyse", um die vor- und nachgelagerten Auswirkungen des Artefakts anzuzeigen. Diese Registerkarte ist nur für den Ankerknoten verfügbar.

Exportauswirkungsanalyse

Sie können die Auswirkungsanalyse für Datenartefakte exportieren, während Sie die Details eines Herkunftsartefakts anzeigen.

Hinweis:

Sie können nur Auswirkungsanalysen für Datenartefakte exportieren.
  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und anschließend auf Lineage. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Doppelklicken Sie im Herkunftsdiagramm auf ein Datenartefakt. Wählen Sie die Registerkarte Auswirkungsanalyse aus.
  4. Klicken Sie auf Auswirkungsanalyse exportieren.
  5. Wählen Sie im Dropdown-Menü aus, ob Upstream-, Downstream- oder alle Artefakte einbezogen werden sollen.
  6. Klicken Sie auf Exportieren.

Linienflussdiagramm filtern

Sie können Ihr Herkunftsdiagramm filtern, um sich bei der Untersuchung der Herkunft auf spezifischere Datenpunkte zu konzentrieren.

  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und anschließend auf Lineage. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Wählen Sie in den Dropdown-Menüs bestimmte Kataloge, Schemas, Volumes oder Arbeitsbereiche aus, aus denen Ergebnisse herausgefiltert werden sollen.

Artefakte im Herkunftsflussdiagramm suchen

Sie können nach Zeichenfolgen suchen, um bestimmte Artefakte im Herkunftsdiagramm zu suchen, wenn Sie Artefaktherkunft anzeigen.

  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und anschließend auf Lineage. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Geben Sie im Feld Suchen oben im Herkunftsdiagramm die Zeichenfolge ein, nach der gesucht werden soll.
  4. Klicken Sie auf ein Ergebnis in der Liste, um das Diagramm auf dieses Artefakt zu zentrieren.

Abstammungstiefe ändern

Sie können ändern, wie viele Ebenen von vor- oder nachgelagerten Artefakten Ihr Herkunftsdiagramm anzeigt, um den Fokus Ihres Diagramms zu erweitern oder einzugrenzen.

  1. Navigieren Sie zum Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft anzeigen möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und dann auf Linie. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Klicken Sie oben rechts auf Aktionssymbol mit drei Punkten Aktionen.
  4. Klicken Sie auf Lineageeinstellungen.

    Das Aktionsmenü für drei Punkte der Herkunft wird angezeigt. Abstammungseinstellungen sind hervorgehoben.

  5. Ändern Sie die Vorgelagertiefe und die Vorgelagertiefe nach Bedarf.
  6. Klicken Sie auf Speichern.

Herkunftsflussdiagramm freigeben

Sie können das Herkunftsdiagramm freigeben, das die Herkunft eines bestimmten Objekts als direkten Link oder als PNG-Bild zeigt.

  1. Navigieren Sie zu dem Artefakt in Ihrem Masterkatalog, für das Sie die Herkunft freigeben möchten.
  2. Klicken Sie mit der rechten Maustaste in das Artefakt und anschließend auf Lineage. Sie können auch das Artefakt auswählen und oben rechts auf Aktionen klicken und dann auf Lineage klicken.
  3. Klicken Sie oben rechts auf Aktionssymbol mit drei Punkten Aktionen.

    Das Aktionsmenü für drei Punkte der Herkunft ist ausgewählt. Link kopieren und aktuelle Herkunftsansicht exportieren sind hervorgehoben.

  4. Wählen Sie aus, wie Sie Ihr Herkunftsdiagramm freigeben möchten:
    • Klicken Sie auf Link kopieren, um einen Link direkt in die Zwischenablage zu kopieren. Fügen Sie den Link ein, um ihn zu teilen.
    • Klicken Sie auf Aktuelle Herkunftsansicht (.png) exportieren, um die aktuelle Ansicht des Herkunftsdiagramms zu exportieren, einschließlich aller Filter, die Sie angewendet haben.