Datenherkunft - Überblick

Die Datenherkunft gibt die Journey an, die Daten beim Fluss von Datenquellen zum Verbrauch benötigen. Mithilfe von Metadaten können Daten-Consumer die Transformationen verstehen und visualisieren, die Daten in den Datenpipelines durchlaufen haben.

Unterstützte Datenquellen für Herkunft

In Data Catalog wird die Herkunft für die folgenden Datenquellen unterstützt:

  • Apache Hive-Datenbank
  • Autonomes Data Warehouse
  • Autonomous Transaction Processing
  • IBM DB2
  • Microsoft Azure SQL Database
  • Microsoft SQL Server Database
  • MySQL Database
  • Oracle Database
  • Oracle Object Storage
  • PostgreSQL

Datenherkunft

In Data Catalog können Sie die Herkunft für die Entitys und deren Attribute anzeigen. Beispiel: Herkunft auf Tabellen- und Spaltenebene. Die Herkunft ist für Daten verfügbar, die von Data Integration-Anwendungen, Data Flow-Anwendungen oder Ihren benutzerdefinierten Anwendungen verarbeitet werden. Jeweils eine Konfiguration ist erforderlich, wie in den folgenden Abschnitten beschrieben.

Datenherkunft für Datenintegration

Um die Herkunft im Datenkatalog anzuzeigen, gehen Sie wie folgt vor:

Wenn Data Catalog die Herkunftsinformationen aus dem Data Integration-Workspace abruft, enthält er Informationen zu Datenassets und Aufgaben, die in den Anwendungen ausgeführt werden. Wenn im Katalog kein entsprechendes Datenasset vorhanden ist, erstellt Data Catalog dieses Datenasset basierend auf den Herkunftsinformationen. Der Name dieses Datenassets entspricht dem im Data Integration-Workspace definierten Namen.

Beachten Sie bei der Arbeit mit der Datenherkunft Folgendes:
  • Die Herkunft ist nur für Daten verfügbar, die von Integrationsaufgaben und Data-Loader-Aufgaben im Data Integration-Workspace verarbeitet werden.

  • Die Herkunft auf Spaltenebene ist für Aufgaben mit Vereinfachungs-, Pivot- und Funktionsoperatoren nicht verfügbar.

Datenherkunft für Datenfluss

Um die Herkunft für die Anwendung in Data Flow anzuzeigen, aktivieren Sie das Kontrollkästchen Datenherkunftserfassung aktivieren in der Anwendungskonfiguration im OCI Data Flow-Workspace, um Herkunftsmetadaten zu generieren. Ein Datenasset wird automatisch im Data Catalog für den Data Flow-Service im selben Mandanten erstellt, wenn Metadaten der ersten Herkunft in den Katalog übertragen werden. Der Name dieses Datenassets hat das Format OCI Data Flow - <tenancy name>. Siehe Erforderliche IAM-Policys für Data Flow-Datenasset und Data Flow.

Um die Herkunft für Anwendungen zu erfassen, die in Data Flow in einem separaten Mandanten ausgeführt werden, müssen Sie ein Datenasset erstellen für diesen Data Flow-Service. Stellen Sie sicher, dass Sie die folgenden Policys festlegen.

Das Datenflussdatenasset wird in voreingestellten Intervallen aktualisiert, wenn die Herkunft in Data Flow aktualisiert wird.

Eigene Herkunft - Aufnahme

Mit Data Catalog können Sie die Herkunftsfunktion erweitern, indem Sie Herkunftsmetadaten für in Anwendungen verarbeitete/transformierte Daten bereitstellen, die Data Catalog nicht nativ für das Herkunfts-Harvesting unterstützt. Dies wird mit der ImportLineage-API erreicht.

  • Datenasset für benutzerdefinierten Herkunftsprovider erstellen: Sie müssen ein Datenasset für jeden benutzerdefinierten Herkunftsprovider erstellen. Es ist wichtig, den Datenassetschlüssel solcher Datenassets zu beachten, da sie zur Identifizierung des Herkunftsproviders in der ImportLineage-API verwendet werden.

  • Benutzerdefinierte Herkunft in den Katalog aufnehmen: Sie können Herkunftsmetadaten in den Katalog für Daten aufnehmen, die in Anwendungen oder anderen Datenverarbeitungs-Engines verarbeitet werden, die für das Herkunfts-Harvesting durch den OCI Data Catalog-Service nicht nativ unterstützt werden. Wir unterstützen die Aufnahme der Herkunft aus Spark-Anwendungen.

    Die ImportLineage-API akzeptiert die Herkunfts-Payload in einem openLineage-kompatiblen Format. Weitere Details zur API finden Sie unter ImportLineage.

  • Benutzerdefinierte aufgenommene Herkunft in einem Herkunftsdiagramm anzeigen: Im Herkunftsdiagramm einer Datenentity können Benutzer mit einem Umschalter in der UI Pfade hervorheben, die von benutzerdefinierten Herkunftsprovidern mit der API ImportLineage bereitgestellt wurden.

Datenherkunft für eine Entity anzeigen

Die Herkunft stellt den Datenfluss von der Quelle zu dieser Zielentity dar.

Hinweis

Wenn neben dem Namen eines neu erstellten Datenassets oder dessen Ordnern und Entitys ein Warnsymbol angezeigt wird, müssen Sie eine Verbindung für das Harvesting der Ordner und Entitys erstellen. Dadurch wird sichergestellt, dass alle Attribute der Entitys im Katalog verfügbar sind, da Herkunftsmetadaten möglicherweise nur Attribute enthalten, die zur Herkunft beitragen.
    1. Geben Sie im Feld Suchen der Registerkarte Home den Namen der Entity ein.
    2. Wählen Sie auf der Seite mit den Suchergebnissen die gewünschte Entity aus.
    3. Klicken Sie auf der Seite mit den Entitydetails auf die Registerkarte Linie.

    Im Herkunftsdiagramm wird das Objekt, auf dem Sie die Herkunft starten, durch ein Ankersymbol gekennzeichnet. Das Ankerobjekt kann an einer beliebigen Stelle im Liniendiagramm angezeigt werden. Die linke Seite dieses Ankerobjekts zeigt die Herkunft und die rechte Seite die Auswirkung an.

  • Diese Aufgabe kann nicht mit der CLI ausgeführt werden.

  • Führen Sie den Vorgang FetchEntityLineage aus, um die Herkunft für eine Entity abzurufen.

Herkunftsdiagrammvisualisierung

Das Herkunftsdiagramm enthält Prozessknoten und Datenknoten, die über Linien verbunden sind, um den Ablauf anzugeben:

  • Prozess: Stellt die Data Integration-Aufgabenobjekte, Data Flow-Anwendungen oder benutzerdefinierten Anwendungen dar. Wenn Sie auf einen Prozessknoten klicken, finden Sie das Menü Aktionen.

    Klicken Sie für Data Integration auf In Data Integration öffnen, um die Details der Data Integration-Aufgabe anzuzeigen, die in der Data Integration-Konsole ausgeführt wird.

    Klicken Sie für Data Flow-Anwendungen auf "In Data Flow öffnen", um die Details der Anwendung in der Data Flow-Konsole anzuzeigen. Wenn sich die Anwendungen in einem anderen Mandanten befinden, müssen Sie sich bei dem anderen OCI-Mandanten anmelden. Kopieren Sie dazu den Link und öffnen Sie ihn in einem separaten Browserfenster.

    Daten: Stellt die Data Catalog-Objekte dar. Sie können diese Knoten einblenden, um die Herkunft auf Spaltenebene anzuzeigen. Wenn Sie auf ein Datenknotensymbol klicken, finden Sie das Menü Aktionen. Klicken Sie auf Objektübersicht anzeigen, um die Übersicht des Data Catalog-Objekts auf einer neuen Registerkarte anzuzeigen.
    Hinweis

    Wenn Data Catalog ein Datenasset nicht korrekt aus Data Integration zugeordnet wird, tritt möglicherweise ein doppeltes Datenasset im Herkunftsdiagramm auf.

Herkunftsdiagramm im Datenkatalog

Hinweis

Die Herkunftsknoten werden im Safari-Browser nicht angezeigt.

Aktivieren Sie den Schalter Eigenschaftsbereich anzeigen, um Details wie Name, Pfad und Beschreibung für einen ausgewählten Knoten anzuzeigen.

Wenn Sie die Herkunft für ein Objekt öffnen, können Sie Folgendes anzeigen:
  • Die Herkunft auf Entityebene
  • Spalten durch Einblenden der Entity
  • Die Herkunft einer Spalte auf Spaltenebene durch Auswahl der Spalte