Harvesting für technische Metadaten ausführen

Extrahieren Sie Datenstrukturinformationen aus den Datenquellen in das Datenkatalog-Repository.

Das Extrahieren von Datenstrukturinformationen wird als Harvesting bezeichnet.

Abbildung zum Harvesting-Prozess

Was ist ein Datenasset?

Um für die Datenquelle ein Harvesting auszuführen, müssen Sie die Datenquelle als Datenasset in der Data Catalog-Instanz registrieren. Ein Datenasset ist ein physischer Datenspeicher oder Datenstream, wie eine Datenbank, ein Cloud-Speichercontainer oder ein Nachrichtenstream.

Beim Harvesting eines Datenassets extrahiert, standardisiert und indexiert der Data Catalog Harvester Metadateninformationen aus dem Datenasset, um ein einheitliches und durchsuchbares Repository im Datenkatalog zu erstellen. Anschließend können Sie den Datenkatalog durchsuchen oder explorieren, um die durch Harvesting erstellten Datenentitys und Attribute anzuzeigen und die Datenassets zu annotieren und anzureichern.

Das Harvesting einer Datenquelle umfasst die folgenden Schritte:

  1. Geben Sie Verbindungsdetails an, um eine Verbindung zur Datenquelle herzustellen.
  2. Erstellen Sie ein Datenasset.
  3. Fügen Sie eine Verbindung für das Datenasset hinzu.
  4. Führen Sie Harvesting für das Datenasset aus.

Unterstützte Datenquellen für Datenassets

Mit den folgenden (über öffentliche oder private IP-Adressen zugänglichen) Datenquellen können Sie Datenassets in Data Catalog erstellen.

Hinweis

Dies ist eine Liste unterstützter Datenquellen, nicht zertifizierter Datenquellen.
Datenquellentyp Version
Oracle Database 12.1
12.2
18
19
20
21
Oracle Database auf Oracle Cloud Infrastructure 12.1
12.2
18
19
Exadata-DB-Systeme 12.1
12.2
18
19
Oracle Cloud Infrastructure Object Storage Neueste
Autonomous Database für Analysen und Data Warehouse 18c/19c
Autonomous Database für Transaktionsverarbeitung und verschiedene Workloads 18c/19c
MySQL 8.0.x
OCI HeatWave-Service 8.0.25-u3-cloud
PostgreSQL 10.1
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 und 9.0
8.4, 8.3 und 8.2
Apache Hive CDH 5.4 und höher
Apache 1.0, 2.0, 3.0 und höher
Microsoft SQL Server 2019
2017
2016 Service Pack 2
2014 Service Pack 3
2012 Service Pack 4
IBM DB2 LUW (DB2 für Linux, UNIX und Windows) 10.5.0.11
11.5.5.0
IBM DB2 AS400 7.1 und höher
Apache Kafka 2.12-2.3.0
Microsoft Azure SQL Database 12.00.2000

Sie können auch Verbindungen zu On-Premise-Datenquellen herstellen, die mit virtuellen Cloud-Netzwerken (VCNs) in Oracle Cloud Infrastructure verbunden sind.

Je nach Typ des erstellten Datenassets verwenden Sie unterschiedliche Datenstrukturen, um die Datenentitys zu durchsuchen. Beispiel: Wenn Sie ein Oracle Database-Datenasset erstellen, durchsuchen Sie Datenbankobjekte, um die Tabelle zu prüfen und Datenentitys anzuzeigen.

Hinweis

Wenn bei Datenassets vom Typ "Oracle-Datenbank" oder "Autonome Datenbank" die Datenbankversion Oracle Database 12c oder höher ist, führt der Datenkatalog-Harvester kein Harvesting für die von Oracle verwalteten Schemas und andere allgemeine Benutzerschemas durch.

Harvesting von Objekten für Datenquellen ausführen

Die durch Harvesting erstellten Objekte für verschiedene Datenquellen werden in der folgenden Tabelle aufgeführt:

Datenquelle Durch Harvesting erstellte Objekte
Apache Hive
  • Hive-Datenbanken
  • Tabellen
  • Spalten
Apache Kafka
  • Themen
  • Nachrichten
  • Attribute
Oracle Cloud Infrastructure Object Storage
  • Buckets
  • Dateien

    (Dateitypen: CSV, Avro, ORC, Parquet, JSON, XML, Excel)

  • Felder

    (basierend auf den Dateitypen)

OCI-Datenkatalog-Metastore
  • Kataloge
  • Datenbanken
  • Tabellen
  • Spalten
Autonomes Data Warehouse
  • Schemas
  • Tabellen
  • Views
  • Spalten
  • Constraints (Primär- und Fremdschlüssel)
  • Kommentare (nur für Oracle Database anwendbar)
Autonomous Transaction Processing
IBM DB2
Microsoft Azure SQL Database
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Unterstützte Dateitypen

Folgende Dateitypen werden für Oracle Object Storage unterstützt:

  • CSV-Dateien (.csv, .csv.gz)

    Hinweis

    Unterstützte Trennzeichen: , (Komma), \t (Tabulator), | (Pipe), ; (Semikolon)
  • XML-Dateien (.xml, .xsd)

  • AVRO-Dateien (.avro, .avro.gz)

  • Excel-Dateien (.xls, .xlsx)

  • Apache Parquet-Dateien (.parquet, .pq)

  • Apache ORC-Dateien (.orc)

  • Einfache JSON-Dateien (.json, .json.gz)

Wenn Sie für nicht unterstützte Dateitypen ein Harvesting ausführen, extrahiert der Data Catalog Harvester nur grundlegende Informationen aus diesen Dateien, wie Namen und Pfade.

Datenentitys und Attribute

Ein Datenasset enthält mindestens eine Datenentity. Eine Datenentity ist eine Sammlung von Daten, wie eine Datenbanktabelle oder -View oder eine einzelne logische Datei. Eine Datenentity verfügt normalerweise über viele Attribute, die ihre Daten beschreiben. Ein Attribut beschreibt ein Datenelement mit einem Namen und Datentyp.

Datenasset Datenentitys Attribute
Datenbank Tabellen und Views Spalten
Dateicontainer Dateien Felder
Datenstream Ereignis oder Thema oder Payload Schlüssel