Harvesting für technische Metadaten ausführen

Extrahieren Sie Datenstrukturinformationen aus den Datenquellen in das Datenkatalog-Repository.

Das Extrahieren von Datenstrukturinformationen wird als Harvesting bezeichnet.

Was ist ein Datenasset?

Um für die Datenquelle ein Harvesting auszuführen, müssen Sie die Datenquelle als Datenasset in der Data Catalog-Instanz registrieren. Ein Datenasset ist ein physischer Datenspeicher oder Datenstream, wie eine Datenbank, ein Cloud-Speichercontainer oder ein Nachrichtenstream.

Beim Harvesting eines Datenassets extrahiert, standardisiert und indexiert der Data Catalog Harvester Metadateninformationen aus dem Datenasset, um ein einheitliches und durchsuchbares Repository im Datenkatalog zu erstellen. Anschließend können Sie den Datenkatalog durchsuchen oder explorieren, um die durch Harvesting erstellten Datenentitys und Attribute anzuzeigen und die Datenassets zu annotieren und anzureichern.

Das Harvesting einer Datenquelle umfasst die folgenden Schritte:

Geben Sie Verbindungsdetails an, um eine Verbindung zur Datenquelle herzustellen.
Erstellen Sie ein Datenasset.
Fügen Sie eine Verbindung für das Datenasset hinzu.
Führen Sie Harvesting für das Datenasset aus.

Unterstützte Datenquellen für Datenassets

Mit den folgenden (über öffentliche oder private IP-Adressen zugänglichen) Datenquellen können Sie Datenassets in Data Catalog erstellen.

Hinweis

Dies ist eine Liste unterstützter Datenquellen, nicht zertifizierter Datenquellen.


Datenquellentyp	Version
Oracle Database	12.1
	12.2
	18
	19
	20
	21
Oracle Database auf Oracle Cloud Infrastructure	12.1
	12.2
	18
	19
Exadata-DB-Systeme	12.1
	12.2
	18
	19
Oracle Cloud Infrastructure Object Storage	Neueste
Autonomes KI-Lakehouse	18c/19c
Autonome KI-Transaktionsverarbeitung	18c/19c
MySQL	8.0.x
OCI MySQL HeatWave-Service	8.0.25-u3-cloud
PostgreSQL	10.1
	9.6, 9.5, 9.4, 9.3, 9.2, 9.1 und 9.0
	8.4, 8.3 und 8.2
Apache Hive	CDH 5.4 und höher
Apache Hive	Apache 1.0, 2.0, 3.0 und höher
Microsoft SQL Server	2019
	2017
	2016 Service Pack 2
	2014 Service Pack 3
	2012 Service Pack 4
IBM DB2 LUW (DB2 für Linux, UNIX und Windows)	10.5.0.11
IBM DB2 LUW (DB2 für Linux, UNIX und Windows)	11.5.5.0
IBM DB2 AS400	7.1 und höher
Apache Kafka	2.12-2.3.0
Microsoft Azure SQL Database	12.00.2000

Sie können auch Verbindungen zu On-Premise-Datenquellen herstellen, die mit virtuellen Cloud-Netzwerken (VCNs) in Oracle Cloud Infrastructure verbunden sind.

Je nach Typ des erstellten Datenassets verwenden Sie unterschiedliche Datenstrukturen, um die Datenentitys zu durchsuchen. Beispiel: Wenn Sie ein Oracle Database-Datenasset erstellen, durchsuchen Sie Datenbankobjekte, um die Tabelle zu prüfen und Datenentitys anzuzeigen.

Hinweis

In Datenassets vom Typ Oracle Database oder Autonomous AI Databases, wenn die Datenbankversion Oracle Database 12c und höher ist, führt Data Catalog-Harvester kein Harvesting für die von Oracle verwalteten Schemas und andere common user -Schemas durch.

Harvesting von Objekten für Datenquellen ausführen

Die durch Harvesting erstellten Objekte für verschiedene Datenquellen werden in der folgenden Tabelle aufgeführt:


Datenquelle	Durch Harvesting erstellte Objekte
Apache Hive	Hive-Datenbanken Tabellen Spalten
Apache Kafka	Themen Nachrichten Attribute
Oracle Cloud Infrastructure Object Storage	Buckets Dateien (Dateitypen: CSV, Avro, ORC, Parquet, JSON, XML, Excel) Felder (basierend auf den Dateitypen)
OCI-Datenkatalog-Metastore	Kataloge Datenbanken Tabellen Spalten
Autonomes KI-Lakehouse	Schemas Tabellen Views Spalten Constraints (Primär- und Fremdschlüssel) Kommentare (nur für Oracle Database anwendbar)
Autonome KI-Transaktionsverarbeitung
IBM DB2
Microsoft Azure SQL Database
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Unterstützte Dateitypen

Folgende Dateitypen werden für Oracle Object Storage unterstützt:

CSV-Dateien (.csv, .csv.gz)

Hinweis

Unterstützte Trennzeichen: , (Komma), \t (Tabulator), | (Pipe), ; (Semikolon)
XML-Dateien (.xml, .xsd)
AVRO-Dateien (.avro, .avro.gz)
Excel-Dateien (.xls, .xlsx)
Apache Parquet-Dateien (.parquet, .pq)
Apache ORC-Dateien (.orc)
Einfache JSON-Dateien (.json, .json.gz)

Wenn Sie für nicht unterstützte Dateitypen ein Harvesting ausführen, extrahiert der Data Catalog Harvester nur grundlegende Informationen aus diesen Dateien, wie Namen und Pfade.

Datenentitys und Attribute

Ein Datenasset enthält mindestens eine Datenentity. Eine Datenentity ist eine Sammlung von Daten, wie eine Datenbanktabelle oder -View oder eine einzelne logische Datei. Eine Datenentity verfügt normalerweise über viele Attribute, die ihre Daten beschreiben. Ein Attribut beschreibt ein Datenelement mit einem Namen und Datentyp.


Datenasset	Datenentitys	Attribute
Datenbank	Tabellen und Views	Spalten
Dateicontainer	Dateien	Felder
Datenstream	Ereignis oder Thema oder Payload	Schlüssel