Harvesting für technische Metadaten ausführen
Extrahieren Sie Datenstrukturinformationen aus den Datenquellen in das Datenkatalog-Repository.
Das Extrahieren von Datenstrukturinformationen wird als Harvesting bezeichnet.
Was ist ein Datenasset?
Um für die Datenquelle ein Harvesting auszuführen, müssen Sie die Datenquelle als Datenasset in der Data Catalog-Instanz registrieren. Ein Datenasset ist ein physischer Datenspeicher oder Datenstream, wie eine Datenbank, ein Cloud-Speichercontainer oder ein Nachrichtenstream.
Beim Harvesting eines Datenassets extrahiert, standardisiert und indexiert der Data Catalog Harvester Metadateninformationen aus dem Datenasset, um ein einheitliches und durchsuchbares Repository im Datenkatalog zu erstellen. Anschließend können Sie den Datenkatalog durchsuchen oder explorieren, um die durch Harvesting erstellten Datenentitys und Attribute anzuzeigen und die Datenassets zu annotieren und anzureichern.
Das Harvesting einer Datenquelle umfasst die folgenden Schritte:
- Geben Sie Verbindungsdetails an, um eine Verbindung zur Datenquelle herzustellen.
- Erstellen Sie ein Datenasset.
- Fügen Sie eine Verbindung für das Datenasset hinzu.
- Führen Sie Harvesting für das Datenasset aus.
Unterstützte Datenquellen für Datenassets
Mit den folgenden (über öffentliche oder private IP-Adressen zugänglichen) Datenquellen können Sie Datenassets in Data Catalog erstellen.
Dies ist eine Liste unterstützter Datenquellen, nicht zertifizierter Datenquellen.
Datenquellentyp | Version |
---|---|
Oracle Database | 12.1 |
12.2 | |
18 | |
19 | |
20 | |
21 | |
Oracle Database auf Oracle Cloud Infrastructure | 12.1 |
12.2 | |
18 | |
19 | |
Exadata-DB-Systeme | 12.1 |
12.2 | |
18 | |
19 | |
Oracle Cloud Infrastructure Object Storage | Neueste |
Autonomous Database für Analysen und Data Warehouse | 18c/19c |
Autonomous Database für Transaktionsverarbeitung und verschiedene Workloads | 18c/19c |
MySQL | 8.0.x |
OCI HeatWave-Service | 8.0.25-u3-cloud |
PostgreSQL | 10.1 |
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 und 9.0 | |
8.4, 8.3 und 8.2 | |
Apache Hive | CDH 5.4 und höher |
Apache 1.0, 2.0, 3.0 und höher | |
Microsoft SQL Server | 2019 |
2017 | |
2016 Service Pack 2 | |
2014 Service Pack 3 | |
2012 Service Pack 4 | |
IBM DB2 LUW (DB2 für Linux, UNIX und Windows) | 10.5.0.11 |
11.5.5.0 | |
IBM DB2 AS400 | 7.1 und höher |
Apache Kafka | 2.12-2.3.0 |
Microsoft Azure SQL Database | 12.00.2000 |
Sie können auch Verbindungen zu On-Premise-Datenquellen herstellen, die mit virtuellen Cloud-Netzwerken (VCNs) in Oracle Cloud Infrastructure verbunden sind.
Je nach Typ des erstellten Datenassets verwenden Sie unterschiedliche Datenstrukturen, um die Datenentitys zu durchsuchen. Beispiel: Wenn Sie ein Oracle Database-Datenasset erstellen, durchsuchen Sie Datenbankobjekte, um die Tabelle zu prüfen und Datenentitys anzuzeigen.
Wenn bei Datenassets vom Typ "Oracle-Datenbank" oder "Autonome Datenbank" die Datenbankversion Oracle Database 12c oder höher ist, führt der Datenkatalog-Harvester kein Harvesting für die von Oracle verwalteten Schemas und andere allgemeine Benutzerschemas durch.
Harvesting von Objekten für Datenquellen ausführen
Die durch Harvesting erstellten Objekte für verschiedene Datenquellen werden in der folgenden Tabelle aufgeführt:
Datenquelle | Durch Harvesting erstellte Objekte |
---|---|
Apache Hive |
|
Apache Kafka |
|
Oracle Cloud Infrastructure Object Storage |
|
OCI-Datenkatalog-Metastore |
|
Autonomes Data Warehouse |
|
Autonomous Transaction Processing | |
IBM DB2 | |
Microsoft Azure SQL Database | |
Microsoft SQL Server | |
MySQL | |
Oracle Database | |
PostgreSQL |
Unterstützte Dateitypen
Folgende Dateitypen werden für Oracle Object Storage unterstützt:
-
CSV-Dateien (
.csv
,.csv.gz
)Hinweis
Unterstützte Trennzeichen:,
(Komma),\t
(Tabulator),|
(Pipe),;
(Semikolon) -
XML-Dateien (
.xml
,.xsd
) -
AVRO-Dateien (
.avro
,.avro.gz
) -
Excel-Dateien (
.xls
,.xlsx
) -
Apache Parquet-Dateien (
.parquet
,.pq
) -
Apache ORC-Dateien (
.orc
) -
Einfache JSON-Dateien (
.json
,.json.gz
)
Wenn Sie für nicht unterstützte Dateitypen ein Harvesting ausführen, extrahiert der Data Catalog Harvester nur grundlegende Informationen aus diesen Dateien, wie Namen und Pfade.
Datenentitys und Attribute
Ein Datenasset enthält mindestens eine Datenentity. Eine Datenentity ist eine Sammlung von Daten, wie eine Datenbanktabelle oder -View oder eine einzelne logische Datei. Eine Datenentity verfügt normalerweise über viele Attribute, die ihre Daten beschreiben. Ein Attribut beschreibt ein Datenelement mit einem Namen und Datentyp.
Datenasset | Datenentitys | Attribute |
---|---|---|
Datenbank | Tabellen und Views | Spalten |
Dateicontainer | Dateien | Felder |
Datenstream | Ereignis oder Thema oder Payload | Schlüssel |