Raccolta di metadati tecnici
Estrai le informazioni sulla struttura dati dalle origini dati nel repository Data Catalog.
Il processo di estrazione delle informazioni sulla struttura dei dati è noto come raccolta.
Che cos'è un asset dati?
Per raccogliere l'origine dati, è necessario registrare l'origine dati come asset dati nell'istanza del Data Catalog. Un asset dati è qualsiasi data store fisico o flusso di dati, ad esempio un database, un contenitore di storage cloud o un flusso di messaggi.
Quando si raccoglie un asset dati, lo strumento di raccolta Data Catalog estrae, standardizza e indicizza le informazioni sui metadati dall'asset dati per creare un repository unificato e ricercabile nel Data Catalog. Sarà quindi possibile sfogliare o esplorare il Data Catalog per visualizzare le entità e gli attributi di dati raccolti per annotare e arricchire gli asset di dati.
La raccolta di un'origine dati prevede i passi riportati di seguito.
- Identificare i dettagli di connettività per connettersi all'origine dati.
- Creare un asset dati.
- Aggiungere una connessione all'asset dati.
- Raccogliere l'asset dati.
Origini dati supportate per gli asset dati
Per creare asset dati in Data Catalog, utilizzare le origini dati seguenti (accessibili mediante IP pubblici o privati).
Questa è una lista di origini dati supportate e non certificate.
Tipo di origine dati | Versione |
---|---|
Oracle Database | 12,1 |
12,2 | |
18 | |
19 | |
20 | |
21 | |
Oracle Database su Oracle Cloud Infrastructure | 12,1 |
12,2 | |
18 | |
19 | |
Sistemi DB Exadata | 12,1 |
12,2 | |
18 | |
19 | |
Oracle Cloud Infrastructure Object Storage | Più recenti |
Autonomous Database per l'analitica e il data warehouse | 18c/19c |
Autonomous Database per l'elaborazione delle transazioni e i carichi di lavoro misti | 18c/19c |
MySQL | 8.0.x |
Servizio HeatWave OCI | 8.0.25-u3-cloud |
PostgreSQL | 10,1 |
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 e 9.0 | |
8.4, 8.3 e 8.2 | |
Apache Hive | CDH 5.4 e versioni successive |
Apache 1.0, 2.0, 3.0 e versioni successive | |
Microsoft SQL Server | 2.019 |
2.017 | |
2016 Service Pack 2 | |
2014 Service Pack 3 | |
2012 Service Pack 4 | |
IBM DB2 LUW (DB2 per Linux, UNIX e Windows) | 10.5.0.11 |
11.5.5.0 | |
IBM DB2 AS400 | 7.1 e versioni successive |
Apache Kafka | 2,12-2,3 |
Database Microsoft Azure SQL | 12 |
Puoi anche connetterti a origini dati on premise connesse alle reti cloud virtuali (VCN, Virtual Cloud Networks) di Oracle Cloud Infrastructure.
A seconda del tipo di asset dati creato, è possibile utilizzare strutture dati diverse per sfogliare le entità dati. Ad esempio, se si crea un asset dati di Oracle Database, è possibile esplorare gli oggetti di database per rivedere la tabella e visualizzare le entità dati.
Negli asset dati di tipo Oracle Database o Autonomous Databases se la versione del database è Oracle Database 12c e successive, Data Catalog harvester non raccoglie gli schemi gestiti da Oracle e altri schemi di utente comune .
Oggetti raccolti per origini dati
Nella tabella riportata di seguito sono elencati gli oggetti raccolti per origini dati diverse.
Origine dati | Oggetti raccolti |
---|---|
Apache Hive |
|
Apache Kafka |
|
Oracle Cloud Infrastructure Object Storage |
|
Metastore OCI Data Catalog |
|
Autonomous Data Warehouse |
|
Autonomous Transaction Processing | |
IBM DB2 | |
database Microsoft Azure SQL | |
Microsoft SQL Server | |
MySQL | |
Oracle Database | |
PostgreSQL |
Tipi di file supportati
Per lo storage degli oggetti Oracle sono supportati i tipi di file riportati di seguito.
-
File CSV (Comma-Separated Value) (
.csv
,.csv.gz
)Nota
I separatori supportati sono,
(virgola),\t
(scheda),|
(barra verticale),;
(punto e virgola). -
File XML (
.xml
,.xsd
) -
File Avro (
.avro
,.avro.gz
) -
File Excel (
.xls
,.xlsx
) -
File Apache Parquet (
.parquet
,.pq
) -
File ORC Apache (
.orc
) -
File JSON semplici (
.json
,.json.gz
)
Se si sceglie di raccogliere tipi di file non supportati, la raccolta Data Catalog estrae solo le informazioni di base da tali file, ad esempio nomi e percorsi.
Entità dati e attributi
Un asset dati contiene una o più entità dati. Un'entità dati è una raccolta di dati, ad esempio una tabella o una vista di database o un singolo file logico. Un'entità dati in genere ha molti attributi che ne descrivono i dati. Un attributo descrive un elemento dati con un nome e un tipo di dati.
Asset dati | Entità dati | Attributi |
---|---|---|
Database | Tabelle e viste | Colonne |
Contenitore file | File | Campi |
Flusso di dati | Evento, argomento o payload | Chiavi |