Raccolta di metadati tecnici
Estrai le informazioni sulla struttura dati dalle origini dati nel repository Data Catalog.
Il processo di estrazione delle informazioni sulla struttura dei dati è noto come raccolta.
Che cos'è un asset dati?
Per raccogliere l'origine dati, è necessario registrare l'origine dati come asset dati nell'istanza del Data Catalog. Un asset dati è qualsiasi data store fisico o flusso di dati, ad esempio un database, un contenitore di storage cloud o un flusso di messaggi.
Quando si raccoglie un asset dati, lo strumento di raccolta Data Catalog estrae, standardizza e indicizza le informazioni sui metadati dall'asset dati per creare un repository unificato e ricercabile nel Data Catalog. Sarà quindi possibile sfogliare o esplorare il Data Catalog per visualizzare le entità e gli attributi di dati raccolti per annotare e arricchire gli asset di dati.
La raccolta di un'origine dati prevede i passi riportati di seguito.
- Identificare i dettagli di connettività per connettersi all'origine dati.
- Creare un asset dati.
- Aggiungere una connessione all'asset dati.
- Raccogliere l'asset dati.
Origini dati supportate per gli asset dati
Per creare asset dati in Data Catalog, utilizzare le origini dati seguenti (accessibili mediante IP pubblici o privati).
Questa è una lista di origini dati supportate e non certificate.
| Tipo di origine dati | Versione |
|---|---|
| Oracle Database | 12,1 |
| 12,2 | |
| 18 | |
| 19 | |
| 20 | |
| 21 | |
| Oracle Database su Oracle Cloud Infrastructure | 12,1 |
| 12,2 | |
| 18 | |
| 19 | |
| Sistemi DB Exadata | 12,1 |
| 12,2 | |
| 18 | |
| 19 | |
| Oracle Cloud Infrastructure Object Storage | Più recenti |
| Autonomous AI Lakehouse | 18c/19c |
| Autonomous AI Transaction Processing | 18c/19c |
| MySQL | 8.0.x |
| Servizio MySQL HeatWave OCI | 8.0.25-u3-cloud |
| PostgreSQL | 10,1 |
| 9.6, 9.5, 9.4, 9.3, 9.2, 9.1 e 9.0 | |
| 8.4, 8.3 e 8.2 | |
| Apache Hive | CDH 5.4 e versioni successive |
| Apache 1.0, 2.0, 3.0 e versioni successive | |
| Microsoft SQL Server | 2.019 |
| 2.017 | |
| 2016 Service Pack 2 | |
| 2014 Service Pack 3 | |
| 2012 Service Pack 4 | |
| IBM DB2 LUW (DB2 per Linux, UNIX e Windows) | 10.5.0.11 |
| 11.5.5.0 | |
| IBM DB2 AS400 | 7.1 e versioni successive |
| Apache Kafka | 2,12-2,3 |
| Database Microsoft Azure SQL | 12 |
Puoi anche connetterti a origini dati on premise connesse alle reti cloud virtuali (VCN, Virtual Cloud Networks) di Oracle Cloud Infrastructure.
A seconda del tipo di asset dati creato, è possibile utilizzare strutture dati diverse per sfogliare le entità dati. Ad esempio, se si crea un asset dati di Oracle Database, è possibile esplorare gli oggetti di database per rivedere la tabella e visualizzare le entità dati.
Negli asset dati di tipo Oracle Database o Autonomous AI Database se la versione del database è Oracle Database 12c e versioni successive, Data Catalog harvester non raccoglie gli schemi gestiti da Oracle e altri schemi utente comune .
Oggetti raccolti per origini dati
Nella tabella riportata di seguito sono elencati gli oggetti raccolti per origini dati diverse.
| Origine dati | Oggetti raccolti |
|---|---|
| Apache Hive |
|
| Apache Kafka |
|
| Oracle Cloud Infrastructure Object Storage |
|
| Metastore OCI Data Catalog |
|
| Autonomous AI Lakehouse |
|
| Autonomous AI Transaction Processing | |
| IBM DB2 | |
| database Microsoft Azure SQL | |
| Microsoft SQL Server | |
| MySQL | |
| Oracle Database | |
| PostgreSQL |
Tipi di file supportati
Per lo storage degli oggetti Oracle sono supportati i tipi di file riportati di seguito.
-
File CSV (Comma-Separated Value) (
.csv,.csv.gz)Nota
I separatori supportati sono,(virgola),\t(scheda),|(barra verticale),;(punto e virgola). -
File XML (
.xml,.xsd) -
File Avro (
.avro,.avro.gz) -
File Excel (
.xls,.xlsx) -
File Apache Parquet (
.parquet,.pq) -
File ORC Apache (
.orc) -
File JSON semplici (
.json,.json.gz)
Se si sceglie di raccogliere tipi di file non supportati, la raccolta Data Catalog estrae solo le informazioni di base da tali file, ad esempio nomi e percorsi.
Entità dati e attributi
Un asset dati contiene una o più entità dati. Un'entità dati è una raccolta di dati, ad esempio una tabella o una vista di database o un singolo file logico. Un'entità dati in genere ha molti attributi che ne descrivono i dati. Un attributo descrive un elemento dati con un nome e un tipo di dati.
| Asset dati | Entità dati | Attributi |
|---|---|---|
| Database | Tabelle e viste | Colonne |
| Contenitore file | File | Campi |
| Flusso di dati | Evento, argomento o payload | Chiavi |
