Raccolta di metadati tecnici

Estrai le informazioni sulla struttura dati dalle origini dati nel repository Data Catalog.

Il processo di estrazione delle informazioni sulla struttura dei dati è noto come raccolta.

Immagine che mostra il processo di raccolta

Che cos'è un asset dati?

Per raccogliere l'origine dati, è necessario registrare l'origine dati come asset dati nell'istanza del Data Catalog. Un asset dati è qualsiasi data store fisico o flusso di dati, ad esempio un database, un contenitore di storage cloud o un flusso di messaggi.

Quando si raccoglie un asset dati, lo strumento di raccolta Data Catalog estrae, standardizza e indicizza le informazioni sui metadati dall'asset dati per creare un repository unificato e ricercabile nel Data Catalog. Sarà quindi possibile sfogliare o esplorare il Data Catalog per visualizzare le entità e gli attributi di dati raccolti per annotare e arricchire gli asset di dati.

La raccolta di un'origine dati prevede i passi riportati di seguito.

  1. Identificare i dettagli di connettività per connettersi all'origine dati.
  2. Creare un asset dati.
  3. Aggiungere una connessione all'asset dati.
  4. Raccogliere l'asset dati.

Origini dati supportate per gli asset dati

Per creare asset dati in Data Catalog, utilizzare le origini dati seguenti (accessibili mediante IP pubblici o privati).

Nota

Questa è una lista di origini dati supportate e non certificate.
Tipo di origine dati Versione
Oracle Database 12,1
12,2
18
19
20
21
Oracle Database su Oracle Cloud Infrastructure 12,1
12,2
18
19
Sistemi DB Exadata 12,1
12,2
18
19
Oracle Cloud Infrastructure Object Storage Più recenti
Autonomous Database per l'analitica e il data warehouse 18c/19c
Autonomous Database per l'elaborazione delle transazioni e i carichi di lavoro misti 18c/19c
MySQL 8.0.x
Servizio HeatWave OCI 8.0.25-u3-cloud
PostgreSQL 10,1
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 e 9.0
8.4, 8.3 e 8.2
Apache Hive CDH 5.4 e versioni successive
Apache 1.0, 2.0, 3.0 e versioni successive
Microsoft SQL Server 2.019
2.017
2016 Service Pack 2
2014 Service Pack 3
2012 Service Pack 4
IBM DB2 LUW (DB2 per Linux, UNIX e Windows) 10.5.0.11
11.5.5.0
IBM DB2 AS400 7.1 e versioni successive
Apache Kafka 2,12-2,3
Database Microsoft Azure SQL 12

Puoi anche connetterti a origini dati on premise connesse alle reti cloud virtuali (VCN, Virtual Cloud Networks) di Oracle Cloud Infrastructure.

A seconda del tipo di asset dati creato, è possibile utilizzare strutture dati diverse per sfogliare le entità dati. Ad esempio, se si crea un asset dati di Oracle Database, è possibile esplorare gli oggetti di database per rivedere la tabella e visualizzare le entità dati.

Nota

Negli asset dati di tipo Oracle Database o Autonomous Databases se la versione del database è Oracle Database 12c e successive, Data Catalog harvester non raccoglie gli schemi gestiti da Oracle e altri schemi di utente comune .

Oggetti raccolti per origini dati

Nella tabella riportata di seguito sono elencati gli oggetti raccolti per origini dati diverse.

Origine dati Oggetti raccolti
Apache Hive
  • Database Hive
  • Tabelle
  • Colonne
Apache Kafka
  • Argomenti
  • messaggi
  • Attributi
Oracle Cloud Infrastructure Object Storage
  • Bucket
  • File

    (Tipi di file: CSV, Avro, ORC, Parquet, JSON, XML, Excel)

  • Campi

    (in base ai tipi di file)

Metastore OCI Data Catalog
  • Cataloghi
  • Database
  • Tabelle
  • Colonne
Autonomous Data Warehouse
  • Schemi
  • Tabelle
  • Viste
  • Colonne
  • Vincoli (chiave primaria e chiave esterna)
  • Commenti (valido solo per Oracle Database)
Autonomous Transaction Processing
IBM DB2
database Microsoft Azure SQL
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Tipi di file supportati

Per lo storage degli oggetti Oracle sono supportati i tipi di file riportati di seguito.

  • File CSV (Comma-Separated Value) (.csv, .csv.gz)

    Nota

    I separatori supportati sono , (virgola), \t (scheda), | (barra verticale), ; (punto e virgola).
  • File XML (.xml, .xsd)

  • File Avro (.avro, .avro.gz)

  • File Excel (.xls, .xlsx)

  • File Apache Parquet (.parquet, .pq)

  • File ORC Apache (.orc)

  • File JSON semplici (.json, .json.gz)

Se si sceglie di raccogliere tipi di file non supportati, la raccolta Data Catalog estrae solo le informazioni di base da tali file, ad esempio nomi e percorsi.

Entità dati e attributi

Un asset dati contiene una o più entità dati. Un'entità dati è una raccolta di dati, ad esempio una tabella o una vista di database o un singolo file logico. Un'entità dati in genere ha molti attributi che ne descrivono i dati. Un attributo descrive un elemento dati con un nome e un tipo di dati.

Asset dati Entità dati Attributi
Database Tabelle e viste Colonne
Contenitore file File Campi
Flusso di dati Evento, argomento o payload Chiavi