Collecte de métadonnées techniques

Extrayez les informations sur la structure de données de vos sources de données vers votre référentiel Data Catalog.

Le processus d'extraction des informations de structure de données est appelé collecte.

Image illustrant le processus de collecte

Qu'est-ce qu'une ressource de données ?

Pour collecter la source de données, vous devez l'inscrire en tant que ressource de données dans votre instance de catalogue de données. Une ressource de données est une banque de données physique ou un flux de données, tel qu'une base de données, un conteneur de stockage cloud ou un flux de message.

Lors de la collecte d'une ressource de données, le collecteur Data Catalog extrait, standardise et indexe les informations sur les métadonnées à partir de la ressource de données pour créer un référentiel unifié et pouvant faire l'objet de recherches dans le catalogue de données. Ensuite, parcourez ou explorez le catalogue de données pour visualiser les attributs et entités de données collectés afin d'annoter et d'enrichir les ressources de données.

La collecte d'une source de données implique les étapes suivantes :

Identifier les détails de connectivité pour la connexion à la source de données
Créer une ressource de données
Ajouter une connexion à votre ressource de données
Collecter la ressource de données

Sources de données prises en charge pour les ressources de données

Vous pouvez utiliser les sources de données suivantes (accessibles à l'aide d'adresses IP privées ou publiques) pour créer des ressources de données dans Data Catalog.

Remarque

Il s'agit de la liste des sources de données prises en charge, et non des sources de données certifiées.


Type de source de données	Version
Oracle Database	12.1
	12.2
	18
	19
	20
	21
Oracle Database sur Oracle Cloud Infrastructure	12.1
	12.2
	18
	19
Systèmes de base de données Exadata	12.1
	12.2
	18
	19
Oracle Cloud Infrastructure Object Storage	La plus récente
Autonomous AI Lakehouse	18c/19c
Autonomous AI Transaction Processing	18c/19c
MySQL	8.0.x
Service OCI MySQL HeatWave	8.0.25-u3-cloud
PostgreSQL	10.1
	9.6, 9.5, 9.4, 9.3, 9.2, 9.1 et 9.0
	8.4, 8.3 et 8.2
Apache Hive	CDH 5.4 et versions supérieures
Apache Hive	Apache 1.0, 2.0, 3.0 et versions supérieures
Microsoft SQL Server	2019
	2017
	2016 Service Pack 2
	2014 Service Pack 3
	2012 Service Pack 4
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows)	10.5.0.11
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows)	11.5.5.0
IBM DB2 AS400	7.1 et versions supérieures
Apache Kafka	2.12-2.3.0
Microsoft Azure SQL Database	12.00.2000

Vous pouvez également vous connecter à des sources de données sur site connectées à des réseaux Cloud virtuels Oracle Cloud Infrastructure.

Selon le type de ressource de données que vous créez, vous utilisez différentes structures de données pour parcourir les entités de données. Par exemple, si vous créez une ressource de données Oracle Database, vous parcourez les objets de base de données pour vérifier la table et afficher les entités de données.

Remarque

Dans les ressources de données de type Oracle Database ou bases de données Autonomous AI si la version de base de données est Oracle Database 12c et supérieure, le collecteur Data Catalog ne collecte pas les schémas gérés par Oracle et les autres schémas d'utilisateur commun .

Objets collectés pour les sources de données

Les objets collectés pour différentes sources de données sont répertoriés dans le tableau suivant :


Source de données	Objets collectés
Apache Hive	Bases de données Hive Tables Colonnes
Apache Kafka	Rubriques Messages Attributs
Oracle Cloud Infrastructure Object Storage	Buckets Fichiers (Types de fichier : CSV, Avro, ORC, Parquet, JSON, XML, Excel) Champs (en fonction des types de fichier)
Metastore OCI Data Catalog	Catalogues Bases de données Tables Colonnes
Autonomous AI Lakehouse	Schémas Tables vues Colonnes Contraintes (clé primaire et clé étrangère) Commentaires (applicables uniquement pour Oracle Database)
Autonomous AI Transaction Processing
IBM DB2
Microsoft Azure SQL Database
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Types de fichier pris en charge

Les types de fichier suivants sont pris en charge pour Oracle Object Storage :

Fichiers CSV (valeurs séparées par une virgule) (.csv, .csv.gz)

Remarque

Les séparateurs pris en charge sont , (virgule), \t (tabulation), | (barre verticale), ; (point-virgule).
Fichiers XML (.xml, .xsd)
Fichiers Avro (.avro, .avro.gz)
Fichiers Excel (.xls, .xlsx)
Fichiers Apache Parquet (.parquet, .pq)
Fichiers Apache ORC (.orc)
Fichiers JSON simples (.json, .json.gz)

Si vous choisissez de collecter des types de fichier non pris en charge, le collecteur Data Catalog extrait uniquement les informations de base de ces fichiers, telles que les noms et les chemins.

Entités et attributs de données

Elle contient des entités de données. Une entité de données est une collection de données telle qu'une table ou une vue de base de données, ou un fichier logique unique. Une entité de données possède généralement de nombreux attributs qui décrivent ses données. Un attribut décrit un élément de données avec un nom et un type de données.


Ressource de données	Entités de données	Attributs
Base de données	Tables et vues	Colonnes
Conteneur de fichier	Fichiers	Champs
Flux de données	Evénement, sujet ou charge utile	Clés