Collecte des métadonnées techniques

Extraire les informations sur la structure des données de vos sources de données dans votre référentiel de catalogue de données.

Le processus d'extraction des informations de structure de données est appelé collecte.

Qu'est-ce qu'une ressource de données?

Pour effectuer la collecte de votre source de données, vous devez l'enregistrer en tant que ressource de données dans votre instance de catalogue de données. Une ressource de données est un magasin de données physique ou un flux de données tel qu'une base de données, un conteneur de stockage en nuage ou un flux de messages.

Lors de la collecte d'une ressource de données, le collecteur du catalogue de données extrait, uniformise et indexe les métadonnées de la ressource de données afin de créer un référentiel unifié et interrogeable dans le catalogue de données. Vous pouvez alors parcourir ou explorer le catalogue de données pour voir les entités de données et les attributs acquis afin d'annoter et d'enrichir les ressources de données.

La collecte d'une source de données comprend les étapes suivantes :

Identifier les détails de connectivité pour se connecter à la source de données.
Créer une ressource de données.
Ajouter une connexion à la ressource de données.
Collecter la ressource de données.

Sources de données prises en charge pour les ressources de données

Utilisez les sources de données ci-dessous (accessibles à l'aide d'adresses IP publiques ou privées) pour créer des ressources de données dans le catalogue de données.

Note

Il s'agit d'une liste de sources de données prises en charge, et non de sources de données certifiées.


Type de source de données	Version
Base de données Oracle	12.1
	12.2
	18
	19
	20
	21
Oracle Database sur Oracle Cloud Infrastructure	12.1
	12.2
	18
	19
Systèmes de base de données Exadata	12.1
	12.2
	18
	19
Stockage d'objets pour Oracle Cloud Infrastructure	La plus récente
Entrepôt avec lac de données autonome optimisé par l'IA	18c/19c
Base de données Autonomous Transaction Processing optimisée par l'IA	18c/19c
Base de données MySQL	8.0.x
Service MySQL HeatWave OCI	8.0.25-u3-cloud
PostgreSQL	10.1
	9.6, 9.5, 9.4, 9.3, 9.2, 9.1 et 9.0
	8.4, 8.3 et 8.2
Apache Hive	CDH 5.4 et supérieur
Apache Hive	Apache 1.0, 2.0, 3.0 et supérieur
Microsoft SQL Server	2019
	2017
	2016 Service Pack 2
	2014 Service Pack 3
	2012 Service Pack 4
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows)	10.5.0.11
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows)	11.5.5.0
IBM DB2 AS400	Version 7.1 et supérieure
Apache Kafka	2.12-2.3.0
Microsoft Azure SQL Database	12.00.2000

Vous pouvez également vous connecter à des sources de données sur site qui sont connectées à des réseaux en nuage virtuels d'Oracle Cloud Infrastructure.

Selon le type de ressource de données que vous créez, vous pouvez utiliser différentes structures de données pour parcourir les entités de données. Par exemple, si vous créez une ressource de données Oracle Database, vous parcourez les objets de base de données pour vérifier la table et voir les entités de données.

Note

Dans les ressources de données de type Oracle Database ou Base de données d'intelligence artificielle autonome, si la version de base de données est Oracle Database 12c ou supérieure, le programme de collecte du catalogue de données ne collecte pas les schémas gérés par Oracle et les autres schémas d'utilisateur commun .

Objets collectés pour les sources de données

Les objets collectés pour différentes sources de données sont répertoriés dans le tableau suivant :


Source de données	Objets collectés
Apache Hive	Bases de données Hive Tables Colonnes
Apache Kafka	Sujets Messages Attributs
Stockage d'objets pour Oracle Cloud Infrastructure	Seaux Fichiers (Types de fichier : CSV, Avro, ORC, Parquet, JSON, XML, Excel) Champs (en fonction des types de fichiers)
Magasin de métadonnées du service de catalogue de données OCI	Catalogues Bases de données Tables Colonnes
Entrepôt avec lac de données autonome optimisé par l'IA	Schémas Tables Vues Colonnes Contraintes (clé primaire et clé étrangère) Commentaires (applicables uniquement pour Oracle Database)
Base de données Autonomous Transaction Processing optimisée par l'IA
IBM DB2
Microsoft Azure SQL Database
Microsoft SQL Server
Base de données MySQL
Base de données Oracle
PostgreSQL

Types de fichier pris en charge

Les types de fichier suivants sont pris en charge pour le service de stockage d'objets Oracle :

Fichiers CSV (valeurs séparées par des virgules) (.csv, .csv.gz)

Note

Les séparateurs pris en charge sont , (virgule), \t (tabulation), | (barre verticale), ; (point-virgule).
Fichiers XML (.xml, .xsd)
Fichiers avro (.avro, .avro.gz)
Fichiers Excel (.xls, .xlsx)
Fichiers Apache Parquet (.parquet, .pq)
Fichiers Apache ORC (.orc)
Fichiers JSON simples (.json, .json.gz)

Si vous choisissez de collecter des types de fichier non pris en charge, le collecteur du catalogue de données extrait uniquement les informations de base de ces fichiers, telles que les noms et les chemins.

Entités et attributs de données

Une ressource de données contient une ou plusieurs entités de données. Une entité de données est une collection de données, telle qu'une table ou une vue de base de données, ou un seul fichier logique. Une entité de données contient normalement de nombreux attributs qui décrivent ses données. Un attribut décrit un élément de données doté d'un nom et d'un type de données.


Ressource de données	Entités de données	Attributs
Base de données	Tables et vues	Colonnes
Conteneur de fichiers	Fichiers	Champs
Flux de données	Événement, sujet, données utiles	Clés