Collecte de métadonnées techniques

Extrayez les informations sur la structure de données de vos sources de données vers votre référentiel Data Catalog.

Le processus d'extraction des informations de structure de données est appelé collecte.

Image illustrant le processus de collecte

Qu'est-ce qu'une ressource de données ?

Pour collecter la source de données, vous devez l'inscrire en tant que ressource de données dans votre instance de catalogue de données. Une ressource de données est une banque de données physique ou un flux de données, tel qu'une base de données, un conteneur de stockage cloud ou un flux de message.

Lors de la collecte d'une ressource de données, le collecteur Data Catalog extrait, standardise et indexe les informations sur les métadonnées à partir de la ressource de données pour créer un référentiel unifié et pouvant faire l'objet de recherches dans le catalogue de données. Ensuite, parcourez ou explorez le catalogue de données pour visualiser les attributs et entités de données collectés afin d'annoter et d'enrichir les ressources de données.

La collecte d'une source de données implique les étapes suivantes :

  1. Identifier les détails de connectivité pour la connexion à la source de données
  2. Créer une ressource de données
  3. Ajouter une connexion à votre ressource de données
  4. Collecter la ressource de données

Sources de données prises en charge pour les ressources de données

Vous pouvez utiliser les sources de données suivantes (accessibles à l'aide d'adresses IP privées ou publiques) pour créer des ressources de données dans Data Catalog.

Remarque

Il s'agit de la liste des sources de données prises en charge, et non des sources de données certifiées.
Type de source de données Version
Oracle Database 12.1
12.2
18
19
20
21
Oracle Database sur Oracle Cloud Infrastructure 12.1
12.2
18
19
Systèmes de base de données Exadata 12.1
12.2
18
19
Oracle Cloud Infrastructure Object Storage La plus récente
Autonomous Database pour les analyses et l'entreposage de données 18c/19c
Autonomous Database pour le traitement des transactions et les workloads mixtes 18c/19c
MySQL 8.0.x
Service OCI HeatWave 8.0.25-u3-cloud
PostgreSQL 10.1
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 et 9.0
8.4, 8.3 et 8.2
Apache Hive CDH 5.4 et versions supérieures
Apache 1.0, 2.0, 3.0 et versions supérieures
Microsoft SQL Server 2019
2017
2016 Service Pack 2
2014 Service Pack 3
2012 Service Pack 4
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows) 10.5.0.11
11.5.5.0
IBM DB2 AS400 7.1 et versions supérieures
Apache Kafka 2.12-2.3.0
Microsoft Azure SQL Database 12.00.2000

Vous pouvez également vous connecter à des sources de données sur site connectées à des réseaux Cloud virtuels Oracle Cloud Infrastructure.

Selon le type de ressource de données que vous créez, vous utilisez différentes structures de données pour parcourir les entités de données. Par exemple, si vous créez une ressource de données Oracle Database, vous parcourez les objets de base de données pour vérifier la table et afficher les entités de données.

Remarque

Dans les ressources de données de type base de données Oracle ou base de données autonome présentant la version de base de données Oracle Database 12c ou une version supérieure, le collecteur Data Catalog ne collecte pas les schémas gérés par Oracle ni les autres schémas d'utilisateur commun .

Objets collectés pour les sources de données

Les objets collectés pour différentes sources de données sont répertoriés dans le tableau suivant :

Source de données Objets collectés
Apache Hive
  • Bases de données Hive
  • Tables
  • Colonnes
Apache Kafka
  • Rubriques
  • Messages
  • Attributs
Oracle Cloud Infrastructure Object Storage
  • Buckets
  • Fichiers

    (Types de fichier : CSV, Avro, ORC, Parquet, JSON, XML, Excel)

  • Champs

    (en fonction des types de fichier)

Metastore OCI Data Catalog
  • Catalogues
  • Bases de données
  • Tables
  • Colonnes
Autonomous Data Warehouse
  • Schémas
  • Tables
  • vues
  • Colonnes
  • Contraintes (clé primaire et clé étrangère)
  • Commentaires (applicables uniquement pour Oracle Database)
Autonomous Transaction Processing
IBM DB2
Microsoft Azure SQL Database
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

Types de fichier pris en charge

Les types de fichier suivants sont pris en charge pour Oracle Object Storage :

  • Fichiers CSV (valeurs séparées par une virgule) (.csv, .csv.gz)

    Remarque

    Les séparateurs pris en charge sont , (virgule), \t (tabulation), | (barre verticale), ; (point-virgule).
  • Fichiers XML (.xml, .xsd)

  • Fichiers Avro (.avro, .avro.gz)

  • Fichiers Excel (.xls, .xlsx)

  • Fichiers Apache Parquet (.parquet, .pq)

  • Fichiers Apache ORC (.orc)

  • Fichiers JSON simples (.json, .json.gz)

Si vous choisissez de collecter des types de fichier non pris en charge, le collecteur Data Catalog extrait uniquement les informations de base de ces fichiers, telles que les noms et les chemins.

Entités et attributs de données

Elle contient des entités de données. Une entité de données est une collection de données telle qu'une table ou une vue de base de données, ou un fichier logique unique. Une entité de données possède généralement de nombreux attributs qui décrivent ses données. Un attribut décrit un élément de données avec un nom et un type de données.

Ressource de données Entités de données Attributs
Base de données Tables et vues Colonnes
Conteneur de fichier Fichiers Champs
Flux de données Evénement, sujet ou charge utile Clés