Collecte des métadonnées techniques
Extraire les informations sur la structure des données de vos sources de données dans votre référentiel de catalogue de données.
Le processus d'extraction des informations de structure de données est appelé collecte.
Qu'est-ce qu'une ressource de données?
Pour effectuer la collecte de votre source de données, vous devez l'enregistrer en tant que ressource de données dans votre instance de catalogue de données. Une ressource de données est un magasin de données physique ou un flux de données tel qu'une base de données, un conteneur de stockage en nuage ou un flux de messages.
Lors de la collecte d'une ressource de données, le collecteur du catalogue de données extrait, uniformise et indexe les métadonnées de la ressource de données afin de créer un référentiel unifié et interrogeable dans le catalogue de données. Vous pouvez alors parcourir ou explorer le catalogue de données pour voir les entités de données et les attributs acquis afin d'annoter et d'enrichir les ressources de données.
La collecte d'une source de données comprend les étapes suivantes :
- Identifier les détails de connectivité pour se connecter à la source de données.
- Créer une ressource de données.
- Ajouter une connexion à la ressource de données.
- Collecter la ressource de données.
Sources de données prises en charge pour les ressources de données
Utilisez les sources de données ci-dessous (accessibles à l'aide d'adresses IP publiques ou privées) pour créer des ressources de données dans le catalogue de données.
Il s'agit d'une liste de sources de données prises en charge, et non de sources de données certifiées.
Type de source de données | Version |
---|---|
Base de données Oracle | 12.1 |
12.2 | |
18 | |
19 | |
20 | |
21 | |
Oracle Database sur Oracle Cloud Infrastructure | 12.1 |
12.2 | |
18 | |
19 | |
Systèmes de base de données Exadata | 12.1 |
12.2 | |
18 | |
19 | |
Stockage d'objets pour Oracle Cloud Infrastructure | La plus récente |
Autonomous Database pour l'analyse et l'entreposage de données | 18c/19c |
Autonomous Database pour le traitement des transactions et les charges de travail mixtes | 18c/19c |
Base de données MySQL | 8.0.x |
Service OCI HeatWave | 8.0.25-u3-cloud |
PostgreSQL | 10.1 |
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 et 9.0 | |
8.4, 8.3 et 8.2 | |
Apache Hive | CDH 5.4 et supérieur |
Apache 1.0, 2.0, 3.0 et supérieur | |
Microsoft SQL Server | 2019 |
2017 | |
2016 Service Pack 2 | |
2014 Service Pack 3 | |
2012 Service Pack 4 | |
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows) | 10.5.0.11 |
11.5.5.0 | |
IBM DB2 AS400 | Version 7.1 et supérieure |
Apache Kafka | 2.12-2.3.0 |
Microsoft Azure SQL Database | 12.00.2000 |
Vous pouvez également vous connecter à des sources de données sur site qui sont connectées à des réseaux en nuage virtuels d'Oracle Cloud Infrastructure.
Selon le type de ressource de données que vous créez, vous pouvez utiliser différentes structures de données pour parcourir les entités de données. Par exemple, si vous créez une ressource de données Oracle Database, vous parcourez les objets de base de données pour vérifier la table et voir les entités de données.
Dans les ressources de données de type Oracle Database ou Base de données autonome, si la version de base de données est Oracle Database 12c ou supérieure, le programme de collecte du catalogue de données ne collecte pas les schémas gérés par Oracle et les autres schémas d'utilisateur commun .
Objets collectés pour les sources de données
Les objets collectés pour différentes sources de données sont répertoriés dans le tableau suivant :
Source de données | Objets collectés |
---|---|
Apache Hive |
|
Apache Kafka |
|
Stockage d'objets pour Oracle Cloud Infrastructure |
|
Magasin de métadonnées du service de catalogue de données OCI |
|
Base de données Autonomous Data Warehouse |
|
Base de données Autonomous Transaction Processing | |
IBM DB2 | |
Microsoft Azure SQL Database | |
Microsoft SQL Server | |
Base de données MySQL | |
Base de données Oracle | |
PostgreSQL |
Types de fichier pris en charge
Les types de fichier suivants sont pris en charge pour le service de stockage d'objets Oracle :
-
Fichiers CSV (valeurs séparées par des virgules) (
.csv
,.csv.gz
)Note
Les séparateurs pris en charge sont,
(virgule),\t
(tabulation),|
(barre verticale),;
(point-virgule). -
Fichiers XML (
.xml
,.xsd
) -
Fichiers avro (
.avro
,.avro.gz
) -
Fichiers Excel (
.xls
,.xlsx
) -
Fichiers Apache Parquet (
.parquet
,.pq
) -
Fichiers Apache ORC (
.orc
) -
Fichiers JSON simples (
.json
,.json.gz
)
Si vous choisissez de collecter des types de fichier non pris en charge, le collecteur du catalogue de données extrait uniquement les informations de base de ces fichiers, telles que les noms et les chemins.
Entités et attributs de données
Une ressource de données contient une ou plusieurs entités de données. Une entité de données est une collection de données, telle qu'une table ou une vue de base de données, ou un seul fichier logique. Une entité de données contient normalement de nombreux attributs qui décrivent ses données. Un attribut décrit un élément de données doté d'un nom et d'un type de données.
Ressource de données | Entités de données | Attributs |
---|---|---|
Base de données | Tables et vues | Colonnes |
Conteneur de fichiers | Fichiers | Champs |
Flux de données | Événement, sujet, données utiles | Clés |