Collecte de métadonnées techniques
Extrayez les informations sur la structure de données de vos sources de données vers votre référentiel Data Catalog.
Le processus d'extraction des informations de structure de données est appelé collecte.
Qu'est-ce qu'une ressource de données ?
Pour collecter la source de données, vous devez l'inscrire en tant que ressource de données dans votre instance de catalogue de données. Une ressource de données est une banque de données physique ou un flux de données, tel qu'une base de données, un conteneur de stockage cloud ou un flux de message.
Lors de la collecte d'une ressource de données, le collecteur Data Catalog extrait, standardise et indexe les informations sur les métadonnées à partir de la ressource de données pour créer un référentiel unifié et pouvant faire l'objet de recherches dans le catalogue de données. Ensuite, parcourez ou explorez le catalogue de données pour visualiser les attributs et entités de données collectés afin d'annoter et d'enrichir les ressources de données.
La collecte d'une source de données implique les étapes suivantes :
- Identifier les détails de connectivité pour la connexion à la source de données
- Créer une ressource de données
- Ajouter une connexion à votre ressource de données
- Collecter la ressource de données
Sources de données prises en charge pour les ressources de données
Vous pouvez utiliser les sources de données suivantes (accessibles à l'aide d'adresses IP privées ou publiques) pour créer des ressources de données dans Data Catalog.
Il s'agit de la liste des sources de données prises en charge, et non des sources de données certifiées.
Type de source de données | Version |
---|---|
Oracle Database | 12.1 |
12.2 | |
18 | |
19 | |
20 | |
21 | |
Oracle Database sur Oracle Cloud Infrastructure | 12.1 |
12.2 | |
18 | |
19 | |
Systèmes de base de données Exadata | 12.1 |
12.2 | |
18 | |
19 | |
Oracle Cloud Infrastructure Object Storage | La plus récente |
Autonomous Database pour les analyses et l'entreposage de données | 18c/19c |
Autonomous Database pour le traitement des transactions et les workloads mixtes | 18c/19c |
MySQL | 8.0.x |
Service OCI HeatWave | 8.0.25-u3-cloud |
PostgreSQL | 10.1 |
9.6, 9.5, 9.4, 9.3, 9.2, 9.1 et 9.0 | |
8.4, 8.3 et 8.2 | |
Apache Hive | CDH 5.4 et versions supérieures |
Apache 1.0, 2.0, 3.0 et versions supérieures | |
Microsoft SQL Server | 2019 |
2017 | |
2016 Service Pack 2 | |
2014 Service Pack 3 | |
2012 Service Pack 4 | |
IBM DB2 LUW (DB2 pour Linux, UNIX et Windows) | 10.5.0.11 |
11.5.5.0 | |
IBM DB2 AS400 | 7.1 et versions supérieures |
Apache Kafka | 2.12-2.3.0 |
Microsoft Azure SQL Database | 12.00.2000 |
Vous pouvez également vous connecter à des sources de données sur site connectées à des réseaux Cloud virtuels Oracle Cloud Infrastructure.
Selon le type de ressource de données que vous créez, vous utilisez différentes structures de données pour parcourir les entités de données. Par exemple, si vous créez une ressource de données Oracle Database, vous parcourez les objets de base de données pour vérifier la table et afficher les entités de données.
Dans les ressources de données de type base de données Oracle ou base de données autonome présentant la version de base de données Oracle Database 12c ou une version supérieure, le collecteur Data Catalog ne collecte pas les schémas gérés par Oracle ni les autres schémas d'utilisateur commun .
Objets collectés pour les sources de données
Les objets collectés pour différentes sources de données sont répertoriés dans le tableau suivant :
Source de données | Objets collectés |
---|---|
Apache Hive |
|
Apache Kafka |
|
Oracle Cloud Infrastructure Object Storage |
|
Metastore OCI Data Catalog |
|
Autonomous Data Warehouse |
|
Autonomous Transaction Processing | |
IBM DB2 | |
Microsoft Azure SQL Database | |
Microsoft SQL Server | |
MySQL | |
Oracle Database | |
PostgreSQL |
Types de fichier pris en charge
Les types de fichier suivants sont pris en charge pour Oracle Object Storage :
-
Fichiers CSV (valeurs séparées par une virgule) (
.csv
,.csv.gz
)Remarque
Les séparateurs pris en charge sont,
(virgule),\t
(tabulation),|
(barre verticale),;
(point-virgule). -
Fichiers XML (
.xml
,.xsd
) -
Fichiers Avro (
.avro
,.avro.gz
) -
Fichiers Excel (
.xls
,.xlsx
) -
Fichiers Apache Parquet (
.parquet
,.pq
) -
Fichiers Apache ORC (
.orc
) -
Fichiers JSON simples (
.json
,.json.gz
)
Si vous choisissez de collecter des types de fichier non pris en charge, le collecteur Data Catalog extrait uniquement les informations de base de ces fichiers, telles que les noms et les chemins.
Entités et attributs de données
Elle contient des entités de données. Une entité de données est une collection de données telle qu'une table ou une vue de base de données, ou un fichier logique unique. Une entité de données possède généralement de nombreux attributs qui décrivent ses données. Un attribut décrit un élément de données avec un nom et un type de données.
Ressource de données | Entités de données | Attributs |
---|---|---|
Base de données | Tables et vues | Colonnes |
Conteneur de fichier | Fichiers | Champs |
Flux de données | Evénement, sujet ou charge utile | Clés |