Aperçu du service de catalogue de données
Le catalogue de données est un service de gestion des métadonnées qui aide les consommateurs de données à découvrir des données et à améliorer la gouvernance dans l'écosystème Oracle.
Avec le catalogue de données OCI, les analystes de données, les scientifiques de données, les ingénieurs de données et les intendants des données ont un seul environnement en libre-service pour découvrir les données disponibles dans les sources en nuage. Le catalogue de données aide les fournisseurs de données à créer un dictionnaire de données comprenant des métadonnées techniques et d'affaires. Les consommateurs de données peuvent facilement évaluer l'adéquation des données aux projets d'analyse et de science des données.
Principales fonctionnalités du catalogue de données
- Collecter des métadonnées techniques issues d'un large éventail de sources de données prises en charge, accessibles à l'aide d'adresses IP publiques ou privées.
- Créer et gérer un vocabulaire d'entreprise commun au moyen d'un glossaire d'entreprise. Créer une hiérarchie de catégories, de sous-catégories et de termes avec des descriptions détaillées en texte enrichi.
- Enrichir les métadonnées techniques collectées avec des annotations en liant les entités de données et les attributs aux termes d'affaires, aux propriétés définies par l'utilisateur ou en ajoutant des marqueurs de format libre.
- Rechercher les informations nécessaires en explorant les ressources de données, en parcourant le catalogue de données ou en utilisant la barre de recherche rapide.
- Automatiser et gérer les tâches de collecte à l'aide de programmations.
- Intégrer les capacités de classe entreprise de votre catalogue de données à d'autres applications à l'aide des API REST et des trousses SDK.
Concepts relatifs au catalogue de données
Une compréhension des concepts suivants est essentielle pour l'utilisation du catalogue de données.
- Ressource de données
- Représente une source de données, telle qu'une base de données, un magasin d'objets, un magasin de fichiers ou de documents, une file d'attente de messages ou une application.
- Connexion
- Inclut les détails nécessaires pour établir une connexion à une source de données. Une connexion est toujours associée à une ressource de données. Une ressource de données peut avoir plusieurs connexions.
- Type de connexion
- Définit le jeu de propriétés disponibles dans une connexion pour se connecter à une ressource de données.
- Collecte
- Processus qui extrait les métadonnées techniques de vos sources de données connectées dans votre référentiel de catalogue de données.
- Objet
- Un objet du catalogue de données est un objet géré dans votre catalogue de données. Il peut s'agir de ressources de données, d'entités de données, d'attributs, de glossaires et de termes.
- Objet de données
- Le terme objet de données du catalogue de données fait référence aux ressources de données et aux entités de données.
- Entité de données
- Une entité de données est une collection de données, telle qu'une table ou une vue de base de données, ou un seul fichier logique. Une entité de données contient normalement de nombreux attributs qui décrivent ses données.
- Modèle de nom de fichier
- Un modèle de nom de fichier est une expression régulière qui est créée pour regrouper plusieurs fichiers de stockage d'objets dans une entité de données logique.
- Entité de données logique
- Une entité de données logique est un groupe de fichiers du service de stockage d'objets qui sont dérivés en créant des modèles de nom de fichier et en les affectant à une ressource de données.
- Attribut
- Un attribut décrit un élément de données doté d'un nom et d'un type de données. Par exemple, une colonne dans une table ou un champ dans un fichier.
- Propriété personnalisée
- La propriété personnalisée est créée pour enrichir les objets du catalogue de données avec le contexte d'entreprise.
- Glossaire
- Un glossaire est un ensemble de concepts d'affaires associés à votre entreprise. Un glossaire est constitué de catégories et de termes.
- Catégorie
- Une catégorie est créée dans un glossaire afin de regrouper les termes d'affaires de manière logique. Vous pouvez créer une catégorie dans une catégorie pour regrouper vos termes.
- Terme
- Les termes représentent les définitions des concepts d'affaires convenus par les différentes parties prenantes d'une société. Les termes permettent d'organiser les entités de données et attributs.
- Marqueur de catalogue de données
- Les marqueurs sont des étiquettes à structure libre ou mots clés que vous créez pour identifier logiquement des objets de données. Les marqueurs sont utiles pour la classification et la détection des métadonnées. Vous pouvez créer des marqueurs pour des ressources de données, des entités de données et des attributs. À l'aide des marqueurs, vous pouvez rechercher tous les objets de données auxquels un nom de marqueur spécifique a été associé.
- Tâche
- Tâche qui exécute le processus de collecte. Une tâche peut être créée et exécutée immédiatement, être programmée pour une exécution à une fréquence donnée, ou être créée et exécutée au besoin.
- Programmation
- Tâche automatisée pouvant être exécutée toutes les heures, tous les jours, toutes les semaines ou tous les mois.
Méthodes d'accès au catalogue de données
Accédez au catalogue de données à l'aide de la console, de l'API REST, de SDK ou de l'interface de ligne de commande.
Utilisez les options suivantes, en fonction de vos préférences et de leur adéquation pour la tâche à effectuer :
- La console est une interface basée sur un navigateur facile à utiliser. Pour obtenir la liste des navigateurs pris en charge, voir Navigateurs pris en charge.
Pour accéder à la page de connexion, utilisez le lien Console situé en haut de cette page. Vous êtes invité à entrer votre locataire Cloud, votre nom d'utilisateur et votre mot de passe.
. - Les API REST offrent le plus de fonctionnalités, mais nécessitent des connaissances en programmation. La section Informations de référence sur les API et points d'extrémité d'API fournit des détails sur les points d'extrémité et des liens vers les documents de référence sur les API.
- Oracle Cloud Infrastructure fournit des SDK qui interagissent avec le catalogue de données sans que vous ayez à créer un cadre.
- L'interface de ligne de commande (CLI) fournit un accès rapide et des fonctionnalités complètes, sans programmation.
Identificateurs de ressource
La ressource de catalogue de données possède un identificateur unique affecté par Oracle appelé ID Oracle Cloud (OCID).
Régions et domaines de disponibilité
Le catalogue de données est disponible dans toutes les régions mentionnées dans Régions et domaines de disponibilité. Les régions et domaines de disponibilité indiquent l'organisation physique et logique de vos ressources de catalogue de données. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité est un ou plusieurs centres de données à l'intérieur d'une région.
Limites et quotas
Limites de service
Le service de catalogue de données vous limite à deux instances de catalogue de données par région.
Quotas de compartiment
Vous pouvez limiter le nombre de ressources de catalogue de données dans un compartiment en créant une limite de quota. Par exemple :
set data-catalog quota catalog-count to 1 in compartment <MyCompartment>Services intégrés
Le catalogue de données est intégré à différents services et fonctions.
Le catalogue de données s'intègre à GIA pour l'authentification et l'autorisation, pour toutes les interfaces (console, trousse SDK, interface de ligne de commande et API REST).
Un administrateur de votre société doit configurer des groupes, des compartiments et des politiques qui contrôlent les utilisateurs pouvant accéder aux services et aux ressources, ainsi que le type d'accès. Par exemple, les politiques contrôlent les personnes qui peuvent créer des utilisateurs, créer et gérer le réseau en nuage, créer des instances, créer des seaux et télécharger des objets.
Si vous êtes un simple utilisateur (pas un administrateur) qui doit utiliser les ressources Oracle Cloud Infrastructure de votre société, demandez à l'administrateur de configurer un ID utilisateur pour vous. L'administrateur peut vous indiquer les compartiments que vous pouvez utiliser.
Il est possible de créer des politiques communes pour autoriser les utilisateurs du catalogue de données. Vous pouvez également créer des politiques de catalogue de données pour contrôler l'accès des utilisateurs au catalogue de données.
Le catalogue de données est intégré avec l'API des demandes de travail. Voir Demandes de travail de catalogue de données.
Le catalogue de données est intégré avec le service Événements. Voir Événements du catalogue de données.
Oracle Cloud Infrastructure Search vous permet de rechercher des ressources dans votre location sans avoir à naviguer dans différents services et compartiments. Vous pouvez rechercher le type de ressource datacatalog dans vos interrogations de recherche.
L'explorateur de location vous permet de voir toutes les ressources dont vous disposez dans un compartiment spécifique, toutes régions confondues. L'explorateur de location est basé sur le service de recherche et prend en charge le type de ressource du catalogue de données datacatalog.
Oracle Cloud Infrastructure Monitoring vous permet de surveiller vos ressources de catalogue de données de manière active et passive à l'aide des mesures et des fonctions d'alarme.
Les mesures du service de catalogue de données vous aident à mesurer :
- Le nombre d'objets stockés dans votre instance de catalogue de données.
- Le nombre d'objets collectés.
- Le temps nécessaire pour collecter les objets.
- Les erreurs détectées lors de la collecte.