Présentation de Data Catalog

Data Catalog est un service de gestion des métadonnées qui aide les consommateurs à découvrir des données et à améliorer la gouvernance dans l'écosystème Oracle.

Avec OCI Data Catalog, les analystes de données, les data scientists, les ingénieurs de données et les gestionnaires de données disposent d'un environnement en libre-service unique pour découvrir les données disponibles dans les sources cloud. Data Catalog aide les fournisseurs de données à créer un dictionnaire de données comprenant des métadonnées techniques et métier. Les consommateurs de données peuvent facilement évaluer l'adéquation des données pour les projets d'analyse et de data science.

Fonctions clés de Data Catalog

  • Collecter des métadonnées techniques à partir d'un large éventail de sources de données prises en charge accessibles à l'aide d'adresses IP publiques ou privées.
  • Créer et gérer un vocabulaire d'entreprise commun à l'aide d'un glossaire métier Construire une hiérarchie de catégories, de sous-catégories et de termes avec des descriptions en texte enrichi détaillées
  • Enrichir les métadonnées techniques collectées avec des annotations en liant des entités de données et des attributs aux termes métier, aux propriétés définies par l'utilisateur ou en ajoutant des balises à format libre
  • Trouver les informations dont vous avez besoin en explorant les ressources de données, en parcourant le catalogue de données ou en utilisant la barre de recherche rapide
  • Automatiser et gérer les travaux de collecte à l'aide de programmations
  • Intégrer les fonctionnalités de niveau entreprise de votre catalogue de données à d'autres applications à l'aide des API REST et des kits SDK
Conseil

Regardez une vidéo de présentation du service.

Concepts relatifs à Data Catalog

Il est essentiel de maîtriser les concepts suivants pour utiliser Data Catalog.

Ressource de données
Représente une source de données, telle qu'une base de données, une banque d'objets, une banque de fichiers ou de documents, une file d'attente de messages ou une application.
Connexion
Inclut les informations nécessaires pour établir une connexion à une source de données. Une connexion est toujours associée à une seule ressource de données. Une ressource de données peut disposer de plusieurs connexions.
Type de connexion
Définit les différents ensembles de propriétés disponibles dans une connexion pour se connecter à une ressource de données.
Collecte
Processus qui extrait les métadonnées techniques des sources de données connectées vers la référentiel de catalogue de données.
Objet
Un objet Data Catalog fait référence à tout objet géré dans le catalogue de données, comme les ressources de données, les entités de données, les attributs, les glossaires et les termes.
Objet de données
Un objet de données Data Catalog fait référence aux ressources de données et aux entités de données.
Entité de données
Une entité de données est une collection de données telle qu'une table ou une vue de base de données, ou un fichier logique unique. Une entité de données possède généralement de nombreux attributs qui décrivent ses données.
Modèle de nom de fichier
Un modèle de nom de fichier est une expression régulière créée pour regrouper plusieurs fichiers Object Storage dans une entité de données logique.
Entité de données logique
Une entité de données logique est un groupe de fichiers Object Storage dérivés par la création de modèles de nom de fichier et leur affectation à une ressource de données.
Attribut
Un attribut décrit un élément de données avec un nom et un type de données. Par exemple : colonne dans une table, champ dans un fichier.
Propriété personnalisée
Une propriété personnalisée est créée pour enrichir les objets du catalogue de données avec du contexte métier.
Glossaire
Un glossaire regroupe les concepts métier de votre société. Le glossaire est constitué de catégories et de termes métier.
Catégorie
Une catégorie est créée dans un glossaire afin de regrouper les termes métier possédant un lien logique. Vous pouvez créer une catégorie à l'intérieur d'une autre catégorie pour regrouper les termes.
Terme
Les termes définissent les concepts métier tels que convenus par les différents intervenants de la société. Vous utilisez les termes pour organiser les attributs et les entités de données.
Balise de catalogue de données
Les balises sont des mots-clés ou libellés à format libre que vous créez pour identifier logiquement des objets de données. Les balises contribuent à la classification et au repérage des métadonnées. Vous créez des balises pour les ressources de données, les entités de données et les attributs. Vous pouvez rechercher tous les objets de données balisés avec un nom de balise spécifique.
Travail
Tâche qui exécute le processus de collecte. Vous pouvez créer et exécuter un travail immédiatement, programmer son exécution à une fréquence spécifiée, ou le créer et l'exécuter en cas de besoin.
Programmation
Travail automatique pouvant être exécuté toutes les heures, tous les jours, toutes les semaines ou tous les mois.

Méthodes d'accès à Data Catalog

Accédez à Data Catalog à l'aide de la console, de l'API REST, de kits SDK ou de l'interface de ligne de commande.

Utilisez l'une des options suivantes, en fonction de vos préférences et de l'adéquation par rapport à la tâche à réaliser :

  • La console est une interface conviviale basée sur un navigateur. Pour obtenir la liste des navigateurs pris en charge, reportez-vous à la section Supported Browsers.

    Pour accéder à la page de connexion, utilisez le lien Console en haut de cette page. Vous êtes invité à saisir votre locataire cloud, votre nom utilisateur et votre mot de passe.

    .
  • Les API REST fournissent le plus de fonctionnalités, mais nécessitent une expertise en programmation. La page Référence d'API et adresses fournit des détails sur les adresses et des liens vers les documents de référence d'API disponibles.
  • Oracle Cloud Infrastructure fournit des SDK qui interagissent avec Data Catalog sans que vous ayez à créer une structure.
  • L'interface de ligne de commande offre un accès rapide et des fonctionnalités complètes sans avoir besoin de programmation.

Identificateurs de ressource

La ressource Data Catalog dispose d'un identificateur unique affecté par Oracle appelé OCID (Oracle Cloud ID).

Régions et domaines de disponibilité

Data Catalog est disponible dans toutes les régions mentionnées dans Régions et domaines de disponibilité. Les régions et domaines de disponibilité indiquent l'organisation physique et logique des ressources Data Catalog. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité désigne des centres de données situés dans une région.

Limites et quotas

Limites de service

Data Catalog vous limite à deux instances de catalogue de données par région.

Quotas de compartiment

Vous pouvez limiter le nombre de ressources de catalogue de données dans un compartiment en créant une limite de quota. Par exemple :

set data-catalog quota catalog-count to 1 in compartment <MyCompartment>

Services intégrés

Data Catalog est intégré à différents services et fonctionnalités.

IAM

Data Catalog s'intègre à IAM pour l'authentification et l'autorisation, pour toutes les interfaces (console, kit SDK, interface de ligne de commande et API REST).

Un administrateur de votre société doit configurer des groupes, des compartiments et des stratégies qui contrôlent les utilisateurs pouvant accéder à différents services et ressources, ainsi que leur type d'accès. Par exemple, les stratégies contrôlent les personnes qui peuvent créer des utilisateurs, créer et gérer le réseau cloud, créer des instances, créer des buckets et télécharger des objets.

Si vous êtes un utilisateur standard (et non un administrateur) et que vous avez besoin d'utiliser les ressources Oracle Cloud Infrastructure de votre entreprise, contactez l'administrateur afin qu'il configure un ID utilisateur pour vous. L'administrateur peut confirmer les compartiments que vous pouvez utiliser.

Vous pouvez créer des stratégies communes pour les autorisations des utilisateurs Data Catalog. Vous pouvez également créer des stratégies Data Catalog pour contrôler l'accès des utilisateurs à Data Catalog.

Demandes de travail

Data Catalog est intégré à l'API de demandes de travail commune. Reportez-vous à Demandes de travail Data Catalog.

Evénements

Data Catalog est intégré au service Events. Reportez-vous à Evénements Data Catalog.

Search

Oracle Cloud Infrastructure Search vous permet de trouver des ressources dans votre location sans avoir à naviguer entre les différents services et compartiments. Vous pouvez rechercher le type de ressource datacatalog dans vos requêtes de recherche.

Explorateur de location

L'explorateur de location permet de visualiser toutes les ressources d'un compartiment spécifique dans toutes les régions. L'explorateur de location est optimisé par le service Search et prend en charge le type de ressource Data Catalog datacatalog.

Monitoring

Oracle Cloud Infrastructure Monitoring vous permet de surveiller activement et passivement vos ressources de catalogue de données à l'aide des fonctionnalités de mesures et d'alarme.

Les mesures de Data Catalog vous aident à mesurer les éléments suivants :

  • Nombre d'objets stockés dans l'instance de catalogue de données.
  • Nombre d'objets collectés.
  • Temps requis pour collecter les objets.
  • Erreurs rencontrées lors de la collecte.