Présentation du lignage de données

Le lignage de données indique le parcours que les données suivent lorsqu'elles passent des sources de données à la consommation. Grâce aux métadonnées, les consommateurs de données peuvent comprendre et visualiser les transformations que les données ont subies dans les pipelines de données.

Sources de données prises en charge pour le lignage

Dans Data Catalog, le lignage est pris en charge pour les sources de données suivantes :

  • Base de données Apache Hive
  • Autonomous Data Warehouse
  • Autonomous Transaction Processing
  • IBM DB2
  • Microsoft Azure SQL Database
  • Base de données Microsoft SQL Server
  • MySQL Database
  • Oracle Database
  • Oracle Object Storage
  • PostgreSQL

Lignage des données

Dans Data Catalog, vous pouvez afficher le lignage des entités et de leurs attributs. Par exemple, le lignage de niveau table et colonne. Le lignage est disponible pour les données traitées par les applications Data Integration, les applications Data Flow ou vos applications personnalisées. Chacun d'eux nécessite une configuration, comme expliqué dans les sections ci-dessous.

Lignage de données pour l'intégration de données

Pour afficher le lignage dans Data Catalog, vous devez :

Lorsque Data Catalog extrait les informations de lignage de l'espace de travail Data Integration, il contient des informations sur les ressources de données et les tâches exécutées dans les applications. En fonction des informations de lignage, s'il n'existe aucune ressource de données correspondante dans le catalogue, Data Catalog crée cette ressource de données. Le nom de cette ressource de données est identique à celui défini dans l'espace de travail Data Integration.

Lors de l'utilisation du lignage de données, tenez compte des points suivants :
  • Le lignage est disponible uniquement pour les données traitées par les tâches d'intégration et les tâches de programme de chargement de données dans l'espace de travail Data Integration.

  • Le lignage de niveau colonne n'est pas disponible pour les tâches avec les opérateurs Aplatir, Pivot et Fonction.

Lignage de données pour le flux de données

Pour afficher le lignage de l'application dans Data Flow, cochez la case Activer la collecte de lignage de données dans la configuration de l'application dans l'espace de travail OCI Data Flow afin de générer des métadonnées de lignage. Une ressource de données est créée automatiquement dans Data Catalog pour le service Data Flow dans la même location lors de la première propagation des métadonnées de lignage vers le catalogue. Le nom de cette ressource de données est au format OCI Data Flow – <tenancy name>. Reportez-vous à Stratégies IAM requises pour la ressource de données Data Flow et à Data Flow.

Afin de capturer le lignage des applications exécutées dans Data Flow sur une location distincte, vous devez créer une ressource de données pour ce service Data Flow. Veillez à définir les stratégies suivantes.

La ressource de données Data Flow est mise à jour à des intervalles prédéfinis lors de la mise à jour du lignage dans Data Flow.

Ingestion de lignage personnalisé

Data Catalog vous permet d'étendre la fonctionnalité de lignage en fournissant des métadonnées de lignage pour les données traitées/transformées dans des applications que Data Catalog ne prend pas en charge nativement pour la collecte de lignage. Pour ce faire, utilisez l'API ImportLineage.

  • Création de ressource de données pour le fournisseur de lignage personnalisé : vous devez créer une ressource de données pour chaque fournisseur de lignage personnalisé. Il est important de noter la clé de ressource de données de ces ressources de données telles qu'elles sont utilisées pour identifier le fournisseur de lignage dans l'API ImportLineage.

  • Inclusion d'un lignage personnalisé dans le catalogue : vous pouvez ingérer des métadonnées de lignage dans le catalogue pour les données traitées dans des applications ou d'autres moteurs de traitement de données non pris en charge de manière native pour la collecte de lignage par le service OCI Data Catalog. Nous prenons en charge l'ingestion de lignage à partir des applications Spark.

    L'API ImportLineage accepte la charge utile de lignage dans un format compatible avec openLineage. Pour plus de détails sur l'API, reportez-vous à ImportLineage.

  • Visualisation du lignage ingéré personnalisé dans un graphique de lignage : dans le graphique de lignage d'une entité de données, les utilisateurs peuvent utiliser une bascule dans l'interface utilisateur pour mettre en évidence les chemins fournis par les fournisseurs de lignage personnalisés à l'aide de l'API ImportLineage.

Affichage du lignage de données pour une entité

Le lignage représente le flux de données de la source vers cette entité cible.

Remarque

Si une icône d'avertissement apparaît en regard du nom d'une ressource de données nouvellement créée ou de ses dossiers et entités, vous devez créer une connexion pour collecter les dossiers et entités. Cela garantit que tous les attributs des entités sont disponibles dans le catalogue car les métadonnées de lignage peuvent contenir uniquement les attributs qui contribuent au lignage.
    1. Dans le champ Rechercher de l'onglet Accueil, entrez le nom de l'entité.
    2. Dans la page des résultats de la recherche, sélectionnez l'entité requise.
    3. Sur la page de détails de l'entité, cliquez sur l'onglet Lignage.

    Dans le graphique de lignage, l'entité sur laquelle vous lancez le lignage est identifiée par une icône d'ancrage. L'objet d'ancrage peut apparaître n'importe où sur le graphique de lignage. Le côté gauche de cet objet d'ancrage affiche le lignage et le côté droit indique l'impact.

  • Cette tâche ne peut pas être effectuée à l'aide de l'interface de ligne de commande.

  • Exécutez l'opération FetchEntityLineage pour extraire le lignage d'une entité.

Visualisation de graphique linéaire

Le graphique de lignage contient les noeuds de processus et les noeuds de données connectés par des lignes pour indiquer le flux :

  • Processus : représente les objets de tâche Data Integration, les applications Data Flow ou les applications personnalisées. Lorsque vous cliquez sur un noeud de processus, vous pouvez accéder au menu Actions.

    Pour Data Integration, cliquez sur Ouvrir dans Data Integration afin de visualiser les détails de l'exécution de la tâche Data Integration dans la console Data Integration.

    Pour les applications Data Flow, cliquez sur Open dans Data Flow pour visualiser les détails de l'application dans la console Data Flow. Si les applications se trouvent dans une location différente, vous devez vous connecter à la location OCI différente. Pour ce faire, copiez le lien et ouvrez-le dans une fenêtre de navigateur distincte.

    Données : représente les objets Data Catalog. Vous pouvez développer ces noeuds pour afficher le lignage au niveau de la colonne. Lorsque vous cliquez sur une icône de noeud de données, vous pouvez accéder au menu Actions. Cliquez sur Afficher le récapitulatif de l'objet pour visualiser le récapitulatif de l'objet Data Catalog dans un nouvel onglet.
    Remarque

    Si Data Catalog ne met pas correctement en correspondance une ressource de données à partir de Data Integration, vous risquez de rencontrer une ressource de données en double dans le graphique de lignage.

Graphique linéaire dans le catalogue de données

Remarque

Les noeuds de lignage ne sont pas visibles dans le navigateur Safari.

Activez l'option Afficher le panneau de propriétés pour afficher des détails tels que le nom, le chemin et la description d'un noeud sélectionné.

Lorsque vous ouvrez le lignage d'une entité, vous pouvez afficher les éléments suivants :
  • Lignage au niveau de l'entité
  • Les colonnes, en développant l'entité
  • Lignage au niveau de la colonne d'une colonne en sélectionnant la colonne