Aperçu du lignage des données

Le lignage des données indique le parcours que les données suivent lorsqu'elles circulent des sources de données à la consommation. Grâce aux métadonnées, les consommateurs de données peuvent comprendre et visualiser les transformations que les données ont subies dans les pipelines de données.

Sources de données prises en charge pour le lignage

Dans le catalogue de données, le lignage est pris en charge pour les sources de données suivantes :

  • Base de données Apache Hive
  • Base de données Autonomous Data Warehouse
  • Base de données Autonomous Transaction Processing
  • IBM DB2
  • Microsoft Azure SQL Database
  • Base de données Microsoft SQL Server
  • Base de données MySQL
  • Base de données Oracle
  • Service de stockage d'objets Oracle
  • PostgreSQL

Lignage de données

Dans le catalogue de données, vous pouvez voir le lignage des entités et de leurs attributs. Par exemple, le lignage au niveau de la table et de la colonne. Le lignage est disponible pour les données traitées par les applications d'intégration de données, les applications de flux de données ou vos applications personnalisées. Chacune nécessite une configuration, comme expliqué dans les sections ci-dessous.

Lignage de données pour l'intégration de données

Pour voir le lignage dans le catalogue de données, vous devez :

Lorsque le catalogue de données extrait les informations de lignage de l'espace de travail du service d'intégration de données, il contient des informations sur les ressources de données et les tâches exécutées dans les applications. En fonction des données du lignage, s'il n'y a aucune ressource de données correspondante dans le catalogue, le catalogue de données crée cette ressource de données. Le nom de cette ressource de données est identique à celui défini dans l'espace de travail du service d'intégration de données.

Lors de l'utilisation du lignage des données, notez ce qui suit :
  • Le lignage est disponible uniquement pour les données traitées par les tâches d'intégration et de chargement de données dans l'espace de travail d'intégration de données.

  • Le lignage au niveau de la colonne n'est pas disponible pour les tâches comportant des opérateurs Aplanir, Tableau croisé dynamique et Fonction.

Lignage de données pour le service de flux de données

Pour voir le lignage de l'application dans le service de flux de données, cochez la case Activer la collecte du lignage de données dans la configuration de l'application dans l'espace de travail du service de flux de données OCI pour générer des métadonnées de lignage. Une ressource de données est automatiquement créée dans le catalogue de données pour le service de flux de données dans la même location lors de la première transmission des métadonnées de lignage vers le catalogue. Le nom de cette ressource de données a le format Flux de données OCI - <tenancy name>. Voir Politiques IAM requises pour la ressource de données du service de flux de données et Flux de données.

Pour saisir le lignage des applications exécutées dans le service de flux de données sur une location distincte, vous devez créer une ressource de données pour ce service de flux de données. Veillez à définir les politiques suivantes.

La ressource de données du service de flux de données est mise à jour à des intervalles prédéfinis lorsque le lignage est mis à jour dans le service de flux de données.

Ingestion de lignage personnalisé

Le catalogue de données vous permet d'étendre la capacité de lignage en fournissant des métadonnées de lignage pour les données traitées/transformées dans des applications que le catalogue de données ne prend pas en charge de manière native pour la collecte du lignage. Pour ce faire, utilisez l'API ImportLineage.

  • Création de ressources de données pour un fournisseur de lignage personnalisé : Vous devez créer une ressource de données pour chaque fournisseur de lignage personnalisé. Il est important de noter la clé de ressource de données de ces ressources car elles sont utilisées pour identifier le fournisseur de lignage dans l'API ImportLineage.

  • Ingestion du lignage personnalisé dans le catalogue : Vous pouvez ingérer des métadonnées de lignage dans le catalogue pour les données traitées dans des applications ou d'autres moteurs de traitement de données qui ne sont pas pris en charge de manière native pour la collecte du lignage par le service de catalogue de données OCI. L'ingestion du lignage à partir des applications Spark est prise en charge.

    L'API ImportLineage accepte les données utiles de lignage dans un format compatible avec openLineage. Pour plus de détails sur l'API, voir ImportLineage.

  • Affichage du lignage ingéré personnalisé dans un graphique de lignage : Dans le graphique de lignage d'une entité de données, les utilisateurs peuvent utiliser une bascule dans l'interface utilisateur pour mettre en surbrillance les chemins fournis par les fournisseurs de lignage personnalisé à l'aide de l'API ImportLineage.

Consultation du lignage de données pour une entité

Le lignage représente le flux de données de la source vers cette entité cible.

Note

Si une icône d'avertissement s'affiche à côté du nom d'une ressource de données nouvellement créée ou de ses dossiers et entités, vous devez créer une connexion pour collecter les dossiers et entités. Cela garantit que tous les attributs des entités sont disponibles dans le catalogue, car les métadonnées de lignage peuvent contenir uniquement des attributs qui contribuent au lignage.
    1. Dans le champ Rechercher de l'onglet Accueil, entrez le nom de l'entité.
    2. Dans la page des résultats de la recherche, sélectionnez l'entité requise.
    3. Dans la page des détails de l'entité, cliquez sur l'onglet Lignage.

    Dans le graphique de lignage, l'entité sur laquelle vous lancez le lignage est identifiée par une icône d'ancrage. L'objet d'ancrage peut apparaître n'importe où sur le graphique de lignage. Le côté gauche de cet objet d'ancrage montre le lignage et le côté droit indique l'impact.

  • Cette tâche ne peut pas être effectuée à l'aide de l'interface de ligne de commande.

  • Exécutez l'opération FetchEntityLineage pour extraire le lignage d'une entité.

Visualisation de graphique linéaire

Le graphique de lignage contient les noeuds de traitement et de données reliés par des lignes pour indiquer le flux :

  • Processus : Représente les objets de tâche d'intégration de données, les applications de flux de données ou les applications personnalisées. Lorsque vous cliquez sur un noeud de processus, vous pouvez trouver le menu Actions.

    Pour le service d'intégration de données, cliquez sur Ouvrir dans le service d'intégration de données pour voir les détails de l'exécution de la tâche du service d'intégration de données dans la console du service d'intégration de données.

    Pour les applications de flux de données, cliquez sur Ouvrir dans le service de flux de données pour voir les détails de l'application dans la console du service de flux de données. Si les applications se trouvent dans une location différente, vous devez vous connecter à la location OCI différente. Pour ce faire, copiez le lien et ouvrez-le dans une fenêtre de navigateur distincte.

    Données : Représente les objets du catalogue de données. Vous pouvez développer ces noeuds pour afficher le lignage au niveau colonne. Lorsque vous cliquez sur une icône de noeud de données, vous pouvez trouver le menu Actions. Cliquez sur Afficher le sommaire de l'objet pour voir le sommaire de l'objet de catalogue de données dans un nouvel onglet.
    Note

    Si le catalogue de données ne mappe pas correctement une ressource de données à partir du service d'intégration de données, une ressource de données en double peut se trouver dans le graphique de lignage.

Graphique de lignage dans le catalogue de données

Note

Les noeuds de lignage ne sont pas visibles dans le navigateur Safari.

Activez l'option Afficher le panneau des propriétés pour voir les détails tels que le nom, le chemin et la description d'un noeud sélectionné.

Lorsque vous ouvrez le lignage d'une entité, vous pouvez voir les éléments suivants :
  • Lignage au niveau de l'entité
  • Les colonnes, en développant l'entité
  • Lignage au niveau de la colonne d'une colonne en sélectionnant la colonne