11 Lignage (aperçu)

Le lignage dans Oracle AI Data Platform Workbench montre comment les artefacts de données sont liés via des exécutions de bloc-notes et de workflow. Le graphique de lignage vous aide à suivre les sources en amont, les consommateurs en aval et les dérivations au niveau des colonnes pour les artefacts pris en charge.

Remarques :

Les métadonnées de lignage sont capturées à partir des exécutions de bloc-notes et de workflow. Pour chaque exécution de processus, le service affiche actuellement le dernier lignage capturé et n'expose pas encore le lignage historique.

La capture de lignage est activée ou désactivée au niveau du calcul dans le cadre de la configuration Spark. Par défaut, le lignage est activé dans tous les calculs que vous créez. Pour désactiver manuellement le lignage, ajoutez spark.aidp.lineage.enabled = false au champ de configuration Spark dans le calcul, sous Options avancées. Pour réactiver le lignage, utilisez spark.aidp.lineage.enabled = true. Ce paramètre est propre au calcul, ce qui signifie que si vous désactivez le lignage dans un calcul, les workflows exécutés sur un autre calcul où le lignage est toujours activé sont toujours capturés.

Vous pouvez visualiser le lignage des artefacts AI Data Platform à partir du catalogue maître en cliquant avec le bouton droit de la souris sur un artefact et en sélectionnant Lignage. Vous pouvez visualiser le lignage de n'importe quel artefact de données dans AI Data Platform, comme les tables et les volumes. Le lignage prend actuellement en charge les tables en tant que noeuds d'ancrage, mais affiche les tables et les volumes dans le diagramme de lignage.


Diagramme de lignage.

La vue Lignage affiche un graphique de lignage avec des artefacts en amont et en aval pour l'artefact de données sélectionné. Vous pouvez basculer entre le graphique complet, la vue en amont uniquement et la vue en aval uniquement.


Barre de navigation du diagramme de lignage. En aval, en amont, le graphique de lignage, l'ancre et le menu déroulant de zoom sont indiqués par du texte rouge.

Vous pouvez afficher le lignage au niveau colonne pour tracer la manière dont les colonnes d'un artefact de données sont dérivées, transformées ou propagées vers des colonnes d'autres artefacts.

Vous pouvez masquer les filtres en haut de votre canevas en cliquant sur l'icône Filtrer en haut à gauche.


Barre de filtre du diagramme de lignage.

Pour développer des artefacts de données dans le flux de lignage, cliquez sur la flèche vers le bas en bas de la carte d'artefacts. Lorsque l'artefact se développe, vous pouvez voir l'héritage en amont et en aval de colonnes de données spécifiques. Cette fonction fonctionne uniquement pour les artefacts qui contiennent des colonnes de données, comme les tables et les volumes.


Le diagramme de lignage s'affiche. Le noeud de table content_engagement est sélectionné et développé.

Pour les cartes d'artefact développées, vous développez une table ou un volume pour afficher ses colonnes et les relations de lignage au niveau des colonnes qui leur sont connectées. Pour développer des artefacts de données dans le flux de lignage, cliquez sur la flèche vers le bas en bas de la carte d'artefacts. Lorsque l'artefact se développe, vous pouvez voir le flux de données en amont et en aval pour des colonnes spécifiques. Cette fonction fonctionne uniquement pour les artefacts qui contiennent des colonnes de données, comme les tables et les volumes.

Vous pouvez développer plusieurs tables et volumes dans votre graphique de lignage pour voir le flux de données de chacun. Lorsque vous développez l'artefact de données, les flèches bleues indiquent comment les colonnes des artefacts source contribuent aux colonnes des artefacts cible via des blocs-notes ou des exécutions de workflow. Vous mettez en surbrillance le chemin d'une colonne individuelle en double-cliquant dessus.

Les flèches bleues indiquent les relations de lignage au niveau des colonnes entre les colonnes source et cible. Ces relations indiquent comment les données sont dérivées, transformées ou propagées entre les tables, les volumes, les blocs-notes, les tâches et les workflows. Double-cliquez sur une colonne pour mettre en surbrillance son chemin de lignage dans le graphique.


Le diagramme de lignage s'affiche. Le noeud content_engagement est développé et la colonne de données engagement_date est sélectionnée. Les flèches bleu foncé connectent la colonne de données aux noeuds en amont et en aval.

Vous pouvez sélectionner plusieurs colonnes de données en maintenant la touche Maj enfoncée ou Ctrl enfoncée pour mettre en surbrillance plusieurs chemins.

Dans le menu Actions en haut à droite de la fenêtre Lignage, vous pouvez contrôler vos paramètres Lignage, ce qui affecte la profondeur des artefacts en amont et en aval affichés, ou vous pouvez partager votre diagramme de lignage, soit en copiant un lien, soit en exportant une image PNG.


Bouton Actions de lignage développé et affichant les paramètres de lignage, le lien Copier et les options d'affichage Exporter le lignage actuel.

Détails du lignage

Le fait de cliquer deux fois sur un artefact dans le diagramme de lignage affiche les détails de cet artefact. Pour les tâches, la page de détails fournit les détails de la tâche et du travail auquel elle appartient. Pour les tables et les volumes, la page de détails fournit des informations sur la table ou le volume et ses colonnes.

Vous pouvez cliquer avec le bouton droit de la souris sur les artefacts de données pour Afficher les détails ou Définir comme ancre. La définition de l'artefact de données en tant qu'ancre modifie le diagramme actuellement affiché pour qu'il soit centré sur ce noeud.

En haut de la fenêtre Détails, vous pouvez voir le type d'artefact, le schéma auquel il appartient et le nombre d'artefacts en amont et en aval. Dans le panneau Description, lorsque vous cliquez sur le lien d'actif, vous accédez à l'artefact dans votre espace de travail.


La page de détails de lignage du noeud content_engagement_clean s'affiche. L'onglet Détails est sélectionné.

Pour les artefacts de données, la fenêtre Détails affiche la date de la dernière mise à jour de l'artefact, les informations sur les colonnes de données, le format et le catalogue auquel l'artefact de données appartient. Vous pouvez rechercher des colonnes de données spécifiques par nom et filtrer par type de données à l'aide du menu déroulant.

Pour les artefacts de processus, qui incluent des tâches et des blocs-notes, la fenêtre Détails affiche des informations relatives à l'artefact, notamment le statut et la durée des tâches et des travaux les plus récents, le type de tâche, le nom et l'ID du travail ou du bloc-notes, ainsi que le cluster associé. Dans le volet de droite, vous pouvez rechercher des artefacts source et cible en fonction du nom de l'artefact ou utiliser le menu déroulant pour filtrer le type de transformation.

Types de transformation

AI Data Platform Workbench prend en charge les types de transformation suivants lors du suivi du lignage :

Type Signification Exemple de scénario Exemple de mappage de champ
AGRÉGATION Le champ de sortie est calculé en agrégeant plusieurs enregistrements d'entrée. Création de tables récapitulatives ou de mesures. total_sales = SUM(montant)
IDENTITÉ Le champ de sortie est exactement le même que le champ d'entrée (aucune modification). Copie d'un jeu de données d'une table à une autre. customer_id → customer_id
TRANSFORMATION La sortie est dérivée de champs d'entrée utilisant des fonctions, des moulages, une concaténation, etc. Standardisation ou nettoyage des données. full_name = CONCAT(first_name, ' ', last_name)

Analyse d'impact

Les artefacts de données sélectionnés en tant que noeud d'ancrage disposent d'un onglet supplémentaire dans leur fenêtre Détails pour l'analyse d'impact. Dans l'onglet Analyse d'impact, vous pouvez rechercher des noms d'artefact spécifiques ou filtrer par type d'artefact. Vous pouvez sélectionner En amont ou En aval pour afficher uniquement les artefacts qui sont en amont ou en aval de l'artefact actuellement sélectionné.


La page de détails content_engagement_clean du noeud de lignage s'affiche. L'onglet Analyse d'impact est sélectionné.

Utilisez l'analyse d'impact en amont pour comprendre les dépendances. Utilisez l'analyse d'impact en aval pour identifier les consommateurs susceptibles d'être affectés par les modifications apportées à l'artefact sélectionné.

Cliquez sur Exporter l'analyse d'import pour exporter les artefacts associés à l'artefact de données sélectionné. Vous pouvez exporter des artefacts en amont, des artefacts en aval ou tous les artefacts associés.

Lignage des entités et des colonnes

Dans certains scénarios de lignage où plusieurs jeux de données en amont participent à la production d'un jeu de données cible, seuls certains de ces jeux de données en amont apportent des valeurs de colonne réelles à la cible.

La principale distinction entre lignage d'entité et lignage de colonne est la question à laquelle ils répondent :
  • Réponses de lignage d'entité : quels jeux de données ont participé à la création de la cible ?
  • Réponses de lignage de colonne : Quelles colonnes source ont fourni les valeurs de colonne cible ?
Etant donné que ces questions sont différentes, le lignage d'entité et le lignage de colonne peuvent avoir une apparence différente pour le même pipeline.
Dans certaines transformations, une entrée fournit les lignes et les valeurs de colonne écrites dans la cible, tandis qu'une autre entrée est utilisée uniquement comme référence pour la filtration. Dans ces cas :
  • Lignage d'entité doit afficher tous les jeux de données en amont dont dépend la cible.
  • Le lignage de colonne peut afficher le flux au niveau colonne uniquement à partir de l'entrée fournissant la valeur.
  • Une entrée de référence peut affecter le jeu de lignes cible sans apporter de valeurs aux colonnes cible.
Ce comportement est attendu.

Exemple : lignage d'entité et de colonne

Supposons que deux ensembles de données source contiennent les mêmes colonnes, mais pas les mêmes lignes :
  • source_table_1 contient l'ensemble de données principal.
  • source_table_2 contient un ensemble de lignes de référence.
  • La table cible est créée en conservant uniquement les lignes qui existent dans les deux tables source.
Exemple :

Tableau 11-1 source_table_1

product_id ventes_date quantité total_montant
101 01/06/2025 10 150
102 02/06/2025 20 300
103 03/06/2025 15 225
104 04/06/2025 12 180

Tableau 11-2 source_table_2

product_id ventes_date quantité total_montant
102 02/06/2025 20 300
103 03/06/2025 15 225
105 05/06/2025 18 270

Tableau 11-3 target_table

product_id ventes_date quantité total_montant
102 02/06/2025 20 300
103 03/06/2025 15 225

Dans cet exemple, les deux tables source participent à la création de la cible car elles sont toutes deux requises pour déterminer le dernier jeu de lignes.


Le canevas de lignage s'affiche avec les noeuds source_table_1 et source_table_2 connectés au noeud ipynb instersect qui est connecté au noeud target_table.

Toutefois, du point de vue du lignage des colonnes, les valeurs de colonne cible ne peuvent être attribuées qu'à l'entrée fournissant la valeur, telle que source_table_1. La deuxième entrée, source_table_2, permet de déterminer les lignes qui répondent aux critères de la cible, mais ses valeurs ne sont pas nécessairement copiées dans les colonnes cible.


Canevas de lignage avec noeud source_table_1 développé et flèches bleues reliant les colonnes au noeud de bloc-notes instersect, qui est connecté aux quatre colonnes héritées par target_table

Pour ces raisons, lorsque la vue de lignage est ancrée sur source_table_2, aucun lien de lignage au niveau de la colonne n'est affiché, comme indiqué ci-dessous.


Canevas de lignage indiquant source_table_2 comme noeud d'ancrage et aucun lien de lignage au niveau de la colonne ne le reliant à target_table.

Pourquoi le lignage d'entité affiche les deux entrées

Le lignage d'entité capture la dépendance au niveau du jeu de données. Si un travail de traitement lit deux ensembles de données et que le résultat dépend des deux, les deux ensembles de données sont des entités en amont légitimes. Dans ce modèle :
  • La cible ne peut pas être expliquée en détail sans l'ensemble de données source A.
  • La cible ne peut pas non plus être expliquée en détail sans l'ensemble de données source B, car l'ensemble de données source B détermine les enregistrements de l'ensemble de données source A qui sont conservés.
  • Par conséquent, l'ensemble de données source A et l'ensemble de données source B doivent tous deux apparaître en tant qu'entités en amont pour l'ensemble de données cible C.
Il s'agit d'un lignage de dépendance et non d'un lignage de valeur.

Pourquoi le lignage de colonne affiche uniquement l'entrée fournissant la valeur

Le lignage de colonne capture la provenance de la valeur. Il décrit d'où proviennent les valeurs de chaque colonne cible.

Par exemple, si la table cible est écrite à l'aide de lignes de l'ensemble de données source A après le filtrage des lignes de l'ensemble de données source B, les valeurs de la colonne cible proviennent toujours de l'ensemble de données source A.

Exemples de mappings de colonnes :

Colonne cible Colonne source
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

Le jeu de données source B détermine si une ligne est présente, mais que ses valeurs de colonne ne sont pas copiées dans la cible. Par conséquent, l'ensemble de données source B peut apparaître dans la lignée d'entités sans apparaître dans la lignée de colonnes.

Afficher le lignage des données

Vous pouvez voir l'héritage des données dans votre espace de travail lorsqu'il se déplace entre différents artefacts Oracle AI Data Platform Workbench.

  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.

    La vue de catalogue principal d'un espace de travail AI Data Platform Workbench s'affiche. Un tableau a été cliqué avec le bouton droit de la souris et affiche les options de menu Partage et Lignage. Lignage est mis en surbrillance.

  3. Le diagramme de lignage s'affiche.

Afficher le lignage pour des colonnes de données spécifiques

Vous pouvez tracer le lignage d'une colonne de données spécifique via votre diagramme de lignage.

  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Cliquez sur la flèche en bas d'un artefact de table ou de volume pour le développer.
  4. Double-cliquez sur la colonne de données pour laquelle mettre en surbrillance le lignage.

Afficher les détails d'un artefact de lignage

Vous pouvez voir des détails supplémentaires sur un artefact dans vos diagrammes de lignage.

  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Cliquez deux fois sur un artefact dans le diagramme de lignage pour afficher des détails supplémentaires. Vous pouvez également cliquer avec le bouton droit de la souris et cliquer sur Afficher les détails.
  4. Cliquez sur l'onglet Analyse d'impact pour visualiser l'impact en amont et en aval de l'artefact. Cet onglet est uniquement disponible pour le noeud d'ancrage.

Analyse de l'impact sur l'exportation

Vous pouvez exporter l'analyse d'impact pour les artefacts de données tout en affichant les détails d'un artefact de lignage.

Remarques :

Vous pouvez uniquement exporter l'analyse d'impact pour les artefacts de données.
  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Cliquez deux fois sur un artefact de données dans le diagramme de lignage. Sélectionnez l'onglet Analyse d'impact.
  4. Cliquez sur Exporter l'analyse d'impact.
  5. Dans le menu déroulant, indiquez si tous les artefacts doivent être inclus en amont, en aval ou en aval.
  6. Cliquez sur Exporter.

Filtrer le diagramme de flux de lignage

Vous pouvez filtrer votre diagramme de lignage pour vous concentrer sur des points de données plus spécifiques lors de l'examen du lignage.

  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Dans les menus déroulants, sélectionnez des catalogues, schémas, volumes ou espaces de travail spécifiques à partir desquels filtrer les résultats.

Rechercher les artefacts dans le diagramme de flux de lignage

Vous pouvez rechercher des chaînes pour localiser des artefacts spécifiques dans le diagramme de lignage lors de la visualisation du lignage des artefacts.

  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Dans le champ Rechercher en haut de votre diagramme de lignage, entrez la chaîne à rechercher.
  4. Cliquez sur un résultat dans la liste pour centrer le diagramme sur cet artefact.

Modifier la profondeur du flux de lignage

Vous pouvez modifier le nombre de niveaux d'artefacts en amont ou en aval que votre diagramme de lignage affiche pour vous aider à développer ou à restreindre le focus de votre diagramme.

  1. Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Cliquez sur Icône Actions à trois points Actions en haut à droite.
  4. Cliquez sur Paramètres de lignage.

    Le menu des actions à trois points du lignage s'affiche. Les paramètres de lignage sont mis en évidence.

  5. Modifiez la profondeur en amont et la profondeur en aval selon vos besoins.
  6. Cliquez sur Enregistrer.

Partager un diagramme de flux de lignage

Vous pouvez partager le diagramme de lignage montrant le lignage d'un objet spécifique en tant que lien direct ou image PNG.

  1. Accédez à l'artefact dans le catalogue maître pour lequel partager le lignage.
  2. Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
  3. Cliquez sur Icône Actions à trois points Actions en haut à droite.

    Le menu d'actions de lignage à trois points est sélectionné. Le lien Copier et la vue Exporter le lignage actuel sont mis en surbrillance.

  4. Choisissez la façon dont vous souhaitez partager votre diagramme de lignage :
    • Cliquez sur Copier le lien pour copier un lien directement dans le presse-papiers. Collez le lien pour le partager.
    • Cliquez sur Exporter la vue de lignage actuelle (.png) pour exporter la vue actuelle de votre diagramme de lignage, y compris les filtres que vous avez appliqués.