11 Lignage (aperçu)
Le lignage dans Oracle AI Data Platform Workbench montre comment les artefacts de données sont liés via des exécutions de bloc-notes et de workflow. Le graphique de lignage vous aide à suivre les sources en amont, les consommateurs en aval et les dérivations au niveau des colonnes pour les artefacts pris en charge.
Remarques :
Les métadonnées de lignage sont capturées à partir des exécutions de bloc-notes et de workflow. Pour chaque exécution de processus, le service affiche actuellement le dernier lignage capturé et n'expose pas encore le lignage historique.La capture de lignage est activée ou désactivée au niveau du calcul dans le cadre de la configuration Spark. Par défaut, le lignage est activé dans tous les calculs que vous créez. Pour désactiver manuellement le lignage, ajoutez spark.aidp.lineage.enabled = false au champ de configuration Spark dans le calcul, sous Options avancées. Pour réactiver le lignage, utilisez spark.aidp.lineage.enabled = true. Ce paramètre est propre au calcul, ce qui signifie que si vous désactivez le lignage dans un calcul, les workflows exécutés sur un autre calcul où le lignage est toujours activé sont toujours capturés.
Vous pouvez visualiser le lignage des artefacts AI Data Platform à partir du catalogue maître en cliquant avec le bouton droit de la souris sur un artefact et en sélectionnant Lignage. Vous pouvez visualiser le lignage de n'importe quel artefact de données dans AI Data Platform, comme les tables et les volumes. Le lignage prend actuellement en charge les tables en tant que noeuds d'ancrage, mais affiche les tables et les volumes dans le diagramme de lignage.

La vue Lignage affiche un graphique de lignage avec des artefacts en amont et en aval pour l'artefact de données sélectionné. Vous pouvez basculer entre le graphique complet, la vue en amont uniquement et la vue en aval uniquement.

Vous pouvez afficher le lignage au niveau colonne pour tracer la manière dont les colonnes d'un artefact de données sont dérivées, transformées ou propagées vers des colonnes d'autres artefacts.
Vous pouvez masquer les filtres en haut de votre canevas en cliquant sur l'icône Filtrer en haut à gauche.
Pour développer des artefacts de données dans le flux de lignage, cliquez sur la flèche vers le bas en bas de la carte d'artefacts. Lorsque l'artefact se développe, vous pouvez voir l'héritage en amont et en aval de colonnes de données spécifiques. Cette fonction fonctionne uniquement pour les artefacts qui contiennent des colonnes de données, comme les tables et les volumes.

Pour les cartes d'artefact développées, vous développez une table ou un volume pour afficher ses colonnes et les relations de lignage au niveau des colonnes qui leur sont connectées. Pour développer des artefacts de données dans le flux de lignage, cliquez sur la flèche vers le bas en bas de la carte d'artefacts. Lorsque l'artefact se développe, vous pouvez voir le flux de données en amont et en aval pour des colonnes spécifiques. Cette fonction fonctionne uniquement pour les artefacts qui contiennent des colonnes de données, comme les tables et les volumes.
Vous pouvez développer plusieurs tables et volumes dans votre graphique de lignage pour voir le flux de données de chacun. Lorsque vous développez l'artefact de données, les flèches bleues indiquent comment les colonnes des artefacts source contribuent aux colonnes des artefacts cible via des blocs-notes ou des exécutions de workflow. Vous mettez en surbrillance le chemin d'une colonne individuelle en double-cliquant dessus.
Les flèches bleues indiquent les relations de lignage au niveau des colonnes entre les colonnes source et cible. Ces relations indiquent comment les données sont dérivées, transformées ou propagées entre les tables, les volumes, les blocs-notes, les tâches et les workflows. Double-cliquez sur une colonne pour mettre en surbrillance son chemin de lignage dans le graphique.

Vous pouvez sélectionner plusieurs colonnes de données en maintenant la touche Maj enfoncée ou Ctrl enfoncée pour mettre en surbrillance plusieurs chemins.
Dans le menu Actions en haut à droite de la fenêtre Lignage, vous pouvez contrôler vos paramètres Lignage, ce qui affecte la profondeur des artefacts en amont et en aval affichés, ou vous pouvez partager votre diagramme de lignage, soit en copiant un lien, soit en exportant une image PNG.

Détails du lignage
Le fait de cliquer deux fois sur un artefact dans le diagramme de lignage affiche les détails de cet artefact. Pour les tâches, la page de détails fournit les détails de la tâche et du travail auquel elle appartient. Pour les tables et les volumes, la page de détails fournit des informations sur la table ou le volume et ses colonnes.
Vous pouvez cliquer avec le bouton droit de la souris sur les artefacts de données pour Afficher les détails ou Définir comme ancre. La définition de l'artefact de données en tant qu'ancre modifie le diagramme actuellement affiché pour qu'il soit centré sur ce noeud.
En haut de la fenêtre Détails, vous pouvez voir le type d'artefact, le schéma auquel il appartient et le nombre d'artefacts en amont et en aval. Dans le panneau Description, lorsque vous cliquez sur le lien d'actif, vous accédez à l'artefact dans votre espace de travail.

Pour les artefacts de données, la fenêtre Détails affiche la date de la dernière mise à jour de l'artefact, les informations sur les colonnes de données, le format et le catalogue auquel l'artefact de données appartient. Vous pouvez rechercher des colonnes de données spécifiques par nom et filtrer par type de données à l'aide du menu déroulant.
Pour les artefacts de processus, qui incluent des tâches et des blocs-notes, la fenêtre Détails affiche des informations relatives à l'artefact, notamment le statut et la durée des tâches et des travaux les plus récents, le type de tâche, le nom et l'ID du travail ou du bloc-notes, ainsi que le cluster associé. Dans le volet de droite, vous pouvez rechercher des artefacts source et cible en fonction du nom de l'artefact ou utiliser le menu déroulant pour filtrer le type de transformation.
Types de transformation
AI Data Platform Workbench prend en charge les types de transformation suivants lors du suivi du lignage :
| Type | Signification | Exemple de scénario | Exemple de mappage de champ |
|---|---|---|---|
| AGRÉGATION | Le champ de sortie est calculé en agrégeant plusieurs enregistrements d'entrée. | Création de tables récapitulatives ou de mesures. | total_sales = SUM(montant) |
| IDENTITÉ | Le champ de sortie est exactement le même que le champ d'entrée (aucune modification). | Copie d'un jeu de données d'une table à une autre. | customer_id → customer_id |
| TRANSFORMATION | La sortie est dérivée de champs d'entrée utilisant des fonctions, des moulages, une concaténation, etc. | Standardisation ou nettoyage des données. | full_name = CONCAT(first_name, ' ', last_name) |
Analyse d'impact
Les artefacts de données sélectionnés en tant que noeud d'ancrage disposent d'un onglet supplémentaire dans leur fenêtre Détails pour l'analyse d'impact. Dans l'onglet Analyse d'impact, vous pouvez rechercher des noms d'artefact spécifiques ou filtrer par type d'artefact. Vous pouvez sélectionner En amont ou En aval pour afficher uniquement les artefacts qui sont en amont ou en aval de l'artefact actuellement sélectionné.

Utilisez l'analyse d'impact en amont pour comprendre les dépendances. Utilisez l'analyse d'impact en aval pour identifier les consommateurs susceptibles d'être affectés par les modifications apportées à l'artefact sélectionné.
Cliquez sur Exporter l'analyse d'import pour exporter les artefacts associés à l'artefact de données sélectionné. Vous pouvez exporter des artefacts en amont, des artefacts en aval ou tous les artefacts associés.
Lignage des entités et des colonnes
Dans certains scénarios de lignage où plusieurs jeux de données en amont participent à la production d'un jeu de données cible, seuls certains de ces jeux de données en amont apportent des valeurs de colonne réelles à la cible.
- Réponses de lignage d'entité : quels jeux de données ont participé à la création de la cible ?
- Réponses de lignage de colonne : Quelles colonnes source ont fourni les valeurs de colonne cible ?
- Lignage d'entité doit afficher tous les jeux de données en amont dont dépend la cible.
- Le lignage de colonne peut afficher le flux au niveau colonne uniquement à partir de l'entrée fournissant la valeur.
- Une entrée de référence peut affecter le jeu de lignes cible sans apporter de valeurs aux colonnes cible.
Exemple : lignage d'entité et de colonne
- source_table_1 contient l'ensemble de données principal.
- source_table_2 contient un ensemble de lignes de référence.
- La table cible est créée en conservant uniquement les lignes qui existent dans les deux tables source.
Tableau 11-1 source_table_1
| product_id | ventes_date | quantité | total_montant |
|---|---|---|---|
| 101 | 01/06/2025 | 10 | 150 |
| 102 | 02/06/2025 | 20 | 300 |
| 103 | 03/06/2025 | 15 | 225 |
| 104 | 04/06/2025 | 12 | 180 |
Tableau 11-2 source_table_2
| product_id | ventes_date | quantité | total_montant |
|---|---|---|---|
| 102 | 02/06/2025 | 20 | 300 |
| 103 | 03/06/2025 | 15 | 225 |
| 105 | 05/06/2025 | 18 | 270 |
Tableau 11-3 target_table
| product_id | ventes_date | quantité | total_montant |
|---|---|---|---|
| 102 | 02/06/2025 | 20 | 300 |
| 103 | 03/06/2025 | 15 | 225 |
Dans cet exemple, les deux tables source participent à la création de la cible car elles sont toutes deux requises pour déterminer le dernier jeu de lignes.

Toutefois, du point de vue du lignage des colonnes, les valeurs de colonne cible ne peuvent être attribuées qu'à l'entrée fournissant la valeur, telle que source_table_1. La deuxième entrée, source_table_2, permet de déterminer les lignes qui répondent aux critères de la cible, mais ses valeurs ne sont pas nécessairement copiées dans les colonnes cible.

Pour ces raisons, lorsque la vue de lignage est ancrée sur source_table_2, aucun lien de lignage au niveau de la colonne n'est affiché, comme indiqué ci-dessous.

Pourquoi le lignage d'entité affiche les deux entrées
- La cible ne peut pas être expliquée en détail sans l'ensemble de données source A.
- La cible ne peut pas non plus être expliquée en détail sans l'ensemble de données source B, car l'ensemble de données source B détermine les enregistrements de l'ensemble de données source A qui sont conservés.
- Par conséquent, l'ensemble de données source A et l'ensemble de données source B doivent tous deux apparaître en tant qu'entités en amont pour l'ensemble de données cible C.
Pourquoi le lignage de colonne affiche uniquement l'entrée fournissant la valeur
Le lignage de colonne capture la provenance de la valeur. Il décrit d'où proviennent les valeurs de chaque colonne cible.
Par exemple, si la table cible est écrite à l'aide de lignes de l'ensemble de données source A après le filtrage des lignes de l'ensemble de données source B, les valeurs de la colonne cible proviennent toujours de l'ensemble de données source A.
Exemples de mappings de colonnes :
| Colonne cible | Colonne source |
|---|---|
target.product_id |
source_a.product_id |
target.sales_date |
source_a.sales_date |
target.quantity |
source_a.quantity |
target.total_amount |
source_a.total_amount |
Le jeu de données source B détermine si une ligne est présente, mais que ses valeurs de colonne ne sont pas copiées dans la cible. Par conséquent, l'ensemble de données source B peut apparaître dans la lignée d'entités sans apparaître dans la lignée de colonnes.
Afficher le lignage des données
Vous pouvez voir l'héritage des données dans votre espace de travail lorsqu'il se déplace entre différents artefacts Oracle AI Data Platform Workbench.
Afficher le lignage pour des colonnes de données spécifiques
Vous pouvez tracer le lignage d'une colonne de données spécifique via votre diagramme de lignage.
- Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
- Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
- Cliquez sur la flèche en bas d'un artefact de table ou de volume pour le développer.
- Double-cliquez sur la colonne de données pour laquelle mettre en surbrillance le lignage.
Afficher les détails d'un artefact de lignage
Vous pouvez voir des détails supplémentaires sur un artefact dans vos diagrammes de lignage.
- Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
- Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
- Cliquez deux fois sur un artefact dans le diagramme de lignage pour afficher des détails supplémentaires. Vous pouvez également cliquer avec le bouton droit de la souris et cliquer sur Afficher les détails.
- Cliquez sur l'onglet Analyse d'impact pour visualiser l'impact en amont et en aval de l'artefact. Cet onglet est uniquement disponible pour le noeud d'ancrage.
Analyse de l'impact sur l'exportation
Vous pouvez exporter l'analyse d'impact pour les artefacts de données tout en affichant les détails d'un artefact de lignage.
Remarques :
Vous pouvez uniquement exporter l'analyse d'impact pour les artefacts de données.- Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
- Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
- Cliquez deux fois sur un artefact de données dans le diagramme de lignage. Sélectionnez l'onglet Analyse d'impact.
- Cliquez sur Exporter l'analyse d'impact.
- Dans le menu déroulant, indiquez si tous les artefacts doivent être inclus en amont, en aval ou en aval.
- Cliquez sur Exporter.
Filtrer le diagramme de flux de lignage
Vous pouvez filtrer votre diagramme de lignage pour vous concentrer sur des points de données plus spécifiques lors de l'examen du lignage.
- Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
- Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
- Dans les menus déroulants, sélectionnez des catalogues, schémas, volumes ou espaces de travail spécifiques à partir desquels filtrer les résultats.
Rechercher les artefacts dans le diagramme de flux de lignage
Vous pouvez rechercher des chaînes pour localiser des artefacts spécifiques dans le diagramme de lignage lors de la visualisation du lignage des artefacts.
- Accédez à l'artefact dans le catalogue maître pour lequel vous voulez afficher le lignage.
- Cliquez avec le bouton droit de la souris sur l'artefact, puis cliquez sur Lignage. Vous pouvez également sélectionner l'artefact, cliquer sur Actions en haut à droite, puis sur Lignage.
- Dans le champ Rechercher en haut de votre diagramme de lignage, entrez la chaîne à rechercher.
- Cliquez sur un résultat dans la liste pour centrer le diagramme sur cet artefact.


