11 行(预览)

Oracle AI Data Platform Workbench 中的沿袭显示数据对象如何通过记事本和工作流执行进行关联。沿袭图可帮助您跟踪上游源、下游使用者以及支持的构件的列级派生。

注意:

沿袭元数据从记事本和工作流执行中获取。对于每个流程运行,该服务当前显示最新捕获的沿袭,并且尚未公开历史沿袭。

在 Spark 配置中,沿袭捕获在计算级别启用或禁用。默认情况下,在您创建的任何计算中都会启用沿袭。要手动禁用沿袭,请将 spark.aidp.lineage.enabled = false 添加到计算的“Spark 配置”字段的“高级”选项下。要重新启用沿袭,请使用 spark.aidp.lineage.enabled = true。此设置特定于计算,这意味着如果在一个计算中禁用沿袭,则仍会捕获仍在启用沿袭的另一计算上运行的工作流。

通过右键单击某个对象并选择,可以从主目录中查看 AI 数据平台对象的沿袭。您可以查看 AI Data Platform 中任何数据构件的沿袭,例如表和卷。沿袭当前支持表作为锚点节点,但在沿袭图中同时显示表和卷。


沿袭图

“沿袭”视图显示沿袭图形,其中包含所选数据构件的上游和下游构件。您可以在完整图形、仅上游视图和仅下游视图之间切换。


沿袭图导航栏。下游、上游、沿袭图、锚点和缩放下拉菜单以红色文本表示。

您可以查看列级沿袭,以跟踪一个数据对象中的列如何从其他对象中派生、转换或传播到其他对象中的列。

您可以通过单击左上角的“筛选器”图标隐藏画布顶部的筛选器。


沿袭图筛选栏。

通过单击构件卡底部的向下箭头,可以展开沿袭流中的数据构件。在对象展开时,您可以查看特定数据列的上游和下游继承。此功能仅适用于包含数据列(如表和卷)的构件。


此时将显示沿袭图。选择并展开表节点 content_engagement。

对于展开的构件卡,可以展开表或卷以查看其列以及与之关联的列级沿袭关系。通过单击构件卡底部的向下箭头,可以展开沿袭流中的数据构件。在对象展开时,您可以查看特定列的上游和下游数据流。此功能仅适用于包含数据列(如表和卷)的构件。

可以在沿袭图形中展开多个表和卷,以查看每个表中的数据流。展开数据对象时,蓝色箭头显示源对象中的列如何通过记事本或工作流执行对目标对象中的列做出贡献。通过双击单个列的路径,可以突出显示该列的路径。

蓝色箭头显示源列与目标列之间的列级沿袭关系。这些关系指示如何在表、卷、记事本、任务和工作流之间推导、转换或传播数据。双击列以在图形中突出显示其沿袭路径。


此时将显示沿袭图。content_engagement 节点已展开,并且选择了 Engagement_date 数据列。深蓝色箭头将数据列连接到上游和下游节点。

可以通过按住 Shift 键或按住 Ctrl 键来选择多个数据列,以突出显示多个路径。

从“沿袭”窗口右上角的“操作”菜单中,您可以控制“沿袭”设置,这会影响所显示的上游和下游工件的深度,也可以通过复制链接或导出 PNG 图像来共享沿袭图。


沿袭操作按钮展开,并显示沿袭设置、复制链接和导出当前沿袭视图选项。

沿袭详细信息

双击沿袭图中的某个构件可显示该构件的详细信息。对于任务,详细信息页同时提供任务及其所属任务的详细信息。对于表和卷,详细信息页提供有关表或卷及其列的信息。

您可以右键单击数据对象以查看详细信息设置为锚点。将数据构件设置为锚时,会改为将当前显示的图表以该节点为中心。

在 "Details"(详细信息)窗口的顶部,您可以查看对象类型、它所属的方案以及上游和下游对象数。在“说明”窗格中,单击“资产”链接将转至工作区中的对象。


此时将显示 content_engagement_clean 节点的沿袭详细信息页面。已选择“详细信息”选项卡。

对于数据对象,“详细信息”窗口显示上次更新对象的时间、有关数据列、格式以及数据对象所属目录的信息。您可以使用下拉菜单按名称搜索特定数据列并按数据类型进行筛选。

对于包括任务和记事本的流程对象,“详细信息”窗口显示与对象相关的信息,包括最近的任务和作业状态、持续时间、任务类型、作业或记事本名称和 ID 以及附加的集群。在右侧窗格中,您可以基于对象名称搜索源对象和目标对象,或使用下拉菜单筛选转换类型。

转换类型

AI Data Platform Workbench 在跟踪沿袭时支持以下转换类型:

类型 含义 示例场景 字段映射示例
汇总 通过聚合多个输入记录来计算输出字段。 创建概要表或度量。 总销售额 = SUM(金额)
身份 输出字段与输入字段完全相同(无更改)。 将数据集从一个表复制到另一个表。 顾客标识→顾客标识
转换 输出是从使用函数、转换、连接等的输入字段派生的。 标准化或清洗数据。 全名 = CONCAT(名字,' ',姓氏)

影响分析

选定为锚点节点的数据对象在其“影响分析”的“详细信息”窗口中具有附加选项卡。在“影响分析”选项卡中,您可以搜索特定对象名称或按对象类型进行筛选。您可以选择上游或下游,以仅显示当前所选构件的上游或下游构件。


此时将显示沿袭节点 content_engagement_clean 详细信息页。已选择“影响分析”选项卡。

使用上游影响分析来了解相关性。使用下游影响分析来确定可能受所选构件更改影响的消费者。

单击导出导入分析可导出与所选数据对象相关的对象。您可以导出上游构件、下游构件或所有相关构件。

实体和列沿袭

在多个上游数据集参与生成目标数据集的某些沿袭场景中,只有其中一些上游数据集向目标贡献实际列值。

实体沿袭和列沿袭之间的关键区别是他们回答的问题:
  • 实体谱系答案:哪些数据集参与了创建目标?
  • 列沿袭答案:哪些源列提供了目标列值?
由于这些问题不同,因此同一管道的实体沿袭和列沿袭可能看起来不同。
在某些转换中,一个输入提供写入目标的行和列值,而另一个输入仅用作过滤的参考。在以下情况下:
  • 实体沿袭应显示目标所依赖的所有上游数据集。
  • 列沿袭可能仅显示提供值的输入中的列级流。
  • 参考输入可能会影响目标行集,而不会为目标列提供值。
此行为是可以预料到的。

示例:实体和列沿袭

假设两个源数据集包含相同的列,但不包含相同的行:
  • source_table_1 包含主要数据集。
  • source_table_2 包含一组引用行。
  • 目标表是通过仅保留两个源表中存在的行来创建的。
例如:

表 11-1 source_table_1

产品标识 销售日期 数量 总金额
101 2025-06-01 10 150.0
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0
104 2025-06-04 12 180.0

表 11-2 source_table_2

产品标识 销售日期 数量 总金额
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0
105 2025-06-05 18 270.0

表 11-3 target_table

产品标识 销售日期 数量 总金额
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0

在此示例中,两个源表都参与创建目标,因为两个表都需要确定最终行集。


此时将显示沿袭画布,其中 source_table_1 和 source_table_2 节点已连接到 instersect ipynb 节点,该节点已连接到 target_table 节点。

但是,从列沿袭的角度来看,目标列值可能仅归因于提供值的输入,例如 source_table_1。第二个输入 source_table_2 用于确定哪些行符合目标条件,但其值不一定复制到目标列中。


沿袭画布,其中 source_table_1 节点展开,蓝色箭头将列连接到安装记事本节点,该节点连接到 target_table 继承的四列

出于这些原因,当沿袭视图锚定在 source_table_2 上时,不会显示任何列级沿袭链接,如下所示。


沿袭画布显示 source_table_2 作为锚点节点,并且没有列级沿袭链接将其连接到 target_table。

为什么实体沿袭同时显示两个输入

实体沿袭捕获数据集级相关性。如果处理作业读取两个数据集,结果取决于两个数据集,则两个数据集都是合法的上游实体。在此模式中:
  • 如果没有源数据集 A ,则无法完全解释目标。
  • 如果没有源数据集 B ,目标也无法完全解释,因为源数据集 B 确定保留源数据集 A 中的哪些记录。
  • 因此,源数据集 A 和源数据集 B 都应显示为目标数据集 C 的上游实体。
这是依赖关系沿袭,而不是值沿袭。

为什么列沿袭仅显示提供值的输入

列沿袭捕获值来源。它描述了每个目标列中的值来自何处。

例如,如果在筛选源数据集 B 中的行之后使用源数据集 A 中的行编写目标表,则目标列值仍然源自源数据集 A。

列映射示例:

目标列 源列
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

源数据集 B 会影响行是否存在,但其列值不会复制到目标。因此,源数据集 B 可能显示在实体沿袭中,而不会显示在列沿袭中。

查看数据沿袭

当数据在不同的 Oracle AI Data Platform Workbench 对象之间移动时,您可以在工作区中看到数据的继承。

  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击

    此时将显示 AI 数据平台工作台工作区的主目录视图。表已右键单击,并显示菜单选项“共享”和“沿袭”。沿袭突出显示。

  3. 此时将显示沿袭图。

查看特定数据列的沿袭

您可以通过沿袭图跟踪特定数据列的沿袭。

  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 单击表或卷 Artifact 底部的箭头可展开该对象。
  4. 双击要突出显示其沿袭的数据列。

查看沿袭构件的详细信息

您可以查看沿袭图中对象的附加详细信息。

  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 双击沿袭图上的对象可查看其他详细信息。您还可以右键单击并单击查看详细信息
  4. 单击“影响分析”选项卡以查看对象的上游和下游影响。此选项卡仅适用于锚点节点。

导出影响分析

在查看沿袭构件的详细信息时,您可以导出数据构件的影响分析。

注意:

您只能导出数据对象的影响分析。
  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 双击沿袭图中的数据对象。选择影响分析选项卡。
  4. 单击导出影响分析
  5. 从下拉菜单中,选择是否应包括上游、下游或所有对象。
  6. 单击导出

筛选沿袭流程图

您可以筛选沿袭图,以帮助在检查沿袭时专注于更具体的数据点。

  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 从下拉菜单中,选择特定目录、方案、卷或工作区以筛选出结果。

在沿袭流图中搜索对象

在查看构件沿袭时,可以搜索字符串以查找沿袭图中的特定构件。

  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 在沿袭图顶部的搜索字段中,输入要搜索的字符串。
  4. 单击列表中的结果以将图表置于该对象上。

更改沿袭流深度

您可以更改沿袭图显示的上游或下游工件的级别,以帮助您展开或缩小图的焦点。

  1. 导航到要查看其沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 单击右上角的 “操作三个点”图标 操作
  4. 单击行设置

    此时将显示“Lineage three-dot actions(沿袭三点操作)”菜单。沿袭设置将突出显示。

  5. 根据需要修改上游深度下游深度
  6. 单击保存

共享沿袭流图

您可以共享沿袭图,其中显示特定对象的沿袭作为直接链接或 PNG 图像。

  1. 导航到要为其共享沿袭的主目录中的对象。
  2. 右键单击该对象,然后单击 Lineage 。您还可以选择对象,然后单击右上角的操作,然后单击
  3. 单击右上角的 “操作三个点”图标 操作

    选择了“沿袭三点操作”菜单。“复制”链接和“导出当前沿袭”视图突出显示。

  4. 选择您想要如何分享您的血统图:
    • 单击复制链接可直接将链接复制到剪贴板。粘贴链接以共享。
    • 单击导出当前沿袭视图 (.png) 可导出沿袭图的当前视图,包括您已应用的任何筛选器。