11 歷程 (預覽)

Oracle AI Data Platform Workbench 中的歷程顯示資料人工因素如何透過記事本與工作流程執行產生關聯。歷程圖表可協助您追蹤支援之使用者自建物件的上游來源、下游用戶以及資料欄層級衍生項目。

附註:

從記事本和工作流程執行擷取歷程描述資料。針對每個處理執行,服務目前會顯示最新擷取的歷程,且尚未顯示歷史歷程。

Spark 組態的運算層級會啟用或停用歷程擷取。依照預設,您建立的任何運算都會啟用歷程。若要手動停用歷程,請在運算的 Spark 組態欄位中新增「進階」選項下的 spark.aidp.lineage.enabled = false。若要重新啟用歷程,請使用 spark.aidp.lineage.enabled = true。此設定是運算特定的設定,亦即如果您停用某個運算的歷程,則仍會擷取其他運算上仍啟用歷程的工作流程。

在人工因素上按一下滑鼠右鍵並選取歷程,即可從「主要目錄」檢視 AI 資料平台人工因素的歷程。您可以檢視 AI Data Platform 中任何資料使用者自建物件的歷程,例如表格和磁碟區。Lineage 目前支援表格作為錨點節點,但會在歷程圖表中顯示表格和磁碟區。


歷程圖。

「歷程」檢視會顯示包含所選資料使用者自建物件上游和下游使用者自建物件的歷程圖表。您可以在完整圖表、僅限上游檢視和僅限下游檢視之間切換。


歷程圖表導覽列。下游、上游、折線圖、錨點及縮放下拉式功能表以紅色文字表示。

您可以檢視資料欄層級歷程,以追蹤一個資料人工因素中的資料欄衍生自、轉換者,或傳播至其他人工因素中的資料欄。

您可以按一下左上方的「篩選」圖示來隱藏工作區頂端的篩選。


歷程圖篩選列。

您可以按一下人工因素卡底部的向下箭頭,展開「歷程」流程中的資料人工因素。使用者自建物件展開時,您可以查看特定資料欄的上游和下游繼承。此函數僅適用於包含資料欄 (例如表格和磁碟區) 的物件。


顯示歷程圖。已選取並展開表格節點 content_engagement。

對於展開的人工因素卡,您可以展開表格或數量來檢視其資料欄,以及與其連線的資料欄層次歷程關係。您可以按一下人工因素卡底部的向下箭頭,展開「歷程」流程中的資料人工因素。展開使用者自建物件時,您可以查看特定資料欄的上游和下游資料流程。此函數僅適用於包含資料欄 (例如表格和磁碟區) 的物件。

您可以在歷程圖中展開多個表格和磁碟區,以查看每個表格和磁碟區的資料流程。當您展開資料人工因素時,藍色箭頭會顯示來源人工因素中的資料欄如何透過記事本或工作流程執行,提供給目標人工因素中的資料欄。您可以按兩下個別資料欄來醒目提示其路徑。

藍色箭號顯示來源資料欄與目標資料欄之間的資料欄層次歷程關係。這些關係指出資料在表格、磁碟區、記事本、任務及工作流程間的衍生、轉換或傳輸方式。按兩下資料欄即可在圖表中標示其歷程路徑。


顯示歷程圖。會展開 content_engagement 節點並選取 engagement_date 資料欄。暗藍色箭號可將資料欄連線至上游和下游節點。

您可以按 Shift 或 Ctrl 鍵來選取多個資料欄,以醒目提示多個路徑。

從「歷程」視窗右上方的「動作」功能表中,您可以控制「歷程」設定值,這會影響上游和下游使用者自建物件的顯示深度,或者您可以透過複製連結或匯出 PNG 影像來共用歷程圖表。


「歷程動作」按鈕已展開並顯示「歷程」設定值、「複製」連結,以及「匯出」目前的歷程檢視選項。

歷程明細

按兩下歷程圖中的人工因素會顯示該人工因素的詳細資料。對於工作,詳細資訊頁面同時提供工作及其所屬工作的詳細資訊。對於表格和磁碟區,詳細資訊頁面會提供表格或磁碟區及其資料欄的資訊。

您可以在檢視詳細資訊設為錨點的資料使用者自建物件上按一下滑鼠右鍵。將資料人工因素設為錨點會將目前顯示的圖表改為置中於該節點。

在「詳細資訊」視窗的頂端,您可以看到使用者自建物件類型、其所屬的綱要,以及上游和下游使用者自建物件的數目。在「描述」窗格中,按一下資產連結,即可移至工作區中的物件。


會顯示 content_engagement_clean 節點的歷程明細頁面。已選取「詳細資訊」頁籤。

對於「資料」人工因素,「詳細資料」視窗會顯示上次更新人工因素的時間、資料欄、格式的資訊,以及資料人工因素所屬的目錄。您可以使用下拉式功能表,依名稱搜尋特定的資料欄,以及依資料類型篩選。

對於包含工作和記事本的「程序」物件,「詳細資訊」視窗會顯示與物件相關的資訊,包括最近的工作和工作狀態、持續時間、工作類型、工作或記事本名稱和 ID,以及附加的叢集。在右側窗格中,您可以根據使用者自建物件名稱搜尋來源和目標使用者自建物件,或使用下拉式功能表篩選轉換類型。

轉換類型

AI Data Platform Workbench 在追蹤歷程時支援下列轉換類型:

Type 意義 範例案例 範例欄位對應
彙總 輸出欄位的計算方式是聚總多個輸入記錄。 建立摘要表格或測量結果。 total_sales = SUM (金額)
身分 輸出欄位與輸入欄位完全相同 (無變更)。 將資料集從一個表格複製到另一個表格。 客戶 ID → 客戶 ID
轉型 輸出是從使用函數、轉換、串連等的輸入欄位衍生而來。 標準化或清除資料。 full_name = CONCAT (first_name, ', last_name)

影響分析

選取為錨點節點的資料構件在其「影響分析的詳細資料」視窗中具有其他頁籤。從「影響分析」頁標中,您可以搜尋特定物件名稱或依物件類型篩選。您可以選取上游或下游,只顯示目前所選使用者自建物件的上游或下游使用者自建物件。


隨即顯示歷程節點 content_engagement_clean 詳細資訊頁面。已選取「影響分析」頁標。

使用上游影響分析來瞭解相依性。使用下游影響分析來識別可能受所選使用者自建物件變更影響的用戶。

按一下匯出匯入分析,以匯出與所選資料人工因素相關的人工因素。您可以匯出上游使用者自建物件、下游使用者自建物件或所有相關使用者自建物件。

實體與資料欄歷程

在多個上游資料集參與產生目標資料集的某些歷程案例中,只有部分上游資料集會將實際資料欄值提供給目標。

實體歷程與欄歷程之間的關鍵區別在於其回答的問題:
  • 實體歷程回答:哪些資料集參與建立目標?
  • 資料欄歷程答案:提供目標資料欄值的來源資料欄為何?
由於這些問題不同,實體歷程和資料欄歷程在相同的業務進程中可能會有所不同。
在某些轉換中,一個輸入會提供寫入目標的資料列和資料欄值,而另一個輸入則僅作為篩選的參照。在這些情況下:
  • 實體歷程應顯示目標相依的所有上游資料集。
  • 資料欄歷程只能顯示來自提供值的輸入的資料欄層次流程。
  • 參照輸入會影響目標資料列集,而不需要提供值給目標資料欄。
這是預期的行為。

範例:實體和資料欄歷程

假設兩個來源資料集包含相同的資料欄,但不包含相同的資料列:
  • source_table_1 包含主要資料集。
  • source_table_2 包含了一組參照的資料列。
  • 目標表格的建立方式是僅保留存在於兩個來源表格中的列。
舉例而言:

表 11-1 source_table_1

產品 ID 銷售日期 quantity 總金額
101 2025-06-01 10 150.0
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0
104 2025-06-04 12 180.0

表 11-2 source_table_2

產品 ID 銷售日期 quantity 總金額
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0
105 2025-06-05 18 270.0

表 11-3 target_table

產品 ID 銷售日期 quantity 總金額
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0

在此範例中,兩個來源表格都參與建立目標,因為兩者都必須決定最終資料列集。


歷程畫面會以連接至 target_table 節點之 instersect ipynb 節點的 source_table_1 和 source_table_2 節點顯示。

不過,從資料欄歷程角度而言,目標資料欄值只能歸因於提供值的輸入,例如 source_table_1。第二個輸入 source_table_2 是用來決定哪些資料列符合目標,但其值不一定會複製到目標資料欄中。


具有 source_table_1 節點的歷程畫面已展開,且以藍色箭頭將資料欄連接至 instersect 筆記型電腦節點,而該節點已連接至由 target_table 繼承的四個資料欄

基於這些原因,當歷程檢視定錨至 source_table_2 時,不會顯示資料欄層次歷程連結,如下所示。


歷程畫面顯示 source_table_2 作為錨點節點,且沒有資料欄層次歷程連結將其連線至 target_table。

為何實體歷程顯示兩個輸入

實體歷程會擷取資料集層次相依性。如果處理工作讀取兩個資料集,而結果取決於這兩個資料集,則兩個資料集都是合法的上游實體。在此樣式中:
  • 如果沒有來源資料集 A ,則無法完整說明目標。
  • 如果沒有來源資料集 B ,目標也無法完整說明,因為來源資料集 B 會決定要保留來源資料集 A 的哪些記錄。
  • 因此,來源資料集 A 和來源資料集 B 都應該顯示為目標資料集 C 的上游實體。
這是相依性歷程,不是歷程值。

為何資料欄歷程僅顯示提供值的輸入

資料欄歷程會擷取值來源。它描述每個目標資料欄值的來源位置。

例如,如果目標表格在篩選來源資料集 B 的資料列之後,使用來源資料集 A 的資料列撰寫,則目標資料欄值仍然源自來源資料集 A。

資料欄對應範例:

目標資料欄 來源資料欄
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

來源資料集 B 會影響資料列是否存在,但其資料欄值不會複製到目標。因此,「來源資料集 B」可能會出現在實體歷程中,但不會出現在資料欄歷程中。

檢視資料歷程

您可以在工作區中看到資料在不同 Oracle AI Data Platform Workbench 使用者自建物件之間移動時的繼承。

  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程

    就會顯示「AI 資料平台工作台」工作區的主要目錄檢視。表格已按一下滑鼠右鍵,並顯示「共用與歷程」功能表選項。標示歷程。

  3. 隨即顯示歷程圖。

檢視特定資料欄的歷程

您可以透過歷程圖表追蹤特定資料欄的歷程。

  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 按一下表格或磁碟區使用者自建物件底部的箭號,即可將其展開。
  4. 按兩下您要反白歷程的資料欄。

檢視歷程構件的詳細資料

您可以在歷程圖表中查看使用者自建物件的其他詳細資訊。

  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 按兩下歷程圖表上的物件即可檢視其他詳細資訊。您也可以按一下滑鼠右鍵,然後按一下檢視詳細資訊
  4. 按一下「影響分析」頁標,以檢視構件的上游與下游影響。此頁籤僅適用於錨點節點。

匯出影響分析

您可以在檢視歷程構件的詳細資料時,匯出資料構件的影響分析。

附註:

您只能匯出資料構件的影響分析。
  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 按兩下歷程圖表中的資料人工因素。選取影響分析頁籤。
  4. 按一下「匯出影響分析」。
  5. 從下拉式功能表中,選取是否應包含上游、下游或所有物件。
  6. 按一下匯出

篩選歷程流程圖

您可以篩選歷程圖,以便在檢查歷程時專注於更具體的資料點。

  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 從下拉式功能表中,選取要篩選結果的特定目錄、綱要、磁碟區或工作區。

搜尋歷程流程圖中的不自然感

您可以在檢視使用者自建物件歷程時,搜尋字串來尋找歷程圖表中的特定使用者自建物件。

  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 在歷程圖表頂端的搜尋欄位中,輸入要搜尋的字串。
  4. 按一下清單中的結果,即可將該人工因素的圖表置中。

變更歷程流程深度

您可以更改歷程圖表顯示的上游或下游使用者自建物件層級數目,以協助您展開或縮小圖表的焦點。

  1. 瀏覽至您想要檢視歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 按一下右上方的 動作 3 點圖示 動作
  4. 按一下歷程設定

    將會顯示歷程三點動作功能表。標示歷程設定。

  5. 視需要修改上游深度下游深度
  6. 按一下「儲存」

分享歷程流程圖

您可以共用以直接連結或 PNG 影像形式顯示特定物件歷程的歷程圖。

  1. 瀏覽至您想要共用歷程之「主要目錄」中的使用者自建物件。
  2. 在使用者自建物件上按一下滑鼠右鍵,然後按一下歷程。您也可以選取物件並按一下右上方的動作,然後按一下歷程
  3. 按一下右上方的 動作 3 點圖示 動作

    已選取歷程三點動作功能表。「複製」連結和「匯出」目前歷程檢視會反白顯示。

  4. 選擇要分享歷程圖表的方式:
    • 按一下複製連結,即可直接將連結複製到剪貼簿。貼上連結以共用。
    • 按一下匯出目前的歷程檢視 (.png) 以匯出您歷程圖表的目前檢視,包括您已套用的任何篩選。