11 系統(プレビュー)

Oracle AI Data Platform Workbenchの系統は、ノートブックおよびワークフローの実行を通じてデータ・アーティファクトがどのように関連しているかを示します。系統グラフは、サポートされているアーティファクトのアップストリーム・ソース、ダウンストリーム・コンシューマおよび列レベルの導出をトレースするのに役立ちます。

ノート:

系統メタデータは、ノートブックおよびワークフローの実行から取得されます。各プロセス実行について、サービスは現在、取得された最新の系統を表示し、履歴系統をまだ公開していません。

系統取得は、Spark構成の一部としてコンピュート・レベルで有効または無効になります。デフォルトでは、作成するすべてのコンピュートで系統が有効になります。系統を手動で無効にするには、コンピュート内の「拡張オプション」で「Spark」構成フィールドにspark.aidp.lineage.enabled = falseを追加します。系統を再度有効にするには、spark.aidp.lineage.enabled = trueを使用します。この設定はコンピュート固有です。つまり、あるコンピュートで系統を無効にすると、系統がまだ有効になっている別のコンピュートでワークフローが実行され、引き続き取得されます。

アーティファクトを右クリックして「系統」を選択すると、マスター・カタログからAIデータ・プラットフォーム・アーティファクトの系統を表示できます。AIデータ・プラットフォーム内のデータ・アーティファクト(表やボリュームなど)の系統を表示できます。現在、Lineageはテーブルをアンカーノードとしてサポートしていますが、テーブルとボリュームの両方を系統図の一部として表示します。


系統図。

「系統」ビューには、選択したデータ・アーティファクトのアップストリーム・アーティファクトとダウンストリーム・アーティファクトを含む系統グラフが表示されます。全体グラフ、アップストリームのみのビューおよびダウンストリームのみのビューを切り替えることができます。


系統ダイアグラムのナビゲータ・バー。ダウンストリーム、アップストリーム、系統グラフ、アンカーおよびズーム・ドロップダウン・メニューは、赤いテキストで示されます。

列レベルの系統を表示して、1つのデータ・アーティファクトの列が他のアーティファクトの列から導出、変換または伝播される方法をトレースできます。

左上の「フィルタ」アイコンをクリックして、キャンバスの上部にあるフィルタを非表示にできます。


系統ダイアグラム・フィルタ・バー。

リネージ・フローでデータ・アーティファクトを展開するには、アーティファクト・カードの下部にある下矢印をクリックします。アーティファクトが展開されると、特定のデータ列のアップストリームおよびダウンストリームの継承を確認できます。このファンクションは、表やボリュームなどのデータ列を含むアーティファクトに対してのみ機能します。


系統図が表示されます。表ノードcontent_engagementが選択され、展開されます。

展開されたアーティファクト・カードの場合、表またはボリュームを展開して、その列およびそれらに接続された列レベルの系統関係を表示します。リネージ・フローでデータ・アーティファクトを展開するには、アーティファクト・カードの下部にある下矢印をクリックします。アーティファクトが展開されると、特定の列のアップストリーム・データ・フローとダウンストリーム・データ・フローを表示できます。このファンクションは、表やボリュームなどのデータ列を含むアーティファクトに対してのみ機能します。

系統グラフで複数の表およびボリュームを展開して、それぞれのデータ・フローを表示できます。データ・アーティファクトを展開すると、青色の矢印に、ノートブックまたはワークフローの実行を通じて、ソース・アーティファクトの列がターゲット・アーティファクトの列にどのように貢献するかが示されます。個々の列のパスをダブルクリックして強調表示します。

青色の矢印は、ソース列とターゲット列の間の列レベルの系統関係を示します。これらの関係は、表、ボリューム、ノートブック、タスクおよびワークフロー間でデータがどのように導出、変換または伝播されるかを示します。列をダブルクリックして、グラフ全体の系統パスをハイライトします。


系統図が表示されます。content_engagementノードが展開され、engagement_dateデータ列が選択されています。濃い青色の矢印は、データ列をアップストリーム・ノードとダウンストリーム・ノードに接続します。

複数のデータ列を選択するには、[Shift]または[Ctrl]を押しながらクリックして複数のパスをハイライトします。

「系統」ウィンドウの右上にある「アクション」メニューから、表示されるアップストリーム・アーティファクトとダウンストリーム・アーティファクトの深さに影響する系統設定を制御したり、リンクをコピーするかPNGイメージをエクスポートすることで系統図を共有できます。


「系統アクション」ボタンが展開され、「系統設定」、「コピー」リンクおよび「現在の系統ビューのエクスポート」オプションが表示されています。

系統詳細

系統ダイアグラムでアーティファクトをダブルクリックすると、そのアーティファクトの詳細が表示されます。タスクの場合、詳細ページには、タスクとそれが属するジョブの両方の詳細が表示されます。表およびボリュームの場合、詳細ページには、表またはボリュームとその列に関する情報が表示されます。

データ・アーティファクトを右クリックして、「詳細の表示」または「アンカーとして設定」を選択できます。データ・アーティファクトをアンカーとして設定すると、現在表示されているダイアグラムがかわりにそのノードの中央に変更されます。

「詳細」ウィンドウの上部には、アーティファクト・タイプ、それが属するスキーマ、アップストリーム・アーティファクトとダウンストリーム・アーティファクトの数が表示されます。「説明」ペインで、「アセット」リンクをクリックすると、ワークスペース内のアーティファクトに移動します。


content_engagement_cleanノードの系統詳細ページが表示されます。「全般」タブが選択されています。

データ・アーティファクトの場合、「詳細」ウィンドウには、アーティファクトが最後に更新された日時、データ列に関する情報、形式およびデータ・アーティファクトが属するカタログが表示されます。ドロップダウン・メニューを使用して、特定のデータ列を名前で検索し、データ型でフィルタできます。

タスクおよびノートブックを含むプロセス・アーティファクトの場合、「詳細」ウィンドウには、アーティファクトに関連する情報(最新のタスクおよびジョブ・ステータス、期間、タスク・タイプ、ジョブまたはノートブックの名前とID、アタッチされたクラスタなど)が表示されます。右側のペインで、アーティファクト名に基づいてソース・アーティファクトとターゲット・アーティファクトを検索するか、ドロップダウン・メニューを使用して変換タイプをフィルタできます。

変換タイプ

AIデータ・プラットフォーム・ワークベンチでは、系統の追跡時に次の変換タイプがサポートされます。

入力してください 意味 シナリオの例 フィールド・マッピングの例
集計 出力フィールドは、複数の入力レコードを集計して計算されます。 サマリー表またはメトリックの作成。 total_sales = SUM(金額)
アイデンティティ 出力フィールドは、入力フィールドとまったく同じです(変更なし)。 表間でデータセットをコピーします。 customer_id→customer_id
変換 出力は、関数、キャスト、連結などを使用して入力フィールドから導出されます。 データの標準化またはクリーニング。 full_name = CONCAT(first_name, ', last_name)

影響分析

アンカー・ノードとして選択されたデータ・アーティファクトの「詳細」ウィンドウには、影響分析用の追加のタブがあります。「影響分析」タブから、特定のアーティファクト名を検索したり、アーティファクト・タイプでフィルタできます。「アップストリーム」または「ダウンストリーム」を選択して、現在選択されているアーティファクトのアップストリームまたはダウンストリームであるアーティファクトのみを表示できます。


「系統ノードcontent_engagement_clean詳細」ページが表示されます。「影響分析」タブが選択されています。

アップストリームの影響分析を使用して、依存関係を理解します。ダウンストリーム影響分析を使用して、選択したアーティファクトに対する変更によって影響を受ける可能性があるコンシューマを識別します。

「インポート分析のエクスポート」をクリックして、選択したデータ・アーティファクトに関連するアーティファクトをエクスポートします。アップストリーム・アーティファクト、ダウンストリーム・アーティファクトまたはすべての関連アーティファクトをエクスポートできます。

エンティティおよび列系統

複数のアップストリーム・データセットがターゲット・データセットの生成に関与する系統シナリオでは、それらのアップストリーム・データセットの一部のみが実際の列値をターゲットに寄与します。

エンティティ系統と列系統の主な違いは、回答する質問です。
  • エンティティ系統の回答:ターゲットの作成に参加したデータセットはどれですか。
  • 列系統の回答:ターゲット列の値を指定したソース列はどれですか。
これらの質問は異なるため、エンティティ系統と列系統は同じパイプラインで異なるように見えます。
一部の変換では、1つの入力がターゲットに書き込まれる行と列の値を提供し、もう1つの入力がフィルタ処理の参照としてのみ使用されます。このような場合:
  • エンティティ系統には、ターゲットが依存するすべてのアップストリーム・データセットが表示されます。
  • 列系統は、値提供の入力からのみ列レベルのフローを表示できます。
  • 参照入力は、ターゲット列に値をコントリビュートすることなく、ターゲット行セットに影響する可能性があります。
この動作が期待されます。

例: エンティティおよび列の系統

2つのソース・データセットに同じ列が含まれるが、同じ行が含まれないとします。
  • source_table_1には、プライマリ・データセットが含まれます。
  • source_table_2には、行の参照セットが含まれます。
  • ターゲット表は、両方のソース表に存在する行のみを保持することによって作成されます。
たとえば:

表11-1 source_table_1

product_id 販売日 数量 合計金額
101 2025-06-01 10 150.0
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0
104 2025-06-04 12 180.0

表11-2 source_table_2

product_id 販売日 数量 合計金額
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0
105 2025-06-05 18 270.0

表11-3 target_table

product_id 販売日 数量 合計金額
102 2025-06-02 20 300.0
103 2025-06-03 15 225.0

この例では、両方とも最終行セットを決定する必要があるため、両方のソース表がターゲットの作成に関与しています。


target_tableノードに接続されているinstersect ipynbノードに接続されているsource_table_1およびsource_table_2ノードで系統キャンバスが表示されます。

ただし、列系統の観点からは、ターゲット列の値は、source_table_1などの値提供の入力にのみ帰属できます。2番目の入力source_table_2は、ターゲットに適格な行を決定するために使用されますが、その値は必ずしもターゲット列にコピーされるわけではありません。


source_table_1ノードが展開された系統キャンバスと、target_tableによって継承された4つの列に接続されたinstersectノートブック・ノードに列を接続する青色の矢印

これらの理由から、系統ビューがsource_table_2にアンカーされている場合、次に示すように、列レベルの系統リンクは表示されません。


source_table_2をアンカー・ノードとして表示し、target_tableに接続する列レベルの系統リンクがない系統キャンバス。

エンティティ系統に両方の入力が表示される理由

エンティティ系統は、データセット・レベルの依存関係を取得します。処理ジョブが2つのデータセットを読み取り、その結果が両方に依存する場合、両方のデータセットは正当なアップストリーム・エンティティです。このパターンでは:
  • ソース・データセットAがないと、ターゲットを完全に説明できません。
  • ソース・データセットBは、ソース・データセットAのどのレコードを保持するかを決定するため、ソース・データセットBがないとターゲットを完全に説明できません。
  • したがって、ソース・データセットAとソース・データセットBの両方が、ターゲット・データセットCのアップストリーム・エンティティとして表示される必要があります。
これは値系統ではなく依存系統です。

列系統に値を提供する入力のみを表示する理由

列系統は、値の来歴を取得します。各ターゲット列の値の取得元を示します。

たとえば、ソース・データセットBから行をフィルタリングした後に、ソース・データセットAの行を使用してターゲット表が書き込まれた場合、ターゲット列の値は引き続きソース・データセットAから取得されます。

列マッピングの例:

ターゲット列 ソース列
target.product_id source_a.product_id
target.sales_date source_a.sales_date
target.quantity source_a.quantity
target.total_amount source_a.total_amount

ソース・データセットBは、行が存在するかどうかに影響しますが、その列値はターゲットにコピーされません。その結果、ソース・データセットBは、列系統に表示されていないときにエンティティ系統に表示されることがあります。

データ系統の表示

ワークスペース内のデータの継承は、様々なOracle AI Data Platform Workbenchアーティファクト間で移動されるときに確認できます。

  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。

    AI Data Platform Workbenchワークスペースのマスター・カタログ・ビューが表示されます。表が右クリックされ、「共有」および「系統」メニュー・オプションが表示されます。Lineageが強調表示されています。

  3. 系統図が表示されます。

特定のデータ列の系統の表示

系統図を使用して、特定のデータ列の系統をトレースできます。

  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. 表またはボリューム・アーティファクトの下部にある矢印をクリックして展開します。
  4. 系統を強調表示するデータ列をダブルクリックします。

系統アーティファクトの詳細の表示

系統ダイアグラムでアーティファクトの追加詳細を表示できます。

  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. 系統ダイアグラムでアーティファクトをダブルクリックして、追加の詳細を表示します。右クリックして「詳細の表示」をクリックすることもできます。
  4. 「影響分析」タブをクリックして、アーティファクトのアップストリームおよびダウンストリームの影響を表示します。このタブは、基準ノードでのみ使用できます。

影響分析のエクスポート

系統アーティファクトの詳細を表示しながら、データ・アーティファクトの影響分析をエクスポートできます。

ノート:

エクスポートできるのは、データ・アーティファクトの影響分析のみです。
  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. 系統ダイアグラムでデータ・アーティファクトをダブルクリックします。「影響分析」タブを選択します。
  4. 「影響分析のエクスポート」をクリックします。
  5. ドロップダウン・メニューから、アップストリーム、ダウンストリームまたはすべてのアーティファクトを含めるかどうかを選択します。
  6. 「エクスポート」をクリックします。

フィルタ系統フロー図

系統ダイアグラムをフィルタすると、系統の検査時により具体的なデータ・ポイントに集中できます。

  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. ドロップダウン・メニューから、結果を除外する特定のカタログ、スキーマ、ボリュームまたはワークスペースを選択します。

系統フロー・ダイアグラムでのアーティファクトの検索

アーティファクト系統を表示するときに、系統ダイアグラムで特定のアーティファクトを検索するための文字列を検索できます。

  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. 系統ダイアグラムの上部にある「検索」フィールドに、検索する文字列を入力します。
  4. リスト内の結果をクリックして、そのアーティファクトのダイアグラムを中央に配置します。

系統フローの深さの変更

系統ダイアグラムに表示するアップストリーム・アーティファクトまたはダウンストリーム・アーティファクトのレベルを変更して、ダイアグラムのフォーカスを拡張または絞り込むことができます。

  1. 系統を表示するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. 右上のアクションの3つのドット・アイコン 「アクション」をクリックします
  4. 「系統設定」をクリックします。

    「系統3点アクション」メニューが表示されます。系統設定が強調表示されます。

  5. 必要に応じて、アップストリームの深さおよびダウンストリームの深さを変更します。
  6. 保存」をクリックします

系統フロー図の共有

特定のオブジェクトの系統を示す系統図をダイレクト・リンクまたはPNGイメージとして共有できます。

  1. 系統を共有するマスター・カタログ内のアーティファクトにナビゲートします。
  2. アーティファクトを右クリックし、「系統」をクリックします。アーティファクトを選択して右上の「アクション」をクリックし、「系統」をクリックすることもできます。
  3. 右上のアクションの3つのドット・アイコン「アクション」をクリックします。

    「系統3点アクション」メニューが選択されています。「コピー」リンクと「現在の系統のエクスポート」ビューが強調表示されます。

  4. 系統ダイアグラムの共有方法を選択します。
    • 「リンクのコピー」をクリックして、リンクをクリップボードに直接コピーします。リンクを貼り付けて共有してください。
    • 「現在の系統ビューのエクスポート(.png)」をクリックして、適用したフィルタを含め、系統ダイアグラムの現在のビューをエクスポートします。