このトピックでは、データ処理ワークフローの概要について説明します。
データ処理(DP)ワークフローは、Hive表からデータおよびメタデータを抽出し、Dgraphでデータ・セットとして収集するプロセスです。抽出されたデータはレコードに変換されますが、メタデータは、BDDデータ・セットを定義する属性を含む、レコードのスキーマを提供します。データ処理ワークフローは、Studioから起動するか、DP CLI (コマンド行インタフェース)ユーティリティを実行することによって起動します。
データ・セットがDgraphに収集されたら、Studioユーザーはデータ・セットを参照し、データ・セット内のレコードを問い合せることができます。Studioユーザーは、データ・セットを変更(変換)することも、削除することもできます。
データ処理ジョブは、Oozieによって割り当てられたSparkワーカーによって実行されます。データ処理は非同期実行されます。つまり、Sparkジョブは各Hive表のキューに配置されます。最初のHive表の最初のSparkジョブが終了すると、(2番目のHive表の)2番目のSparkジョブが開始され、以下順に続きます。
BDDデータ・セットはStudioユーザーが削除できますが、データ処理ソフトウェアでHive表を削除することはできません。この場合、廃止されたHive表を削除するかどうかはHive管理者次第です。
DataSetインベントリは、データ処理で使用可能なデータ・セットを追跡するための内部構造です。DataSetインベントリのメタデータには、データ・セットのスキーマが含まれます。
DataSetインベントリには、データ・セットが完全にプロビジョニングされている(したがって、Studioプロジェクトに追加できる)かどうかを示す、各データ・セットのingestStatus属性が含まれます。このフラグは、収集の完了を示すためにDgraph HDFSエージェントによって設定されます。
通常のデータ処理ワークフロー中、すべての属性のデフォルトの言語設定はunknown (特定の言語コードを持たないことを意味します)です。StudioとDPコマンド行インタフェース・ユーティリティは両方とも、ワークフローに使用する特定の言語コードを使用して構成できます。