BDDの「データ処理」コンポーネントは、一連のプロセスおよびジョブを実行します。 このセットは、「データ処理ワークフロー」と呼ばれます。 これらのプロセスの多くは、Hadoopでネイティブに実行されます。
データ処理コンポーネントは、BDDの複数のワークフローを制御します。 たとえば、データ・ロード、データ更新などのワークフローを作成できます。 データ処理コンポーネントは、新しいHive表を検出し、データをBDDにロードします。 データ・リフレッシュ操作および増分更新が実行されます。 また、BDDデータ・セットは、BDDによって作成されるHive表と同期します。
たとえば、データ・ロードのワークフロー中に、データ処理コンポーネントは次のタスクを実行します:
- Hive表のデータの検出
- BDD内のデータ・セットの作成
- 検出されたデータ・セットに対するエンリッチメントの選択セットの実行
- データ・セットのプロファイリング
- データをDgraphにストリーミングすることで、データ・セットの索引を作成します。
Big Data Discoveryの開始時にデータ処理ワークフローを起動するには、「データ処理コマンドライン・インタフェース(DP CLI)」を使用します。
データ処理CLI
DP CLIは、Hadoopでデータ処理ワークフローを起動するシェルLinuxユーティリティです。 ステップと動作を制御できます。 DP CLIは手動で、またはcron
ジョブから実行できます。 データ処理ワークフローは、Hiveの個々の表、Hiveデータベース内のすべての表、またはHive内のすべての表に対して実行できます。 これは、ブラックリストやホワイトリストなど、DP CLI設定に依存します。
DP CLIを使用して実行できるジョブの一部を次に示します:
- Big Data Discovery (BDD)のインストール後、Hive表からデータをロードします。 BDDを最初にインストールするときには、既存のHive表は処理されません。 表でデータ処理操作を起動するには、DP CLIを使用する必要があります。
- データ更新の実行 これには次のものがあります。
- データをリフレッシュする操作。 Studioプロジェクトに既存のデータ・セットが再ロードされ、データ・セットのコンテンツがHiveからの最新データで完全に置換されます。
- 増分更新。 Studioプロジェクト内の既存のデータ・セットに新しいデータを追加します。
- BDD Hive Table Detectorを起動します(これはデータ処理のユーティリティです)。 BDD Hive表検出では、新しい表がHiveに追加されたかどうかが検出されます。 次に、ホワイトリストとブラックリストをチェックします。 表が渡す場合は、BDDにデータ・セットが作成されます。 また、対応するソースHive表を持たないBDDデータ・セットも削除されます。 これにより、BDDデータセットとHiveのデータ・セットの同期が維持されます。 データ・セットのBDDでの管理方法の詳細は、「Studioのデータ・セット・ライフサイクル」を参照してください。
データ処理およびDP CLIの詳細は、「データ処理ガイド」を参照してください。