データ処理について

BDDの「データ処理」コンポーネントは、一連のプロセスおよびジョブを実行します。このセットは、「データ処理ワークフロー」と呼ばれます。これらのプロセスの多くは、Hadoopでネイティブに実行されます。

データ処理コンポーネントは、BDDの複数のワークフローを制御します。たとえば、データ・ロード、データ更新などのワークフローを作成できます。データ処理コンポーネントは、新しいHive表を検出し、データをBDDにロードします。データ・リフレッシュ操作および増分更新が実行されます。また、BDDデータ・セットは、BDDによって作成されるHive表と同期します。

たとえば、データ・ロードのワークフロー中に、データ処理コンポーネントは次のタスクを実行します:

Hive表のデータの検出
BDD内のデータ・セットの作成
検出されたデータ・セットに対するエンリッチメントの選択セットの実行
データ・セットのプロファイリング
データをDgraphにストリーミングすることで、データ・セットの索引を作成します。

Big Data Discoveryの開始時にデータ処理ワークフローを起動するには、「データ処理コマンドライン・インタフェース(DP CLI)」を使用します。

データ処理CLI

DP CLIは、Hadoopでデータ処理ワークフローを起動するシェルLinuxユーティリティです。ステップと動作を制御できます。 DP CLIは手動で、またはcronジョブから実行できます。データ処理ワークフローは、Hiveの個々の表、Hiveデータベース内のすべての表、またはHive内のすべての表に対して実行できます。これは、ブラックリストやホワイトリストなど、DP CLI設定に依存します。

DP CLIを使用して実行できるジョブの一部を次に示します:

Big Data Discovery (BDD)のインストール後、Hive表からデータをロードします。 BDDを最初にインストールするときには、既存のHive表は処理されません。表でデータ処理操作を起動するには、DP CLIを使用する必要があります。
データ更新の実行これには次のものがあります。
- データをリフレッシュする操作。 Studioプロジェクトに既存のデータ・セットが再ロードされ、データ・セットのコンテンツがHiveからの最新データで完全に置換されます。
- 増分更新。 Studioプロジェクト内の既存のデータ・セットに新しいデータを追加します。
BDD Hive Table Detectorを起動します(これはデータ処理のユーティリティです)。 BDD Hive表検出では、新しい表がHiveに追加されたかどうかが検出されます。次に、ホワイトリストとブラックリストをチェックします。表が渡す場合は、BDDにデータ・セットが作成されます。また、対応するソースHive表を持たないBDDデータ・セットも削除されます。これにより、BDDデータセットとHiveのデータ・セットの同期が維持されます。データ・セットのBDDでの管理方法の詳細は、「Studioのデータ・セット・ライフサイクル」を参照してください。

データ処理およびDP CLIの詳細は、「データ処理ガイド」を参照してください。