データ処理

ソース・データの検出、サンプリング、プロファイリングおよびエンリッチメントのプロセスおよびジョブのセットをまとめてデータ処理と呼びます。

BDDのデータ処理コンポーネントのすべての特性(構成、動作、データ・タイプの扱い、およびログを含む)のほとんどの部分は、データ処理ガイドに説明されています。ただし、Studioの「コントロール・パネル」で変更するいくつかの設定については、このガイドで説明しています。

ワークフロー・マネージャ・サービス

ワークフロー・マネージャ・サービスは、SparkとBDDクライアント(Studioおよびデータ処理CLI)の間の仲介者として機能します。このサービスは、データ・セットのワークフロー・リクエストをBDDクライアントから受け取り、各ワークフローに必要な一連のSparkジョブ(サンプリング、検出、変換など)をYARNで実行するように委任します。Sparkジョブはそれぞれ非同期に実行され、サービスはジョブのステータスをStudioに通知します。ワークフロー・マネージャは、ジョブをBDDの他のコンポーネント(Dgraph、Dgraph HDFSエージェントなど)にも委任します。

ワークフロー・マネージャの構成の変更の詳細は、データ処理ガイドを参照してください。

データ処理CLI

データ処理コマンド行インタフェース(CLI)では、データ処理ワークフローの手動による起動およびHive表ディテクタ(次を参照)の起動を行う方法を提供します。cronジョブとして実行するよう構成することもできます。DP CLIはデータ・セットのワークフロー・リクエストをワークフロー・マネージャ・サービスに送信し、ワークフロー・マネージャ・サービスは必要に応じてジョブを実行するように委任します。

Hive表ディテクタ

Hive表ディテクタは、新規の表および削除された表についてHiveデータベースをモニターし、必要に応じてデータ処理ワークフローを起動するデータ処理コンポーネントです。CLIによって(Hive管理者によって手動で、またはcronジョブを介して自動的に)起動されます。