収集用のHDFSからのレコードのインポート

Dgraph HDFSエージェントは、データ処理ワークフローからDgraphへのデータのロードで主な部分を果たします。

収集手順でのDgraph HDFSエージェントのロールは、データ処理ワークフローから出力Avroファイルを読み取って、収集用にフォーマットし、Dgraphに送信することです。

特に、収集プロセスの概要レベルでの一般的なステップは次のとおりです:

データ処理ワークフローは、出力ディレクトリのAvroファイルに一連のレコードを書き込むことで終了します。
次に、Sparkクライアントは、データ・セット名に基づいて、収集用のDgraphリーダー・ノードおよびバルク・ロード・ポートを特定します。レコードを収集するDgraphは、BDDデプロイメント内のDgraphクラスタ内のリーダーである必要があります。リーダーDgraphノードは選択され、Big Data Discoveryによって自動的に決定されます。
Dgraph HDFSエージェントは、Avroファイルを読み取り、そのファイルをDgraphのバルク・ロード・インタフェースが受け入れることができる形式で準備します。
Dgraph HDFSエージェントは、バルク・ロード・インタフェース・ポートを介してファイルをDgraphに送信します。
ジョブが正常に完了すると、初期データを保持しているファイルは削除されます。

データ・セットの収集は、ラウンドロビン、多重化アルゴリズムで行われます。 Dgraph HDFSエージェントは、特定のデータ・セットからのレコードをバッチに分割します。各バッチは、次のバッチが処理される前に、完全な収集として処理されます。 2つ以上のデータ・セットが処理されている場合、ラウンドロビン・アルゴリズムは各ソース・データ・セットからDgraphにレコード・バッチを送信する方法を切り替えます。そのため、指定された1つの収集操作のみがDgraphによって一度に処理されていますが、この多重化スキームにより、すべてのアクティブな収集操作を公平にスケジュールできます。

データ処理がNULLまたは空の値をHDFS Avroファイルに書き込む場合、Dgraph HDFSエージェントは、バルク・ロード・インタフェースによる消費のためソース・データからレコードを作成するときにその値をスキップします。

スペル辞書の更新

Dgraph HDFSエージェントが収集リクエストをDgraphに送信するときに、バルク・ロード・リクエストのupdateSpellingDictionariesフラグも設定します。このため、Dgraphはデータ・コーパスからのデータ・セットのスペル・ディクショナリを更新します。この操作は、収集が成功するたびに実行されます。また、この操作により、データ・セットに対する検索問合せのスペル修正も可能になります。

マージ後操作

レコード・ファイルを収集用にDgraphに送信した後、Dgraph HDFSエージェントは、Dgraphデータベース・ファイルのすべての世代の完全なマージもリクエストします。

マージ操作は、次の2つのアクションで構成されています:

Dgraph HDFSエージェントはURLマージ・リクエストをDgraphに送信します。
リクエストを受信すると、Dgraphによってマージが実行されます。

マージの最終結果は、Dgraphアウト・ログに記録されます。