Dgraph HDFSエージェントは、データ処理ワークフローからDgraphへのデータのロードで主な部分を果たします。
収集手順でのDgraph HDFSエージェントのロールは、データ処理ワークフローから出力Avroファイルを読み取って、収集用にフォーマットし、Dgraphに送信することです。
データ・セットの収集は、ラウンドロビン、多重化アルゴリズムで行われます。 Dgraph HDFSエージェントは、特定のデータ・セットからのレコードをバッチに分割します。 各バッチは、次のバッチが処理される前に、完全な収集として処理されます。 2つ以上のデータ・セットが処理されている場合、ラウンドロビン・アルゴリズムは各ソース・データ・セットからDgraphにレコード・バッチを送信する方法を切り替えます。 そのため、指定された1つの収集操作のみがDgraphによって一度に処理されていますが、この多重化スキームにより、すべてのアクティブな収集操作を公平にスケジュールできます。
データ処理がNULLまたは空の値をHDFS Avroファイルに書き込む場合、Dgraph HDFSエージェントは、バルク・ロード・インタフェースによる消費のためソース・データからレコードを作成するときにその値をスキップします。
スペル辞書の更新
Dgraph HDFSエージェントが収集リクエストをDgraphに送信するときに、バルク・ロード・リクエストのupdateSpellingDictionaries
フラグも設定します。 このため、Dgraphはデータ・コーパスからのデータ・セットのスペル・ディクショナリを更新します。 この操作は、収集が成功するたびに実行されます。 また、この操作により、データ・セットに対する検索問合せのスペル修正も可能になります。
マージ後操作
レコード・ファイルを収集用にDgraphに送信した後、Dgraph HDFSエージェントは、Dgraphデータベース・ファイルのすべての世代の完全なマージもリクエストします。
マージの最終結果は、Dgraphアウト・ログに記録されます。