Dgraph HDFSエージェントは、Studioプロジェクトからデータをエクスポートするためのコンジットです。
Studioのプロジェクト内から、データを新しいAvroファイル(.avro
拡張子)、CSVファイル(.csv
拡張子)またはテキスト・ファイル(.txt
拡張子)としてエクスポートできます。 ファイルは、コンピュータ上の外部ディレクトリまたはHDFSにエクスポートできます。 操作の詳細は、「Studioユーザー・ガイド」を参照してください。
ユーザーがStudioからHDFSのファイルにデータ・セットをエクスポートする場合、エクスポートされるファイル所有者は常にHDFSエージェント・プロセスの所有者(またはKerberizedクラスタ内のHDFSエージェント・プリンシパルの所有者)になります。 つまり、Dgraph HDFSエージェントは、エクスポート・リクエストからユーザー名を使用して、FileSystemオブジェクトを作成します。 そのようにすると、ユーザーがファイルに権限がない場合、BDDによってファイルが作成されないことが保証され、ファイルが作成されると、そのユーザーがファイルを所有します。 グループは、Hadoopによって自動的に割り当てられます。
.csv
ファイルが作成されます。
.txt
ファイルが作成されます。
HDFSにエクスポートする場合、データからHive表を作成するオプションもあります。 Hive表が作成された後、データ処理ワークフローが起動され、新しいデータ・セットが作成されます。
次の図は、StudioからHDFSにデータをエクスポートするプロセスを示しています:
エクスポート中に発生する可能性のあるエラーは、Dgraph HDFSエージェント・ログに入力されます。