データ・ロードとサンプル・サイズ

サンプルまたは完全なデータ・セットをロードできます。サンプルをロードすると、後で完全なデータ・セットに移動できます。このトピックでは、サンプルから完全なデータ・セットを取得する方法の概要を示します。

これらのオプションは上位レベルの要約のみです。詳細なステップは、各オプションの参照先ドキュメントを参照してください。

「データ処理CLIからロードする際のサンプル・サイズの制御」。 DP CLIにはデータ・サイズ・サンプルのパラメータがあります。デフォルトのサンプル・サイズは100万レコードです。データ・ロードにDP CLIを使用する際、このパラメータをカスタマイズできます:
- Hiveのソース・レコードのレコード数より少ない場合は、完全なデータ・セットがロードされます。この場合、データ・セット全体をすでにロードしています。これは、Studioのデータ・セット・マネージャのデータ容量フィールドに示されます:
- Hiveのレコード数より多い場合は、指定したサンプル・サイズに基づいて、サンプリングされたデータ・セットがロードされます。この場合、--Incremental updateフラグでDP CLIを使用するか、Studioで「完全データ・セットのロード」を使用して、Hiveからソース・データ・セット全体をロードできます。これで、BDDにフル・データ・セットを設定できます。
DP CLIによるサンプル・サイズの指定の詳細は、「データ処理ガイド」を参照してください。
「ファイルまたはJDBCソースからロードする際のデータ・セットのサイズの制御」。
個人ファイルからデータ・セットをロードする場合、またはJDBCソースからデータ・セットをインポートする場合は、すべてのデータがロードされます。ただし、システム上の他の場所にもある可能性があるソース・データと比較した場合は、サンプルの可能性があります。

後でソースからデータ全体を追加する場合は、ファイルをロードするときにBDDによって作成されたHiveデータ・セットを検索できます。次に、dropコマンドを使用して、データ・セットをHueに配置し、そのデータ・セットをproduction Hive表に置き換えます。その後、Studioのこの表で「完全データ・セットのロード」を実行できます。これにより、完全なデータ・セットがロードされます。

このプロセスは、BDDアプリケーションの作成と呼ばれます。この手順の詳細なステップは、「Studioユーザー・ガイド」でのBDDアプリケーションの作成に関するトピックを参照してください。