BDD内のデータ・セットはサンプリングすることも、データ・セット全体を表すこともできます。
サンプル・データ・セット
BDD内の「サンプル・データ・セット」は、Hiveにあるソース・データ・セットのランダムなサンプルを表します。 データ・セットがHiveで発生している場合は、データ処理CLIを使用してロードします。 DP CLIは、デフォルトのサンプル・サイズである1百万レコードを使用します。 データのロード時に異なるサンプル・サイズを指定できます。
フル・データ・セット
BDD内の「完全なデータ・セット」は、すべてのレコードを含むデータ・セットを表します(ロード元のソースと比較する場合)。 たとえば、データ・セットがHiveで発生し、DP CLIのサンプル・サイズがソースHive表のレコード数より大きい場合、このデータ・セットは完全にロードされます。
サンプルから完全なデータ・セットまで取得する方法の概要は、「データ・ロードとサンプル・サイズ」を参照してください
データ処理中のサンプリングおよびデータ・セット・ロードの詳細は、「データ処理ガイド」を参照してください。
Studioでのデータ・セットの追加および管理(フル・データ・セットのロードを含む)の詳細は、「Studioユーザー・ガイド」を参照してください。