BDDのデータ・セットは、サンプリングしたり、完全なデータ・セットを表すことができます。
BDDのサンプル・データ・セットは、Hiveのソース・データ・セットのランダム・サンプルを表します。データ・セットがHiveに基づいている場合は、データ処理CLIを使用してロードします。DP CLIでは、デフォルトのサンプル・サイズの100万レコードを使用します。データのロード時、様々なサンプル・サイズを指定できます。
BDDの完全なデータ・セットは、すべてのレコードを含むデータ・セットを表します(ロード元のソースと比較する場合)。たとえば、データ・セットがHiveに基づいており、DP CLIのサンプル・サイズがHive表のソースのレコード数よりも多い場合、このデータ・セットはすべてロードされます。
サンプルから完全なデータ・セットまでを取得する方法のサマリーは、「データ・ロードおよびサンプル・サイズ」を参照してください
データ処理中のサンプリングおよびデータ・セットのロードの詳細は、『Oracle Big Data Discoveryデータ処理ガイド』を参照してください。
完全なデータ・セットのロードを含む、Studioでのデータ・セットの追加および管理の詳細は、『Oracle Big Data Discoveryデータ検索および分析ガイド』を参照してください。