プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

サンプルおよび完全なデータ・セット

BDD内のデータ・セットはサンプリングすることも、データ・セット全体を表すこともできます。

サンプル・データ・セット

BDD内の「サンプル・データ・セット」は、Hiveにあるソース・データ・セットのランダムなサンプルを表します。 データ・セットがHiveで発生している場合は、データ処理CLIを使用してロードします。 DP CLIは、デフォルトのサンプル・サイズである1百万レコードを使用します。 データのロード時に異なるサンプル・サイズを指定できます。

  • Hiveで設定されているソース・データのサイズよりも小さいサンプル・サイズを指定すると、サンプル・データ・セットがBDDにロードされます。
  • ソース・データ・セットのサイズ以上のサンプル・サイズを指定すると、完全なデータ・セットがロードされます。

フル・データ・セット

BDD内の「完全なデータ・セット」は、すべてのレコードを含むデータ・セットを表します(ロード元のソースと比較する場合)。 たとえば、データ・セットがHiveで発生し、DP CLIのサンプル・サイズがソースHive表のレコード数より大きい場合、このデータ・セットは完全にロードされます。

サンプルから完全なデータ・セットまで取得する方法の概要は、「データ・ロードとサンプル・サイズ」を参照してください

データ処理中のサンプリングおよびデータ・セット・ロードの詳細は、「データ処理ガイド」を参照してください。

Studioでのデータ・セットの追加および管理(フル・データ・セットのロードを含む)の詳細は、「Studioユーザー・ガイド」を参照してください。