プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

データ・ロードとサンプル・サイズ

サンプルまたは完全なデータ・セットをロードできます。 サンプルをロードすると、後で完全なデータ・セットに移動できます。 このトピックでは、サンプルから完全なデータ・セットを取得する方法の概要を示します。

これらのオプションは上位レベルの要約のみです。 詳細なステップは、各オプションの参照先ドキュメントを参照してください。
  • 「データ処理CLIからロードする際のサンプル・サイズの制御」 DP CLIにはデータ・サイズ・サンプルのパラメータがあります。 デフォルトのサンプル・サイズは100万レコードです。 データ・ロードにDP CLIを使用する際、このパラメータをカスタマイズできます:
    • Hiveのソース・レコードのレコード数より少ない場合は、完全なデータ・セットがロードされます。 この場合、データ・セット全体をすでにロードしています。 これは、Studioのデータ・セット・マネージャのデータ容量フィールドに示されます:
      データ・ボリュームに、フル・データ・セットがロードされていることが示されます。

    • Hiveのレコード数より多い場合は、指定したサンプル・サイズに基づいて、サンプリングされたデータ・セットがロードされます。 この場合、--Incremental updateフラグでDP CLIを使用するか、Studioで「完全データ・セットのロード」を使用して、Hiveからソース・データ・セット全体をロードできます。 これで、BDDにフル・データ・セットを設定できます。

    DP CLIによるサンプル・サイズの指定の詳細は、「データ処理ガイド」を参照してください。

  • 「ファイルまたはJDBCソースからロードする際のデータ・セットのサイズの制御」

    個人ファイルからデータ・セットをロードする場合、またはJDBCソースからデータ・セットをインポートする場合は、すべてのデータがロードされます。 ただし、システム上の他の場所にもある可能性があるソース・データと比較した場合は、サンプルの可能性があります。

    後でソースからデータ全体を追加する場合は、ファイルをロードするときにBDDによって作成されたHiveデータ・セットを検索できます。 次に、dropコマンドを使用して、データ・セットをHueに配置し、そのデータ・セットをproduction Hive表に置き換えます。 その後、Studioのこの表で「完全データ・セットのロード」を実行できます。 これにより、完全なデータ・セットがロードされます。

    このプロセスは、BDDアプリケーションの作成と呼ばれます。 この手順の詳細なステップは、「Studioユーザー・ガイド」でのBDDアプリケーションの作成に関するトピックを参照してください。