プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

プロジェクト内のフル・データ・セットのロード

データ・セットをプロジェクトに追加した後、データ・セット全体をプロジェクトにロードすることを選択できます。 これは、包括的なデータ分析およびBDDアプリケーションの構築に役立ちます。 この完全なデータ・ロードが行われないと、完全なデータ・セットが百万レコードを超える場合には、Studioでは約百万件のレコードのサンプリングされたデータ・セットが表示されることに注意してください。

「完全データ・セットのロード」オプションは次のように動作します:
  • これによって、データ・セットのHive表に格納されたすべてのレコードがロードされます。 これには、システム管理者が実行するすべての表更新が含まれます。 データの完全ロードは、最初の完全データ・ロード中にのみ実行されます。 最初のデータ・ロードの後、アクションが「データ・セットのリロード」に変更され、データ・セットを何回でも再ロードできます。
  • サンプリングされたデータ・セットは、データ・セットの全サイズまで増加します。
  • プロジェクトにコミットした変換スクリプトが含まれている場合、Studioはそのスクリプトをフル・データ・セットに対して実行します。 このように、すべての変換がプロジェクト内のデータ・セット全体に適用されます。

次の図は、完全なデータ・セットをプロジェクトにロードするワークフローを示しています:


データ・ライフサイクルのダイアグラムが表示され、完全なロード・ステップが含まれます。

このワークフローでは、次のアクションが実行されます:
  1. データ・セットはファイルまたはJDBCデータ・ソースからロードします。 これは、カタログへのデータ・セットの初期ロードです。
  2. その後、「変換」およびDiscoverを使用するために、データを確認してプロジェクトに追加できます。
  3. データ・セット全体をロードし、必要に応じてデータ・セットをリロードします。

データ・セット全体のロードは、特定のプロジェクト内のデータ・セットにのみ影響することに注意してください: カタログに表示されるデータ・セットには影響しません。

データ・セットがプロジェクトにすでに完全にロードされているかどうかを確認するには、「データ・セット・マネージャ」ページに移動して「レコード・データ・ボリューム」プロパティがFull data set is loadedを示しているかどうかを確認します。

プロジェクト内の完全なデータ・セットをロードするには:

  1. 構成オプション・メニューから、「プロジェクト設定」を選択します。
  2. 「データ・セット・マネージャ」を選択して、データ・セット名の横にあるオプションを展開します。
  3. 「完全データ・セットのロード」を選択します。
  4. 確認ダイアログで、「完全データ・セットのロード」を再度選択します。
  5. 「探索」または「変換」に戻ってロード操作の進行状況を監視します。
データ・セットのサイズによっては、ロードの完了に時間がかかる場合があります。 操作が終了したら、「データ容量」の情報を確認して、Full data set is loadedおよび「探索」ヘッダーがレコードの全件数を示すことができます。