プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

DP CLIロード・ファイル: データ更新ダイアグラム

このトピックの図は、HiveからBDDのデータ処理コンポーネントによってロードされるデータ・セットを示しています。 この図は、DP CLIを使用してこのデータ・セットを更新する方法と、サンプルから完全にサイズを増やす方法を示しています。

この図は、データ処理CLIを介してBDDにロードされるデータ・セットについて、データ・ロード・オプションと更新オプションの要約を示しています。

この図では、左から右に、次のアクションが実行されます:
  • データ処理ワークフロー(DP CLI)を使用して、Hiveからデータ・セットをロードします。 データ・セットはStudioのカタログに表示されます。
  • これで、このデータ・セットからBDDプロジェクトを作成できます。 プロジェクト内のデータ・セットはカタログでこのデータ・セットを削除しないことに注意してください。 つまり、権限がある場合は、他のユーザーのカタログにこのデータ・セットが表示される可能性があります。 ただし、このデータ・セットはプロジェクトに格納されました。 これは、異なるバージョンのデータ・セットまたはプロジェクトのプライベート・バージョンのデータ・セットと考えることができます。
  • プロジェクトでは、Studioの「データ・セット全体のロード」アクションを使用して、プロジェクトにフル・データをロードできます。
  • データ処理CLIを使用して、このデータ・セットのスクリプト更新を実行することもできます。 スクリプト更新には2つのタイプがあります: Refresh DataおよびIncremental Update

    スクリプト更新を実行するには、Studioのデータ・セット・プロパティにあるデータ・セット論理名が必要です。 DP CLIに対して正しいデータ・セット論理名を指定することが重要です。 データ・セットがカタログ内にある場合、プロジェクト内にあるものと同じデータ・セットではありません。 データ・セットの論理名が正しいことに注意してください。

このダイアグラムについては、次の点に注意してください:
  • カタログでデータ・セットのDP CLIを使用してIncremental Updateを実行することはできません。データ・セットをプロジェクトに追加するときにのみ実行できます。
  • レコード識別子を指定したら、DP CLIを使用してIncremental Updateを実行できます。 このためには、データ・セットをStudioのプロジェクトに移動する必要があります。
  • このデータ・セットはHiveから到着したため、Studio内で更新することはできません。 かわりに、データ・セットの更新にDP CLIを使用できます。
  • データ全体をロードした後は、カタログに表示されるデータ・セットを変更しません。 データ・セットをプロジェクトに移動してデータ全体をロードする方法は、データ・セットの個人用バージョンを作成する方法と同じです。 次に、DP CLIコマンドRefresh dataおよびIncremental updateを使用して、このデータ・セットのスクリプト更新を記述できます。 これらの更新は、cronジョブとして定期的に実行できます。 更新は、このプロジェクトのこのデータ・セットの個人バージョンで実行されます。 これにより、このデータ・セットのバージョンは、カタログに表示されるデータ・セットのバージョンとは無関係です。

このワークフローでは、このデータ・セットに基づいて独自のプロジェクトを作成し、DP CLIでスクリプト更新を実行できます。 この方法は、新規データを回避して移入するBDDプロジェクトに適しています。

これにより、Studioで以前に作成した構成とビジュアライゼーションを引き続き使用し、新しいデータをその到着時に分析できます。