プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceスタート・ガイド

E65362-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

データ更新オプション

BDDにロードされるデータの更新方法と、各更新タイプが使用可能な場合のサマリーを次に示します。

データ更新オプション

すでにロードされているデータを更新するには、次のオプションがあります:
  • Studioでのデータ・セットのリロード
  • DP CLIによるデータのリフレッシュ
  • DP CLIによる増分更新の実行
  • 各タイプの更新を使用する場合

DP CLIで実行した更新は、「スクリプト更新」とも呼ばれます。

Studioでのデータ・セットのリロード

Studioの「データ・セットのリロード」オプションは、以前にロードしたものより新しいバージョンのデータをリロードする場合に便利です。 これは、個人的にアップロードされたファイルおよびJDBCソースからインポートされたデータに適用されます。 このオプションは、Studioカタログのデータ・セットに対してのみ機能します。

Studioにロードされたデータ・セットを更新するダイアグラムについては、このガイドの「Studioロード・ファイル: データ更新ダイアグラム」を参照してください。

Studioでデータをロードおよびリロードするための詳細な手順は、「Studioユーザー・ガイド」のセクションを参照してください。

DP CLIによるデータのリフレッシュ

DP CLIからのRefresh data操作はStudioプロジェクトに既存のデータ・セットを再ロードし、データ・セットのコンテンツをHiveからの最新データで全体に置き換えます。 ソースHive表のスキーマが変更された場合は、新しく参照したデータ・セットを処理します。 この更新タイプでは、古いデータが削除され、新しいデータで置換されます。 新しい属性が追加されたり、属性が削除される場合があります。 また、属性のデータ型が変わる場合があります。

DP CLIでロードされたデータ・セットを更新する図は、このガイドの「DP CLIロード・ファイル: データ更新ダイアグラム」を参照してください。

DP CLIでスクリプト更新を実行する方法の詳細は、「データ処理ガイド」を参照してください。

DP CLIによる増分更新の実行

DP CLIからのIncremental update操作では、すでにロードされているデータを削除せずに、既存のBDDアプリケーションに新しいデータを追加できます。 このタイプの更新では、レコード・スキーマを変更できません。 増分更新は、すでにロードされたデータを保持しているが、新しいデータを引き続き追加する場合に最も有効です。 たとえば、すでにロードされているバッチに、より新しい12個のフィードを追加できます。

DP CLIでロードされたデータ・セットを更新する図は、このガイドの「DP CLIロード・ファイル: データ更新ダイアグラム」を参照してください。

DP CLIでスクリプト更新を実行する方法の詳細は、「データ処理ガイド」を参照してください。

各タイプの更新を使用する場合

この表は、各タイプの更新を使用すると便利な場合をまとめたものです。
データ更新のタイプ 次のときに有効...
「カタログのデータ・セットのリロード」 (Studio内) この更新は、ロードされたファイルを更新されたバージョンで置き換える場合に便利です。 同様に、JDBCソース内のデータが更新された場合は、それをリロードできます。
DP CLI (Refresh dataおよびIncremental update)によるスクリプト更新 DP CLIを使用してデータをロードするためのデータ処理ワークフローを実行するときに、Studioアップロードから発生したファイル、およびHiveでBDDによって検出されたファイルに対して、スクリプト化された更新を実行できます。

データ処理CLIからこれらの更新のオプションを使用するHadoopマシン上に更新スクリプトおよびcronジョブを記述することで、スクリプト更新のタイプを定期的に実行できます。

ソース・データの特性に応じて、スクリプト更新の両方のタイプを定期的に、または1つのみ実行する必要があります。

たとえば、毎晩増分更新を実行するcronジョブを作成するとします。 これにより、その日のデータがStudioのプロジェクトにある既存のデータ・セットに追加されます。

定期的な増分更新に加えて、Refresh dataの更新を毎週実行して、プロジェクト卸売のデータを、その週にHiveで収集された新しいデータに置き換えることができます。

Refresh dataの更新は、ソース・データ・セットからの削除を処理できるため、毎週実行する場合にも便利です。