BDDにロードされるデータの更新方法と、各更新タイプが使用可能な場合のサマリーを次に示します。
データ更新オプション
DP CLIで実行した更新は、「スクリプト更新」とも呼ばれます。
Studioでのデータ・セットのリロード
Studioの「データ・セットのリロード」オプションは、以前にロードしたものより新しいバージョンのデータをリロードする場合に便利です。 これは、個人的にアップロードされたファイルおよびJDBCソースからインポートされたデータに適用されます。 このオプションは、Studioカタログのデータ・セットに対してのみ機能します。
Studioにロードされたデータ・セットを更新するダイアグラムについては、このガイドの「Studioロード・ファイル: データ更新ダイアグラム」を参照してください。
Studioでデータをロードおよびリロードするための詳細な手順は、「Studioユーザー・ガイド」のセクションを参照してください。
DP CLIによるデータのリフレッシュ
DP CLIからのRefresh data
操作はStudioプロジェクトに既存のデータ・セットを再ロードし、データ・セットのコンテンツをHiveからの最新データで全体に置き換えます。 ソースHive表のスキーマが変更された場合は、新しく参照したデータ・セットを処理します。 この更新タイプでは、古いデータが削除され、新しいデータで置換されます。 新しい属性が追加されたり、属性が削除される場合があります。 また、属性のデータ型が変わる場合があります。
DP CLIでロードされたデータ・セットを更新する図は、このガイドの「DP CLIロード・ファイル: データ更新ダイアグラム」を参照してください。
DP CLIでスクリプト更新を実行する方法の詳細は、「データ処理ガイド」を参照してください。
DP CLIによる増分更新の実行
DP CLIからのIncremental update
操作では、すでにロードされているデータを削除せずに、既存のBDDアプリケーションに新しいデータを追加できます。 このタイプの更新では、レコード・スキーマを変更できません。 増分更新は、すでにロードされたデータを保持しているが、新しいデータを引き続き追加する場合に最も有効です。 たとえば、すでにロードされているバッチに、より新しい12個のフィードを追加できます。
DP CLIでロードされたデータ・セットを更新する図は、このガイドの「DP CLIロード・ファイル: データ更新ダイアグラム」を参照してください。
DP CLIでスクリプト更新を実行する方法の詳細は、「データ処理ガイド」を参照してください。
各タイプの更新を使用する場合
データ更新のタイプ | 次のときに有効... |
---|---|
「カタログのデータ・セットのリロード」 (Studio内) | この更新は、ロードされたファイルを更新されたバージョンで置き換える場合に便利です。 同様に、JDBCソース内のデータが更新された場合は、それをリロードできます。 |
DP CLI (Refresh data およびIncremental update )によるスクリプト更新
|
DP CLIを使用してデータをロードするためのデータ処理ワークフローを実行するときに、Studioアップロードから発生したファイル、およびHiveでBDDによって検出されたファイルに対して、スクリプト化された更新を実行できます。
データ処理CLIからこれらの更新のオプションを使用するHadoopマシン上に更新スクリプトおよび ソース・データの特性に応じて、スクリプト更新の両方のタイプを定期的に、または1つのみ実行する必要があります。 たとえば、毎晩増分更新を実行する 定期的な増分更新に加えて、
|