ここでは、BDDにロードされるデータの更新方法および各タイプの更新の最適なタイミングについて概要を説明します。
DP CLIで実行する更新は、スクリプト化された更新とも呼ばれます。
Studio内の「データ・セットのリロード」オプションは、以前にロードしたデータよりも新しいバージョンをリロードする場合に便利です。これは、個人的にアップロードしたファイルおよびJDBCソースからインポートしたファイルに適用されます。このオプションは、Studioの「カタログ」のデータ・セットでのみ機能することに注意してください。
Studioでロードされたデータ・セットの更新の図は、このガイドの「Studioによってロードされたファイル: データ更新の図」を参照してください。
Studioでのデータのロードおよびリロードの詳細手順は、データ検索および分析ガイド内の項を参照してください。
DP CLIのデータのリフレッシュ操作では、Studioプロジェクトの既存のデータ・セットをリロードし、データ・セットの内容全体をHiveからのデータ・セットで置き換えます。ソースHive表のスキーマが変更されると、新しく参照されるデータ・セットも変更されます。このタイプの更新では、古いデータは削除され、新しいデータに置き換わります。新しい属性が追加されたり、属性が削除される場合があります。また、属性のデータ型が変更される場合もあります。
DP CLIでロードされたデータ・セットの更新の図は、このガイドの「DP CLIによってロードされたファイル: データ更新の図」を参照してください。
DP CLIによるスクリプト化された更新の実行方法の詳細は、データ処理ガイドを参照してください。
DP CLIの増分更新操作では、すでにロードされているデータを削除することなく、新しいデータを既存のBDDアプリケーションに追加できます。このタイプの更新では、レコードのスキーマは変更できません。増分更新は、すでにロードされたデータを保持しながら、新しいデータの追加を続行する場合に最も便利です。たとえば、最近のTwitterフィードをすでにロードしたフィードに追加できます。
DP CLIでロードされたデータ・セットの更新の図は、このガイドの「DP CLIによってロードされたファイル: データ更新の図」を参照してください。
DP CLIによるスクリプト化された更新の実行方法の詳細は、データ処理ガイドを参照してください。
データ更新のタイプ | 最適なタイミング |
---|---|
「カタログ」のデータ・セットのリロード (Studio内) | この更新は、ロードしたファイルを更新したバージョンのファイルで置き換える場合に便利です。JDBCソースのデータが更新された場合も、同じようにリロードできます。 |
DP CLIによるスクリプト化された更新(データのリフレッシュおよび増分更新) | データ・ロードのデータ処理ワークフローを開始し実行する際、Studioのアップロードから作成されたファイル、およびBDDによってHive内で検出されたファイルに対してスクリプト化された更新を実行できます。
これらの更新のオプションをデータ処理CLIから使用するHadoopマシン上で、更新スクリプトおよびcronジョブを記述することで、スクリプト化された更新のいずれかのタイプを定期的に実行できます。 スクリプト化された更新では、ソース・データの特性に応じて、両方のタイプの更新を定期的に実行することが必要になる場合もあれば、いずれか一方のみの更新ですむ場合もあります。 たとえば、増分更新を夜間に実行するcronジョブを作成する必要があるとします。この場合、その日のデータをStudioのプロジェクトの既存のデータ・セットに追加します。 定期的な増分更新に加えて、データのリフレッシュの更新を毎週実行し、卸売りプロジェクトのデータを、その週にHiveで収集した新しいデータで置き換えることができます。 データのリフレッシュの更新では、ソース・データ・セットからの削除を処理できるため、毎週実行する場合にも便利です。 |