増分更新のためのプロジェクトのデータ・セットの構成

増分更新用のデータ・セットを準備するには、まずフル・データ・セットをロードし、更新時に適用する増分変更をStudioが特定できるようにレコード識別子を指定します。

増分更新はDP CLIで実行されます。ただし、Studioでは、このタイプの更新のデータ・セットを準備して、プロジェクト・データ・セットに対してDP CLIを使用して増分更新を実行できるようにします。

「増分更新」を使用すると、すでにロードしたデータを削除することなく、プロジェクト内の既存のデータ・セットに新しいデータを追加できます。すでにロードされたデータを保持し、新規データを引き続き追加する場合、最も便利です。

注意:

Studioから増分更新を実行することはできません。増分更新ワークフローの詳細と図は、「スタート・ガイド」を参照してください。 DP CLIを使用して増分更新を実行する方法の詳細は、「データ処理ガイド」を参照してください。

次のダイアグラムは、「更新用の構成」アクションを示しています。このアクションは、DP CLIで増分更新を実行するためのデータ・セットを準備します:

データ・ライフサイクルのダイアグラムが表示され、完全なロード・ステップと、更新用の構成ステップが含まれます。

この図では、左から右に、次のアクションが実行されます: データ・セットはファイルまたはJDBCソースからStudioにロードします。次に、データ・セットをプロジェクトに追加し、データ・セットを完全にロードします。これで、「更新用の構成」を実行できます。「更新用の構成」は、すでにプロジェクト内にあり、すでに完全にロード済であるデータ・セットに対してのみ実行できることに注意してください。

「更新用の構成」で2つのタスクを実行するアクション: データ・セット全体をロードし(データ・セット全体をロードする操作を再実行することにより)、レコード識別子を構成することができます。その後、データ・セットの増分更新を実行するときにデータ処理CLIによってレコード識別子が使用されます。

「レコード識別子」は、Hive表内のレコードとプロジェクト・データ・セット内のレコードの間のデルタを十分に判断できるだけ一意である必要があります。実際には、これは、一部のプロジェクト・データ・セットで、複数の属性の組合せであるレコード識別子を提供する必要があることを意味します。それ以外のプロジェクトでは、追加の組合せなしで一意のレコード識別子として機能する単一の属性を持つことができます。

Studioは、データ・セット内のどの属性がレコード識別子に適した候補であるかの識別に役立ちます。リストから属性をレコード識別子として選択すると、Studioでは、属性の組合せに一意の値があるデータ・セット内のレコードのパーセンテージが計算されます。一意性のスコアは100%である必要があります。つまり、データ処理ワークフローが失敗し、Studioに例外が返されます。

Studioでデータ・セットにすでにレコード識別子が定義されているかどうかを確認するには、「データ・セット・マネージャ」ページに移動して、「レコード識別子」プロパティが指定されているかどうかを確認します。

増分更新用のプロジェクトのデータ・セットを構成するには:

構成オプション・メニューから、「プロジェクト設定」を選択します。
「データ・セット・マネージャ」を選択し、データ・セット名の横にあるオプションを展開します。
「更新用の構成」を選択します。
データ・セットの属性をリストから選択します。その属性の「キーの一意性」が100%でない場合は、「+属性」をクリックして別の属性を追加し、一意性を改善します。
Studioでは、これらの属性がデータ・セットの新しい一意のレコード識別子として結合されます。
「更新用の構成」をクリックします。
このオプションをクリックすると、「完全データ・セットのロード」操作が自動的にバックグラウンド・プロセスとして開始されます。

この時点で、データ処理CLIのIncrementalUpdateコマンドを使用して、増分更新をスケジュールおよび実行できます。詳細は、「データ処理ガイド」を参照してください。