増分更新の実行

このトピックでは、増分更新操作を実行する方法について説明します。

この手順では、データ・セットが増分更新用に構成されている(つまり、レコード識別子が構成されている)と仮定しています。

手順の例では、--tableフラグと--databaseフラグを使用していないことに注意してください。つまり、このコマンドは、データ・セットの作成元のHive表に対して実行されることになります。

データ・セットに対して増分更新を実行するには:

増分更新するデータ・セットのデータ・セット論理名を取得します:
1. Studioで「プロジェクト設定」 > 「データ・セット・マネージャ」に移動します。
2. 「データ・セット・マネージャ」で、データ・セットを選択して、その名前の横にあるオプションを展開します。
3. 「データ・セット論理名」フィールドから値を取得します。
Linuxコマンド・プロンプトから$BDD_HOME/dataprocessing/edp_cliディレクトリに変更します。
では、--incrementalUpdateフラグ、データセット論理名、およびフィルタ述語を使用してDP CLIを実行します。次に例を示します。:
```
./data_processing_CLI --incrementalUpdate 10128:WarrantyClaims "yearest > 1850"
```

操作が成功した場合、DP CLIはこれらのメッセージをstdout出力の末尾に出力します:

...
         client token: N/A
         diagnostics: N/A
         ApplicationMaster host: web2014.example.com
         ApplicationMaster RPC port: 0
         queue: root.fcalvill
         start time: 1437415956086
         final status: SUCCEEDED
         tracking URL: http://web2014.example.com:8088/proxy/application_1436970078353_0041/A
         user: fcalvill
data_processing_CLI finished with state SUCCESS

「トラッキングURL」フィールドには、このワークフローのアプリケーション・ページ(Cloudera ManagerまたはAmbari)へのHTTPリンクが表示されることに注意してください。「YARNアプリケーションの概要」ページでは、"FINISHED"の「状態」と、"SUCCESSFUL"のFinalStatusが必要です。「名前」フィールドには、次の例のようなエントリがあります:

EDP: IncrementalUpdateConfig{collectionId=MdexCollectionIdentifier{
databaseName=default_edp_2c08eb40-8eff-4c7e-b05e-2e451434936d, 
collectionName=default_edp_2c08eb40-8eff-4c7e-b05e-2e451434936d}, 
whereClause=claim_date >= unix_timestamp('2006-01-01 00:00:00', 'yyy-MM-dd HH:mm:ss')}

「名前」に関する次の点に注意してください:

IncrementalUpdateConfigは増分ワークフロー・タイプの名前です。
whereClauseは、コマンドで使用されるフィルタの述語をリストします。

Dgraph HDFSエージェント・ログで、Dgraph収集操作のステータスを確認することもできます。

増分更新で、フィルタの述語基準に一致するレコードがないと判断された場合、DP CLIは正常に終了し、レコードは更新されません。

このデータ・セットに対するその後の増分更新でも、引き続き同じデータ・セット論理名が使用されることに注意してください。このデータ・セットに増分更新cronジョブを設定する場合も、この名前を使用します。