DP CLIワークフローの例

このトピックでは、DP CLIを使用するワークフローの例をいくつか示します。

特定のデータ・エンリッチメント・モジュールの除外

--excludePluginsフラグ(-epと省略)では、エンリッチメントの実行時に除外するデータ・エンリッチメント・モジュールのリストを指定します。このフラグは、エンリッチメントをワークフローの一部として実行する場合にのみ使用する必要があります(たとえば、--excludePluginsフラグを指定)。

構文は次のとおりです。
./data_processing_CLI --excludePlugins <excludeList>
excludeListは、次の1つ以上のデータ・エンリッチメント正規モジュール名のスペース区切り文字列です。
  • address_geo_tagger (住所GeoTagger)
  • ip_geo_extractor (IPアドレスGeoTagger)
  • reverse_geo_tagger (リバースGeoTagger)
  • tfidf_term_extractor (TF.IDF語エクストラクタ)
  • doc_level_sentiment_analysis (ドキュメント・レベルのセンチメント分析モジュール)
  • language_detection (言語検出モジュール)
次に例を示します。
./data_processing_CLI --table masstowns --runEnrichment --excludePlugins reverse_geo_tagger

データ・エンリッチメント・モジュールの詳細は、「データ・エンリッチメント・モジュール」を参照してください。

中止されたジョブのクリーンアップ

--cleanAbortedJobsフラグ(-cleanと省略)は、不完全なデータ処理ワークフローで残されたアーティファクトをクリーンアップします。
./data_processing_CLI --cleanAbortedJobs
成功した結果は、次の例のようになります。
...
[2015-07-13T10:18:13.683-04:00] [DataProcessing] [INFO] [] [org.apache.spark.Logging$class] [tid:main] [userID:fcalvill] 
         client token: N/A
         diagnostics: N/A
         ApplicationMaster host: web12.example.com
         ApplicationMaster RPC port: 0
         queue: root.fcalvill
         start time: 1436797065603
         final status: SUCCEEDED
         tracking URL: http://web12.example.com:8088/proxy/application_1434142292832_0016/A
         user: fcalvill
Clean aborted job completed.
data_processing_CLI finished with state SUCCESS
YARN Allアプリケーション・ページのワークフローの名前は次のようになります。
EDP: CleanAbortedJobsConfig{}

DPコンポーネントのPingチェック

--pingCheckフラグ(-pingと省略)では、データ処理に必要なコンポーネントのステータスのpingチェックを行います。
./data_processing_CLI --pingCheck
成功した結果は、次の例のようになります。
...
[2015-07-14T14:52:32.270-04:00] [DataProcessing] [INFO] [] [com.oracle.endeca.pdi.logging.ProvisioningLogger]
[tid:main] [userID:fcalvill] Ping check time elapsed: 7 ms
data_processing_CLI finished with state SUCCESS