この例は、DP CLIでワークフローを実行する際に生成される各種ログの概要を示します。
例では、Hive管理者がmasstownsという名前の表(マサチューセッツ州の市区町村に関する情報を含む)を作成したことを想定します。ワークフローは、「DPコマンド行インタフェース・ユーティリティ」で説明しているDP CLIで実行されます。
./data_processing_CLI --database default --table masstowns
--tableフラグでは、Hive表の名前を指定し、--databaseフラグでは、表が"default"という名前のHiveデータベースにあることを示し、--maxRecordsフラグではサンプル・サイズを最大1,000レコードに設定します。
...
EdpEnvConfig{endecaServer=http://web07.example.oracle.com:7003/endeca-server/, edpDataDir=/user/bdd/edp/data,
...
ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns,
newCollectionName=edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, runEnrichment=false,
maxRecordsForNewDataSet=1000000, languageOverride=en, operation=PROVISION_DATASET_FROM_HIVE,
transformScript=, accessType=public, autoEnrichPluginExcludes=[Ljava.lang.String;@459e1c7d}
...
「operation」フィールドには、データ処理ワークフローの操作タイプがリストされます。この例では、操作はPROVISION_DATASET_FROM_HIVEで、新規BDDデータ・セットをHive表から作成することを意味します。
...
[2015-07-28T14:58:55.881-04:00] [DataProcessing] [INFO] [] [org.apache.spark.Logging$class] [tid:main] [userID:fcalvill]
client token: N/A
diagnostics: N/A
ApplicationMaster host: busgg2014.us.oracle.com
ApplicationMaster RPC port: 0
queue: root.fcalvill
start time: 1438109897765
final status: SUCCEEDED
tracking URL: http://web07.example.com:8088/proxy/application_1437769147618_0007/A
user: fcalvill
New collection name = edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
data_processing_CLI finished with state SUCCESS
「tracking URL」フィールドには、このワークフローのアプリケーション・ページ(Cloudera ManagerまたはAmbari内)へのHTTPリンクが表示されます。
ID: application_1437769147618_0007
Name: EDP: ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns,
newCollectionName=edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d}
追跡UIフィールドの「履歴」をクリックすると、ジョブ履歴が表示されます。「アプリケーション概要」パネルの情報には、ジョブを実行したユーザーの名前、ジョブの最終ステータス、ジョブの経過時間が含まれます。FAILEDジョブは、「診断」フィールドにエラー情報があります。
「ログ」フィールドでログをクリックすると、stdoutとstderrの出力が表示されます。stderr出力は、FAILEDジョブに特に役立ちます。また、「stdout」セクションには、詳細な出力情報を表示するリンク(ここをクリックすると完全なログが表示されますという名前)があります。
New import request received: Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, user name: fcalvill, requestOrigin: FROM_DATASET Finished reading 333 records for Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, user name: fcalvill, requestOrigin: FROM_DATASET fetchMoreRecords for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d createBulkIngester edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d Starting ingest for: Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, user name: fcalvill, requestOrigin: FROM_DATASET sendRecordsToIngester 333 fetchMoreRecords for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d closeBulkIngester Ingest finished with 333 records committed and 0 records rejected. Status: INGEST_FINISHED. Request info: Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, user name: fcalvill, requestOrigin: FROM_DATASET Updating datasetInventory for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d Requesting attributes [dpLockTimestamp] from collection system-bddDatasetInventory with spec id='edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d' Received attributes [dpLockTimestamp] from collection system-bddDatasetInventory with spec id='edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d' updateRecord for collection system-bddDatasetInventory record specifier id='edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d' Adding assignments: [ingestStatus = FINISHED,] Removing assignments: [] updateRecord for collection: system-bddDatasetInventory, records affected: 1, records deleted: 0 Updating spelling dictionaries for collection edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d Finish updating spelling dictionaries for collection edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
収集操作は、最後の「ingestStatus = FINISHED」メッセージがログに記録されたときに完了します。
MessageParser constructor, parserCounter incremented, is now 1 Start ingest for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d Starting a bulk ingest operation batch 0 finish BatchUpdating status Success Ending bulk ingest at client's request - finalizing changes Bulk ingest completed: Added 333 records and rejected 0 records. Ingest end - 0.051MB in 1.014sec = 0.051MB/sec
この時点で、データ・セット・レコードはDgraphにあり、データ・セットはStudioで表示できます。
DP CLIから実行されるワークフローと同様に、Studioで生成されたワークフローも$BDD_HOME/logs/edpディレクトリにログを生成し、YARNログ、Dgraph HDFSエージェント・ログおよびDgraph出力ログも生成します。
また、Studioワークフローは$BDD_DOMAIN/servers/<serverName>/logs/bdd-studio.logファイルにも記録されます。