ワークフロー中のログの例

この例は、DP CLIでワークフローを実行する際に生成される各種ログの概要を示します。

例では、Hive管理者がmasstownsという名前の表(マサチューセッツ州の市区町村に関する情報を含む)を作成したことを想定します。ワークフローは、「DPコマンド行インタフェース・ユーティリティ」で説明しているDP CLIで実行されます。

DP CLIコマンドライン:

./data_processing_CLI --database default --table masstowns

--tableフラグでは、Hive表の名前を指定し、--databaseフラグでは、表が"default"という名前のHiveデータベースにあることを示し、--maxRecordsフラグではサンプル・サイズを最大1,000レコードに設定します。

コマンドのstdout

DP CLIは、実行に使用する構成を最初に出力します。

...
EdpEnvConfig{endecaServer=http://web07.example.oracle.com:7003/endeca-server/, edpDataDir=/user/bdd/edp/data, 
...
ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns,
newCollectionName=edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, runEnrichment=false,
maxRecordsForNewDataSet=1000000, languageOverride=en, operation=PROVISION_DATASET_FROM_HIVE,
transformScript=, accessType=public, autoEnrichPluginExcludes=[Ljava.lang.String;@459e1c7d}
...

「operation」フィールドには、データ処理ワークフローの操作タイプがリストされます。この例では、操作はPROVISION_DATASET_FROM_HIVEで、新規BDDデータ・セットをHive表から作成することを意味します。

ワークフローに成功した場合、stdoutは次のように終了します。

...
[2015-07-28T14:58:55.881-04:00] [DataProcessing] [INFO] [] [org.apache.spark.Logging$class] [tid:main] [userID:fcalvill] 
         client token: N/A
         diagnostics: N/A
         ApplicationMaster host: busgg2014.us.oracle.com
         ApplicationMaster RPC port: 0
         queue: root.fcalvill
         start time: 1438109897765
         final status: SUCCEEDED
         tracking URL: http://web07.example.com:8088/proxy/application_1437769147618_0007/A
         user: fcalvill
New collection name = edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
data_processing_CLI finished with state SUCCESS

「tracking URL」フィールドには、このワークフローのアプリケーション・ページ(Cloudera ManagerまたはAmbari内)へのHTTPリンクが表示されます。

$BDD_HOME/logs/edp logs

この例では、$BDD_HOME/logs/edpディレクトリには3つのログがあります。これらの1つの所有者は、DP CLIを実行した人物のユーザーIDであり、他の2つのログの所有者はユーザーyarnです。

YARN以外のログには、stdout情報と同様の情報が含まれます。Sparkエグゼキュータのエントリが含まれます。
YARNログには、次の項のYARNログに似た情報が含まれます。

YARNログ

YARN ResourceManager Web UIリンクを使用する場合、「すべてのアプリケーション」ページには実行されたSparkアプリケーションが表示されます。この例では、ジョブIDとジョブ名は次のとおりです。

ID: application_1437769147618_0007
Name: EDP: ProvisionDataSetFromHiveConfig{hiveDatabaseName=default, hiveTableName=masstowns, 
      newCollectionName=edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d}

「Name」フィールドには、ジョブに関する次の特性が表示されます。

ProvisionDataSetFromHiveConfigは、実行されたDPワークフローのタイプです。
hiveDatabaseNameには、Hiveデータベースの名前(この例ではdefault)がリストされます。
hiveTableNameには、プロビジョニングされたHive表の名前(この例ではmasstowns)がリストされます。
newCollectionNameには、新規データ・セットの名前がリストされます。名前は、Studioの「データ・セット・マネージャ」ページのデータ・セットの「データ・セット・キー」プロパティに表示されます。

追跡UIフィールドの「履歴」をクリックすると、ジョブ履歴が表示されます。「アプリケーション概要」パネルの情報には、ジョブを実行したユーザーの名前、ジョブの最終ステータス、ジョブの経過時間が含まれます。FAILEDジョブは、「診断」フィールドにエラー情報があります。

「ログ」フィールドでログをクリックすると、stdoutとstderrの出力が表示されます。stderr出力は、FAILEDジョブに特に役立ちます。また、「stdout」セクションには、詳細な出力情報を表示するリンク(ここをクリックすると完全なログが表示されますという名前)があります。

Dgraph HDFSエージェントのログ

DPワークフローが終了すると、Dgraph HDFSエージェントはDPで作成されたファイルをフェッチし、それらを収集のためにDgraphに送信します。収集操作用のDgraph HDFSエージェント・コンポーネントのログ・メッセージは、次のエントリのようになります(メッセージだけ示されています)。

New import request received: Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   user name: fcalvill, requestOrigin: FROM_DATASET
Finished reading 333 records for Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   user name: fcalvill, requestOrigin: FROM_DATASET
fetchMoreRecords for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
createBulkIngester edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
Starting ingest for: Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   user name: fcalvill, requestOrigin: FROM_DATASET
sendRecordsToIngester 333
fetchMoreRecords for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
closeBulkIngester
Ingest finished with 333 records committed and 0 records rejected. Status: INGEST_FINISHED. 
   Request info: Collection name: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   location: /user/bdd/edp/data/.dataIngestSwamp/edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d, 
   user name: fcalvill, requestOrigin: FROM_DATASET
Updating datasetInventory for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
Requesting attributes [dpLockTimestamp] from collection system-bddDatasetInventory 
   with spec id='edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d'
Received attributes [dpLockTimestamp] from collection system-bddDatasetInventory 
   with spec id='edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d'
updateRecord for collection system-bddDatasetInventory record specifier id='edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d'
Adding assignments: [ingestStatus = FINISHED,]
Removing assignments: []
updateRecord for collection: system-bddDatasetInventory, records affected: 1, records deleted: 0
Updating spelling dictionaries for collection edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d
Finish updating spelling dictionaries for collection edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d

収集操作は、最後の「ingestStatus = FINISHED」メッセージがログに記録されたときに完了します。

Dgraph出力ログ

データ・セットの収集操作の結果として、Dgraph出力ログ(dgraph.out)に次のbulk_ingestメッセージがあります。

MessageParser constructor, parserCounter incremented, is now 1	
Start ingest for collection: edp_cli_edp_cd2e1b2d-b072-4cb0-9359-549431655b0d	
Starting a bulk ingest operation	
batch 0 finish BatchUpdating status Success	
Ending bulk ingest at client's request - finalizing changes	
Bulk ingest completed: Added 333 records and rejected 0 records.	
Ingest end - 0.051MB in 1.014sec = 0.051MB/sec

この時点で、データ・セット・レコードはDgraphにあり、データ・セットはStudioで表示できます。

Studioログ

DP CLIから実行されるワークフローと同様に、Studioで生成されたワークフローも$BDD_HOME/logs/edpディレクトリにログを生成し、YARNログ、Dgraph HDFSエージェント・ログおよびDgraph出力ログも生成します。

また、Studioワークフローは$BDD_DOMAIN/servers/<serverName>/logs/bdd-studio.logファイルにも記録されます。