データ処理に関する問題をデバッグする上で有用な情報が含まれる可能性があるCDHログ・ファイルがいくつか存在します。
YARNログ
データ処理ログを検索するには:
- OozieのWeb UIに移動し、OozieジョブIDを使用して対応するジョブを検索します。
- ジョブをクリックし、詳細なOozie情報を表示します。
- 「アクション」ペインで、DataProcessingJavaTaskという名前のアクションをクリックします。
- 「アクション」ペインのアクション情報タブで、外部IDを検索します。外部IDはYARNジョブIDと一致します。
- YARN HistoryServerのWeb UIに移動し、Oozie外部ジョブIDを使用して対応するジョブを検索します。これを行うには、次の手順を実行します。
- Cloudera Manager UIを参照し、左側のペインのYARNサービスをクリックします。
- 左上の「クイック・リンク」セクションで、HistoryServer Web UIをクリックします。
- ジョブをクリックし、詳細なMapReduce情報を表示します。
- 「マップ」タスク・タイプをクリックし、ジョブの「タスクのマップ」ページに移動します。
- マップ・タスクをクリックします。このページにあるマップ・タスクは1つのみです。
- 「ログ」リンクをクリックします。これにより、ロギング情報とマップ・タスクのstdoutおよびstderrの完全ログへのリンクが含まれるページが表示されます。
- stderrまたはstdoutのログ・タイプ・セクションで、「完全ログはここをクリックしてください」リンクをクリックします。これにより、選択したログ・タイプの完全ログが表示されます。
stdoutログには、次の省略エントリに示すように、ワークフローに対して起動されたデータ処理操作タイプがリストされます。
>>> Invoking Main class now >>>
Main class : com.oracle.endeca.pdi.EdpOozieJobReceiver
Arguments :
PROVISION_DATASET_FROM_HIVE
{
"@class" : "com.oracle.endeca.pdi.client.config.EdpEnvConfig",
"endecaServer" : {
"@class" : "com.oracle.endeca.pdi.concepts.EndecaServer",
"host" : "web04.us.example.com",
"wsPort" : 7001,
"contextRoot" : "/endeca-server",
"ssl" : false
},
...
「Arguments」フィールドには、ワークフロー操作タイプがリストされます。
- APPLY_TRANSFORM_TO_DATASET — 変換を適用することにより、プロジェクト・データ・セットを更新します。
- APPLY_TRANSFORM_TO_DATASOURCE — 既存のプロジェクト・データ・セットに変換を適用し、変換したデータを新しいHive表に保存することにより、新しいデータ・セット(および対応するHive表)を作成します。これは、データ・セットのフォークと呼ばれることがあります。
- CLEANUP_DATASETS — 対応するソースHive表がないデータ・セットを削除します。
- CLEANUP_ORPHANED_DATASETS — Studioプロジェクトから生成されたがこのプロジェクトがすでに存在しないデータ・セットを削除します。
- PROVISION_DATASET_FROM_HIVE — 新しいデータ・セットをHive表から作成します。
Sparkワーカーのログ
メイン・データ処理ログ内では、特定のSparkジョブのアプリケーションIDへの参照が複数見つかります。これらのフォームはapp-TIMESTAMP-INCREMENTALCOUNTERです。このアプリケーションIDは、対応するSparkワーカーを検索するときに必要になります。
Spark Web UIを使用すると、特定のSparkワーカーのログを表示できます。これを行うには、Spark Web UIでSparkジョブをクリックし、データ処理ジョブを実行するために使用された各Sparkワーカーを検索します。ここでは、各ワーカーからstdoutおよびstderrにアクセスできます。各Sparkワーカーのログは似ていますが、異なるマシンで実行されているため、若干異なります。