YARNログへのアクセス

クライアント(StudioまたはDP CLI)がデータ処理ワークフローを起動すると、実際のデータ処理ジョブを実行するためにSparkジョブが作成されます。

このSparkジョブは、Hadoopクラスタ内の任意のノードによって実行されます(ノードはYARNによって選択されます)。データ処理ログを見つけるには、Cloudera Managerを使用してください。

YARNログにアクセスするには、次のようにします:

Cloudera Managerのホームページから、「YARN (MR2を含む)」をクリックします。
YARNメニューで、ResourceManager Web UIクイック・リンクをクリックします。
「すべてのアプリケーション」のページには、送信されたすべてのジョブのステータスがリストされます。 IDフィールドをクリックし、ジョブ情報をリストします。

失敗したジョブには、「診断」フィールドに例外が表示されます。
ログ情報を表示するには、アプリケーション・ページの下部にある「ログ」フィールドで該当するログをクリックします。

データ処理ログには、SparkのワーカーSTDOUTおよびSTDERRのログのロケーションも含まれています。これらのロケーションは、ログのYARNエグゼキュータ起動コンテキストの項に記載されています。 SPARK_LOG_URL_STDOUTおよびSPARK_LOG_URL_STDERR文字列を検索します。それぞれの文字列にURLが関連付けられます。 URLはワーカー・ログ用です。

また、ワークフローでデータ・エンリッチメント・モジュールが起動された場合、YARNログには、作成された列などのエンリッチメントの結果が含まれます。