クライアント(StudioまたはDP CLI)がデータ処理ワークフローを起動すると、実際のデータ処理ジョブを実行するためにSparkジョブが作成されます。
このSparkジョブは、Hadoopクラスタ内の任意のノードによって実行されます(ノードはYARNによって選択されます)。 データ処理ログを見つけるには、Cloudera Managerを使用してください。
YARNログにアクセスするには、次のようにします:
データ処理ログには、SparkのワーカーSTDOUTおよびSTDERRのログのロケーションも含まれています。 これらのロケーションは、ログのYARNエグゼキュータ起動コンテキストの項に記載されています。 SPARK_LOG_URL_STDOUTおよびSPARK_LOG_URL_STDERR文字列を検索します。それぞれの文字列にURLが関連付けられます。 URLはワーカー・ログ用です。
また、ワークフローでデータ・エンリッチメント・モジュールが起動された場合、YARNログには、作成された列などのエンリッチメントの結果が含まれます。