Job Analyzerは、レポートの内容を2つの形式で記述します。HTML (ユーザー用)とXML (Perfect Balance用)です。HDFSから直接、またはローカル・ファイル・システムにコピーした後、レポートをブラウザで開くことができます。
ブラウザでHDFSのJob Analyzerレポートを開くには、次の手順を実行します。
次のようなURLを使用して、NameNodeノード(node01またはnode02)のポート50070上でHDFS Webインタフェースを開きます。
http://bda1node01.example.com:50070
「Utilities」メニューから、「Browse the File System」を選択します。
job_output_dir/_balancer
ディレクトリに移動します。
ブラウザでローカル・ファイル・システムのJob Analyzerレポートを開くには、次の手順を実行します。
HDFSからローカル・ファイル・システムにレポートをコピーします。
$ hadoop fs -get job_output_dir/_balancer/jobanalyzer-report.html /home/jdoe
ローカル・ディレクトリに切り替えます。
$ cd /home/jdoe
ファイルをブラウザで開きます。
$ firefox jobanalyzer-report.html
Job Analyzerレポートの内容を調べる際には、次のようなスキューの指標を探します。
一部のリデューサの実行時間が他のものよりも長い。
一部のリデューサが他のリデューサよりも多くのレコードやバイトを処理している。
一部のマップ出力キーのレコード数が他のものよりも多い。
一部のマップ出力レコードのバイト数が他のものよりも多い。
次の図に、転置インデックス(invindx
)の例に対するアナライザ・レポートの冒頭を示します。このジョブは適切な構成設定を使用して実行されたため、図にはキー・ロード係数の推奨値が表示されています。「追加メトリックの収集」を参照してください。
タスクIDは、特定のタスクの分析結果を示すテーブルへのリンクです。これにより、最初のサマリー・テーブルからより詳細なデータへとドリルダウンできます。
この例では極端に小さなデータ・セットが使用されていますが、タスク7と8の間の差に注目してください。入力レコードの差が3%と29%で大きく開いており、対応する経過時間の差も5秒と15秒で大きく開いています。この開きはスキューの発生を示しています。