5.4.4 Job Analyzerレポートの分析

Job Analyzerは、レポートの内容を2つの形式で記述します。HTML (ユーザー用)とXML (Perfect Balance用)です。HDFSから直接、またはローカル・ファイル・システムにコピーした後、レポートをブラウザで開くことができます。

ブラウザでHDFSのJob Analyzerレポートを開くには、次の手順を実行します。

次のようなURLを使用して、NameNodeノード(node01またはnode02)のポート50070上でHDFS Webインタフェースを開きます。
```
http://bda1node01.example.com:50070
```
「Utilities」メニューから、「Browse the File System」を選択します。
job_output_dir/_balancerディレクトリに移動します。

ブラウザでローカル・ファイル・システムのJob Analyzerレポートを開くには、次の手順を実行します。

HDFSからローカル・ファイル・システムにレポートをコピーします。
```
$ hadoop fs -get job_output_dir/_balancer/jobanalyzer-report.html /home/jdoe
```
ローカル・ディレクトリに切り替えます。
```
$ cd /home/jdoe
```
ファイルをブラウザで開きます。
```
$ firefox jobanalyzer-report.html
```

Job Analyzerレポートの内容を調べる際には、次のようなスキューの指標を探します。

次の図に、転置インデックス(invindx)の例に対するアナライザ・レポートの冒頭を示します。このジョブは適切な構成設定を使用して実行されたため、図にはキー・ロード係数の推奨値が表示されています。「追加メトリックの収集」を参照してください。

タスクIDは、特定のタスクの分析結果を示すテーブルへのリンクです。これにより、最初のサマリー・テーブルからより詳細なデータへとドリルダウンできます。

この例では極端に小さなデータ・セットが使用されていますが、タスク7と8の間の差に注目してください。入力レコードの差が3%と29%で大きく開いており、対応する経過時間の差も5秒と15秒で大きく開いています。この開きはスキューの発生を示しています。

図5-1 不均衡な転置インデックス・ジョブのJob Analyzerレポート