Sun N1 System Manager 1.3 Grid Engine プロビジョニングおよび監視マニュアル

第 8 章 N1 Grid Engine のトラブルシューティング

この章では、さまざまな警告と N1 Grid Engine デーモンのログを使用してグリッドのトラブルシューティングを行う方法について説明します。

N1 Grid Engine デーモンのログの使用

「Grid Engine デーモンのログ」ページでは、N1 Grid Engine のさまざまな デーモンによって記録されたすべてのメッセージのログの履歴を表示できます。特定のホストのログファイルを表示するには、そのホスト名をクリックします。キューのホストシステムのログファイルを表示するには、「QMASTER」列にある名前をクリックします。

図 8–1 「Grid Engine デーモンのログ」ページ

このページには、使用可能なデーモンログの一覧が表示されます。

特定のホストのログファイルには、フラグ、タイムスタンプ、およびメッセージのフィールドがあります。フラグは、記録されたメッセージの種類を示します。次のメッセージの種類があります。

クラスタ構成で loglevel パラメータを使用して、グローバルまたはローカルにどのメッセージの種類を記録するかを指定します。

キューのトラブルシューティング

「キューのアラート」ページの情報を使用してキューの問題のトラブルシューティングを行うことができます。このページは、「概要」ページの「アラート」表からアクセスできます。キューのアラートは、queue_conf コマンドを使用して定義したキューリソース制限パラメータを超えたときに生成されます。

図 8–2 「キューのアラート」ページ

このページには、キューのアラートの一覧が表示されます。

キューのアラートには、次の 3 種類があります。

キューの状態は、次のとおりです。

ホストのトラブルシューティング

ホストの問題は、「ホストのアラート」ページで確認できます。このページは、「概要」ページの「アラート」表から表示できます。

図 8–3 「ホストのアラート」ページ

このページには、ホストのアラートの一覧が表示されます。

次のホストアラートパラメータが指定したしきい値を超えるとアラートが生成され、「概要」の「アラート」表に表示されます。

ジョブのトラブルシューティング

ジョブの問題は、「ジョブのアラート」ページで確認できます。このページは、「概要」ページの「アラート」表から表示できます。「保留時間」と「期限」の各ジョブのアラートパラメータが指定したしきい値を超えるとアラートが生成され、「概要」の「アラート」表に表示されます。

図 8–4 「ジョブのアラート」ページ

このページには、ジョブの警告の一覧が表示されます。

「ジョブのアラート」ページには、次の情報が表示されます。

アラームとしきい値については、qstat のマニュアルページを参照してください。