「キューのアラート」ページの情報を使用してキューの問題のトラブルシューティングを行うことができます。このページは、「概要」ページの「アラート」表からアクセスできます。キューのアラートは、queue_conf コマンドを使用して定義したキューリソース制限パラメータを超えたときに生成されます。
キューのアラートには、次の 3 種類があります。
警告 – リソース制限を超えたときに、キューが無効になる前に警告が生成されます。
エラー – キューが無効な要求を行ったときにエラーが生成されます。
無効 – 設定した数の警告を受け取ったあと、キュー構成パラメータ notify で定義した通知時間を経過するとキューが異常終了します。
キューの状態は、次のとおりです。
a (アラーム) – キュー構成の load_thresholds 一覧で定義した負荷しきい値の 1 つ以上を超えています。この状態では、N1GE でこのキューに対してこれ以上ジョブのスケジュールは設定されません。詳細は、queue_conf のマニュアルページを参照してください。
A (アラーム) – キューの一時停止しきい値の 1 つ以上を超えています。この状態では、しきい値違反がなくなるまで、キュー内で実行中のジョブが順番に一時停止されます。詳細は、queue_conf のマニュアルページを参照してください。
c (構成があいまい) – sge_conf を使用して指定したキューインスタンスの構成があいまいです。この状態は、構成のあいまいさを取り除くと解決します。親のない状態では、このキューインスタンスに対してこれ以上ジョブのスケジュールは設定されません。キューインスタンスがこの状態になった詳しい理由は、sge_qmaster メッセージファイルで確認できます。また、-explain を指定して qstat コマンドを実行することで理由を確認することもできます。この状態のキューインスタンスについては、あいまいな属性にクラスタキューのデフォルト設定が使用されます。
C (カレンダ一時停止) – N1GE のカレンダ機能によってキューが自動的に無効にされたか、または一時停止されました。詳細は、calendar_conf のマニュアルページを参照してください。
d (無効) – この設定は、qmod コマンドを使用してキューに割り当ておよび解除を行います。キューを一時停止すると、そのキュー内で実行中のジョブがすべて一時停止されます。
D (無効) – N1GE のカレンダ機能によってキューが自動的に無効にされたか、または一時停止されました。詳細は、calendar_conf のマニュアルページを参照してください。
E (エラー) – この設定は、そのホストの N1GE デーモン (sge_execd) が、ジョブを開始するためにそのホストで sge_shepherd 実行可能ファイルを見つけられなかったときに表示されます。このデーモンのエラーログで、問題の解決方法を確認してください。そのあと、-c オプションを指定した qmod コマンドを使用してキューを有効にします。
o (親なし) – 現在のクラスタキューの構成とホストグループの構成に、このキューインスタンスは不要になりました。終了していないジョブがまだ関連付けられているため、このキューインスタンスは残されています。親のない状態では、このキューインスタンスに対してこれ以上ジョブのスケジュールは設定されません。これらのジョブが終了すると、qstat の出力に表示されなくなります。ジョブに関連付けられている親のないキューインスタンスを解決するには、qdel コマンドを使用します。親のないキューインスタンスを回復させるには、クラスタキュー構成にそのキューインスタンスが含まれるように構成を変更します。
s (一時停止) – qmod コマンドを使用してキューに割り当て、および解除を行います。キューを一時停止すると、そのキュー内で実行中のジョブがすべて一時停止されます。
S (従属) – キューは、別のキューへの従属が原因で一時停止されました。詳細は、queue_conf を参照してください。キューを一時停止すると、その理由に関係なく、そのキュー内で実行中のジョブもすべて一時停止されます。
u (不明) – 対応する sge_execd(8) にアクセスできません。