Sun N1 Grid Engine 6.1 管理ガイド

問題の診断

Grid Engine システムには、問題の診断に役立つ、報告手段がいくつか用意されています。次の節では、これらの使用方法を説明します。

保留中のジョブが振り分けられない

保留中のジョブが実行可能な状態であることが明らかであるにもかかわらず、振り分けられないことがあります。Grid Engine システムには、その理由を調べる手段として qstat -j job-id qalter-w v job-id のユーティリティーとオプションのペアがあります。

このコマンドは、基本的にジョブが振り分けられない理由を一覧表示します。この目的のため、ドライスケジューリングが実行されます。スロットを含めて消費可能なすべてのリソースが、そのジョブ用に完全に利用可能であるとみなされます。負荷値は変化するため、すべての負荷値は無視されます。

ジョブまたはキューがエラー状態 E と報告される

ジョブまたはキューのエラーが、qstat 出力で、大文字の E で示されます。

ジョブがエラー状態になるのは、Grid Engine システムがジョブを実行しようとして、そのジョブに固有の理由で実行に失敗した場合です。

キューがエラー状態になるのは、Grid Engine システムがジョブを実行しようとして、そのキューに固有の理由で実行に失敗した場合です。

Grid Engine システムには、ジョブ実行エラーが発生した場合に、ユーザーおよび管理者がその診断情報を収集するための一群の機能が用意されています。キューおよびジョブのエラー状態のどちらも、原因はジョブの実行失敗にあります。そのため、診断機能は両方の種類のエラー状態に適用できます。