ジョブまたはキューのエラーが、qstat 出力で、大文字の E で示されます。
ジョブがエラー状態になるのは、Grid Engine システムがジョブを実行しようとして、そのジョブに固有の理由で実行に失敗した場合です。
キューがエラー状態になるのは、Grid Engine システムがジョブを実行しようとして、そのキューに固有の理由で実行に失敗した場合です。
Grid Engine システムには、ジョブ実行エラーが発生した場合に、ユーザーおよび管理者がその診断情報を収集するための一群の機能が用意されています。キューおよびジョブのエラー状態のどちらも、原因はジョブの実行失敗にあります。そのため、診断機能は両方の種類のエラー状態に適用できます。
ユーザー宛て中止メール。qsub -m a コマンドを使用してジョブが発行された場合は、-M user[@host] オプションで指定されたアドレスに中止メールが送信されます。中止メールには、ジョブのエラーに関する診断情報が含まれており、情報源として利用することを推奨します。
qacct アカウンティング情報。 中止メールが得られない場合、qacct -j コマンドを実行できます。このコマンドにより、Grid Engine システムのジョブアカウンティング機能からジョブのエラーに関する情報を入手できます。
管理者宛て中止メール。管理者は、適切な電子メールアドレスを指定することによって、ジョブ実行時の問題に関する管理者宛てメールを送信するよう指示できます。sge_conf(5) のマニュアルページの administrator_mail の下を参照してください。管理者宛てのメールには、ユーザー宛ての中止メールよりも詳しい診断情報が含まれ、ジョブ実行エラーがよく発生する場合に利用することを推奨します。
Messages ファイル。 管理者宛てのメールが得られない場合は、まず qmaster の messagesファイルを調べてください。適切なジョブ ID を検索することによって特定のジョブに関するエントリを見つけることができます。デフォルトの設定でインストールした場合、sge_qmaster messages ファイルは sge-root/cell/spool/qmaster/messages にあります。
ジョブの起動元の sge_execd デーモンのメッセージに、補足情報が含まれていることもあります。qacct -j job-id を使用してジョブの起動元のホストを確認し、sge-root /cell/spool/host/messages でジョブ ID を検索します。