Grid Engine システムデーモンが実行中であることを確認するには、マスターホスト上で sge_qmaster デーモンと sge_schedd デーモンを検索します。続いて、実行ホスト上で sge_execd デーモンを検索します。これらのデーモンが実行中であることを確認してから、コマンドを使用し、ジョブの発行準備を行います。
インストール時にセル名が指定されていない場合、cell の値は default になります。
マスターホストにログインします。
sge-root/ cell/common/act_qmaster ファイルで、現在マスターホスト上であることを確認します。
デーモンが実行中であることを確認します。
次の例のような出力結果から sge 文字列を検索して、デーモンが実行中であることを確認します。
具体的には、sge_qmaster デーモンと sge_schedd デーモンが実行中であることを確認する必要があります。
BSD ベースの UNIX システムの場合、次のような出力が得られます。
14676 p1 S < 4:47 /gridware/sge/bin/solaris/sge_qmaster 14678 p1 S < 9:22 /gridware/sge/bin/solaris/sge_schedd |
UNIX System 5 ベースのシステムの場合、次のような出力が得られます。
root 439 1 0 Jun 2 ? 3:37 /gridware/sge/bin/solaris/sge_qmaster root 446 1 0 Jun 2 ? 3:37 /gridware/sge/bin/solaris/sge_schedd |
適切な文字列が表示されない場合は、デーモンを再起動してください。
マスターホストデーモン sge_qmaster と sge_schedd を起動するには、次のようにします。
# sge-root/cell/common/sgemaster start |
検証を続行します。
マスターホストと実行ホストのデーモンが実行中であることを確認してから、検証処理を続行します。「単純なコマンドの実行方法」を参照してください。
実行ホストインストール手順を実行した実行ホストにログインします。
デーモンが実行されていることを確認します。
出力結果から sge_execd 文字列を検索して、デーモンが実行中であることを確認します。
具体的には、sge_execd デーモンが実行中であることを確認します。
同様の出力が表示されない場合は、デーモンを再起動してください。
# sge-root/cell/common/sgeexecd start |
検証を続行します。
マスターホストと実行ホストのデーモンが実行中であることを確認してから、検証処理を続行します。「単純なコマンドの実行方法」を参照してください。
マスターホストと実行ホストで必要なデーモンが実行中であれば、Grid Engine ソフトウェアは正常に動作しています。テストコマンドでチェックします。
マスターホストまたはその他の管理ホストにログインします。
標準検索パスに、sge-root /bin が含まれていることを確認します。
コマンド行に次のコマンドを入力します。
% qconf -sconf |
この qconf コマンドは、現在のグローバルクラスタ構成を表示します (『Sun N1 Grid Engine 6.1 管理ガイド』の「基本クラスタ構成」 を参照)。
このコマンドの実行に失敗した場合、SGE_ROOT 環境変数が正しく設定されていません。
スクリプトファイル sge-root/cell/common/settings.csh または sge-root/cell/common/settings.sh に環境変数 SGE_EXECD_PORT と SGE_QMASTER_PORT が設定されているかどうかを確認します。
インストール時にセル名が指定されていない場合、cell の値は default になります。
設定されている場合は、環境変数 SGE_EXECD_PORT と SGE_QMASTER_PORT に正しい値が設定されていることを確認して、コマンドを再実行します。
設定されていない場合は、NIS サービスマップに sge_qmaster および sge_execd のエントリが含まれているかどうかを確認します。
このファイルに SGE_EXECD_PORT 変数と SGE_QMASTER_PORT 変数が含まれていない場合、コマンドの実行マシン上のサービスデータベース (例: /etc/services または NIS サービスマップ) から、sge_qmaster と sge_execd の両方のエントリを提供する必要があります。このようなエントリが存在しない場合、マシンのサービスデータベースにエントリを追加し、マスターホスト上と同じ値にします。
qconf コマンドを再試行します。
テストジョブを発行してみます。
Grid Engine システムにバッチスクリプトを発行する前に、サイトの標準シェルリソースファイル (.cshrc、.profile、または.kshrc) とユーザーの個人用リソースファイルに stty などのコマンドが含まれているかどうかを確認します。バッチジョブは、デフォルトでは端末接続を持ちません。したがって、stty を呼び出した結果はエラーになります。
マスターホストにログインします。
% rsh exec-host-name date |
exec-host-name には、インストール済みのいずれかの実行ホストを指定します。ユーザーのログインディレクトリまたはホームディレクトリがホストごとに異なる場合は、すべての実行ホスト上でこのテストを行う必要があります。rsh コマンドは、マスターホスト上でローカルに date コマンドを実行した場合と同様の結果を出力します。エラーメッセージを含む行が追加されている場合は、エラーの原因を修正するまで、バッチジョブを正常に実行することはできません。
stty などのコマンドを実行する前に、すべてのコマンドインタプリタについて、実際の端末接続をチェックします。
次に、Bourne シェルスクリプトを使って端末接続をテストする例を示します。
tty -s if [ $? = 0 ]; then stty erase ^H fi |
次に、C シェル構文の例を示します。
tty -s if ( $status = 0 ) then stty erase ^H endif |
sge-root/examples/jobs ディレクトリ内のサンプルスクリプトを 1 つ選択して発行します。
% qsub sge-root/examples/jobs/simple.sh |
バッチジョブの発行と監視の詳細は、『Sun N1 Grid Engine 6.1 ユーザーズガイド』の「バッチジョブの発行」を参照してください。
ジョブの実行が完了したら、ホームディレクトリで、リダイレクトされた stdout/stderr ファイル、script-name.ejob-id および script-name.ojob-id を確認します。
job-id は、各ジョブに割り当てられる連続した一意の整数値です。
問題が発生した場合は、『Sun N1 Grid Engine 6.1 管理ガイド』の第 9 章「チューニング、エラーメッセージ、および障害追跡」を参照してください。