Sun N1 Grid Engine 6.1 インストールガイド

第 6 章 インストールの検証

検証段階は、次のタスクで構成されます。

インストールの検証

Grid Engine システムデーモンが実行中であることを確認するには、マスターホスト上で sge_qmaster デーモンと sge_schedd デーモンを検索します。続いて、実行ホスト上で sge_execd デーモンを検索します。これらのデーモンが実行中であることを確認してから、コマンドを使用し、ジョブの発行準備を行います。


注 –

インストール時にセル名が指定されていない場合、cell の値は default になります。


Procedureマスターホスト上でデーモンが実行中であることを確認する方法

  1. マスターホストにログインします。

    sge-root/ cell/common/act_qmaster ファイルで、現在マスターホスト上であることを確認します。

  2. デーモンが実行中であることを確認します。

    • BSD ベースの UNIX システムの場合、次のコマンドを入力します。


      % ps -ax | grep sge
      
    • UNIX System 5 ベースのオペレーティングシステム (例: Solaris オペレーティングシステム) を実行しているシステムの場合、次のコマンドを入力します。


      % ps -ef | grep sge
      
  3. 次の例のような出力結果から sge 文字列を検索して、デーモンが実行中であることを確認します。

    具体的には、sge_qmaster デーモンと sge_schedd デーモンが実行中であることを確認する必要があります。

    • BSD ベースの UNIX システムの場合、次のような出力が得られます。


      14676 p1 S <  4:47 /gridware/sge/bin/solaris/sge_qmaster
      
      14678 p1 S <  9:22 /gridware/sge/bin/solaris/sge_schedd
    • UNIX System 5 ベースのシステムの場合、次のような出力が得られます。


      root 439 1 0 Jun 2 ? 3:37 /gridware/sge/bin/solaris/sge_qmaster
      
      root 446 1 0 Jun 2 ? 3:37 /gridware/sge/bin/solaris/sge_schedd
  4. 適切な文字列が表示されない場合は、デーモンを再起動してください。

    マスターホストデーモン sge_qmastersge_schedd を起動するには、次のようにします。


    # sge-root/cell/common/sgemaster  start
    
  5. 検証を続行します。

    マスターホストと実行ホストのデーモンが実行中であることを確認してから、検証処理を続行します。「単純なコマンドの実行方法」を参照してください。

Procedure実行ホスト上でデーモンが実行中であることを確認する方法

  1. 実行ホストインストール手順を実行した実行ホストにログインします。

  2. デーモンが実行されていることを確認します。

    • BSD ベースの UNIX システムの場合、次のコマンドを入力します。


      % ps -ax | grep sge
      
    • UNIX System 5 ベースのオペレーティングシステム (例: Solaris オペレーティングシステム) を実行しているシステムの場合、次のコマンドを入力します。


      % ps -ef | grep sge
      
  3. 出力結果から sge_execd 文字列を検索して、デーモンが実行中であることを確認します。

    具体的には、sge_execd デーモンが実行中であることを確認します。

    • BSD ベースの UNIX システムの場合、次のような出力が得られます。


      14688 p1 S <    4:27  /gridware/sge/bin/solaris/sge_execd
    • Solaris オペレーティングシステムなどの UNIX System 5 ベースのシステムの場合、次のような出力が得られます。


      root 171 1 0 Jun 22 ? 7:11 /gridware/sge/bin/solaris/sge_execd
  4. 同様の出力が表示されない場合は、デーモンを再起動してください。


    # sge-root/cell/common/sgeexecd  start
    
  5. 検証を続行します。

    マスターホストと実行ホストのデーモンが実行中であることを確認してから、検証処理を続行します。「単純なコマンドの実行方法」を参照してください。

Procedure単純なコマンドの実行方法

マスターホストと実行ホストで必要なデーモンが実行中であれば、Grid Engine ソフトウェアは正常に動作しています。テストコマンドでチェックします。

  1. マスターホストまたはその他の管理ホストにログインします。

    標準検索パスに、sge-root /bin が含まれていることを確認します。

  2. コマンド行に次のコマンドを入力します。


    % qconf -sconf
    

    この qconf コマンドは、現在のグローバルクラスタ構成を表示します (『Sun N1 Grid Engine 6.1 管理ガイド』「基本クラスタ構成」 を参照)。

    このコマンドの実行に失敗した場合、SGE_ROOT 環境変数が正しく設定されていません。

    1. スクリプトファイル sge-root/cell/common/settings.csh または sge-root/cell/common/settings.sh に環境変数 SGE_EXECD_PORTSGE_QMASTER_PORT が設定されているかどうかを確認します。


      注 –

      インストール時にセル名が指定されていない場合、cell の値は default になります。


      • 設定されている場合は、環境変数 SGE_EXECD_PORTSGE_QMASTER_PORT に正しい値が設定されていることを確認して、コマンドを再実行します。

      • 設定されていない場合は、NIS サービスマップに sge_qmaster および sge_execd のエントリが含まれているかどうかを確認します。

        このファイルに SGE_EXECD_PORT 変数と SGE_QMASTER_PORT 変数が含まれていない場合、コマンドの実行マシン上のサービスデータベース (例: /etc/services または NIS サービスマップ) から、sge_qmastersge_execd の両方のエントリを提供する必要があります。このようなエントリが存在しない場合、マシンのサービスデータベースにエントリを追加し、マスターホスト上と同じ値にします。

    2. qconf コマンドを再試行します。

  3. テストジョブを発行してみます。

Procedureテストジョブを発行する方法

Grid Engine システムにバッチスクリプトを発行する前に、サイトの標準シェルリソースファイル (.cshrc.profile、または.kshrc) とユーザーの個人用リソースファイルに stty などのコマンドが含まれているかどうかを確認します。バッチジョブは、デフォルトでは端末接続を持ちません。したがって、stty を呼び出した結果はエラーになります。

  1. マスターホストにログインします。

  2. 次のコマンドを入力します。


    % rsh exec-host-name date
    

    exec-host-name には、インストール済みのいずれかの実行ホストを指定します。ユーザーのログインディレクトリまたはホームディレクトリがホストごとに異なる場合は、すべての実行ホスト上でこのテストを行う必要があります。rsh コマンドは、マスターホスト上でローカルに date コマンドを実行した場合と同様の結果を出力します。エラーメッセージを含む行が追加されている場合は、エラーの原因を修正するまで、バッチジョブを正常に実行することはできません。

    stty などのコマンドを実行する前に、すべてのコマンドインタプリタについて、実際の端末接続をチェックします。

    次に、Bourne シェルスクリプトを使って端末接続をテストする例を示します。


    tty -s 
    if [ $? = 0 ]; then
       stty erase ^H
    fi
    

    次に、C シェル構文の例を示します。


    tty -s
    if ( $status = 0 ) then
       stty erase ^H
    endif
    
  3. sge-root/examples/jobs ディレクトリ内のサンプルスクリプトを 1 つ選択して発行します。


    % qsub sge-root/examples/jobs/simple.sh
    
  4. qstat コマンドを使って、ジョブの動作を監視します。

    バッチジョブの発行と監視の詳細は、『Sun N1 Grid Engine 6.1 ユーザーズガイド』「バッチジョブの発行」を参照してください。

  5. ジョブの実行が完了したら、ホームディレクトリで、リダイレクトされた stdout/stderr ファイル、script-name.ejob-id および script-name.ojob-id を確認します。

    job-id は、各ジョブに割り当てられる連続した一意の整数値です。

    問題が発生した場合は、『Sun N1 Grid Engine 6.1 管理ガイド』の第 9 章「チューニング、エラーメッセージ、および障害追跡」を参照してください。