Sun Cluster Data Service for Sun Grid Engine ガイド (Solaris OS 版)

Sun Cluster HA for Sun Grid Engine のインストールと構成

この章では、Sun Cluster HA for Sun Grid Engine のインストールと構成の方法について説明します。


注 –

Sun Grid Engine は以前、Sun ONE Grid Engine と呼ばれていました。このマニュアルでは、特に明記しない限り、Sun Grid Engine は Sun ONE Grid Engine のことも指します。


この章の内容は次のとおりです。

Sun Cluster HA for Sun Grid Engine の概要

Sun Grid Engine は分散型リソース管理プログラムであり、複数のジョブを複数のマシンで同時に実行します。マシンの障害による作業の損失を最小限に抑えるため、管理層のノードを障害から保護する必要があります。しかし、グリッド内にある個々の実行ノードは障害から保護する必要はありません。グリッド内にある個々の実行ノードに障害が発生しても、作業の損失は小さいためです。

Sun Grid Engine システムの管理層でのシングルポイント障害を排除するために、Sun Cluster HA for Sun Grid Engine は、次の Sun Grid Engine デーモンに障害監視および自動障害回復を提供します。

Sun Cluster HA for Sun Grid Engine はフェイルオーバーサービスとして構成する必要があります。

フェイルオーバーデータサービスとスケーラブルデータサービスの概念については、『Sun Cluster の概念 (Solaris OS 版)』を参照してください。

管理層は Sun Grid Engine ファイルシステムに依存するため、このファイルシステムをエクスポートする NFS サーバーも障害から保護する必要があります。NFS サーバーのシングルポイント障害を排除するには、Sun Cluster HA for NFS データサービスを使用します。このデータサービスの詳細は、『Sun Cluster Data Service for Network File System (NFS) ガイド (Solaris OS 版)』を参照してください。

Sun Grid Engine の各コンポーネントが Sun Cluster に構成されている場合、それらのコンポーネントは各自のデータサービスによって保護されます。次の表を参照してください。

表 1 Sun Cluster データサービスによる Sun Grid Engine コンポーネントの保護

Sun Grid Engine コンポーネント 

データサービス 

Sun Grid Engine のデーモン 

  • 待ち行列マスターデーモン (sge_qmaster)

  • スケジューリングデーモン (sge_schedd)

Sun Cluster HA for Sun Grid Engine 

リソースタイプは SUNW.gds です。

ネットワークファイルシステム (NFS) サーバー 

Sun Cluster HA for NFS 

リソースタイプは SUNW.nfs です。

Sun Cluster HA for Sun Grid Engine のインストールおよび構成の概要

次の表は、Sun Cluster HA for Sun Grid Engine のインストールや構成に関する作業の要約と、それらの作業の実施に必要な詳しい説明がどこにあるかを示しています。これらの作業は、表に示す順序で行う必要があります。

表 2 Sun Cluster HA for Sun Grid Engine のインストールと構成に関する作業

作業 

参照先 

インストールの計画 

「Sun Cluster HA for Sun Grid Engine の概要」

「Sun Cluster HA for Sun Grid Engine のインストールと構成に関する計画」

ノードとディスクの準備 

「ノードとディスクの準備」

Sun Grid Engine のインストールと構成 

「Sun Grid Engine のインストールと構成」

Sun Cluster HA for Sun Grid Engine のインストールと構成の確認 

「Sun Grid Engine のインストールと構成の確認」

Sun Cluster HA for Sun Grid Engine パッケージのインストール 

「Sun Cluster HA for Sun Grid Engine パッケージのインストール」

Sun Cluster HA for Sun Grid Engine で使用するための HAStoragePlus リソースタイプの構成

「Sun Cluster HA for Sun Grid Engine で使用される HAStoragePlus リソースタイプの構成」

Sun Cluster HA for Sun Grid Engine で使用するための Sun Cluster HA for NFS の構成 

「Sun Cluster HA for Sun Grid Engine で使用するための Sun Cluster HA for NFS の構成」

Sun Cluster HA for Sun Grid Engine の登録と構成 

「Sun Cluster HA for Sun Grid Engine の登録と構成」

Sun Cluster HA for Sun Grid Engine のインストールと構成の確認 

「Sun Cluster HA for Sun Grid Engine のインストールと構成の確認」

Sun Cluster HA for Sun Grid Engine 障害モニターの調整 

「Sun Cluster HA for Sun Grid Engine 障害モニターの調整」

Sun Cluster HA for Sun Grid Engine のデバッグ 

「Sun Cluster HA for Sun Grid Engine のデバッグ」

Sun Cluster HA for Sun Grid Engine のインストールと構成に関する計画

ここでは、Sun Cluster HA for Sun Grid Engine のインストールと構成の計画について説明します。


注 –

次に進む前に、使用する Sun Grid Engine のマニュアルを参照して、構成の制約や要件 (Sun Cluster ソフトウェアによる制約や要件以外のもの) がないか調べてください。


構成に関する制限事項

以降の項で説明する構成の制限は Sun Cluster HA for Sun Grid Engine だけに適用されます。


注意 – 注意 –

これらの制限事項を守らないと、データサービスの構成がサポートされない場合があります。


Sun Grid Engine シャドウデーモン

Sun Grid Engine シャドウデーモンは使用しないでください。Sun Grid Engine シャドウデーモンは、障害から回復するためのオプション機構を提供します。この機構は、Sun Cluster が提供する自動障害回復と干渉します。

Sun Grid Engine Berkley DB スプールサーバー

Berkley DB スプールサーバーを使用するオプションは選択しないでください。「クラシック」スプールメソッドまたはローカル Berkley DB スプールメソッドを選択してください。現時点では、Sun Cluster フレームワークで Berkley DB スプールサーバーを高可用対応に構成することはできません。

「ブート時に起動」オプション

Sun Grid Engine をインストールするときには、「ブート時に起動」オプションを選択しないでください。Sun Cluster HA for Sun Grid Engine が障害監視と自動障害回復を確実に提供できるようにするには、Sun Grid Engine を Sun Cluster だけから起動する必要があります。

構成に関する要件

ここで説明する構成の制約は Sun Cluster HA for Sun Grid Engine だけに適用されます。


注意 – 注意 –

これらの要件を満たしていないデータサービス構成は、サポートされない場合があります。


Sun Grid Engine ソフトウェアのバージョン要件

Sun Grid Engine バージョン 6.0 を使用します。Sun Grid Engine ソフトウェアに必ず最新のパッチを適用してください。

Sun Grid Engine バージョン 5.3 の提供は完了しましたが、Sun Cluster HA for Sun Grid Engine は現在もこのバージョンをサポートしています。Sun Grid Engine バージョン 5.3 を使用している場合は、Sun Grid Engine バージョン 6.0 にアップグレードすることをお勧めします。


注 –

このマニュアル内の操作説明は、Sun Grid Engine バージョン 6.0 だけを対象にしています。Sun Grid Engine バージョン 5.3 を使用して Sun Cluster HA for Sun Grid Engine のインストールと構成を行う方法については、Sun Cluster 3.1 9/04 の『Sun Cluster Data Service for Sun Grid Engine Guide for Solaris OS』を参照してください。

Sun Cluster 3.1 9/04 がリリースされたため、sge_config ファイル内のキーワードは次のように変更されました。

これらのキーワードの説明については、sge_config ファイル内のコメントを参照してください。


Sun Grid Engine 管理層のオペレーティングシステム

Sun Grid Engine 管理層は Sun Cluster ノードで実行する必要があります。Sun Cluster が動作するのは Solaris オペレーティングシステムだけであるため、Sun Grid Engine 管理層も Solaris オペレーティングシステムで実行する必要があります。しかし、Sun Grid Engine はほかのオペレーティングシステムもサポートします。したがって、この要件は管理層だけに適用され、グリッド内にある個々の実行ノードには適用されません。

メモリー要件

Sun Grid Engine マスターを実行しようと計画しているクラスタノードで十分な空きメモリーが利用できることを確認します。

各クラスタノードに必要な空きメモリー量は、グリッドで動作しているジョブの数によって変わります。次に例を示します。

必要なディスク容量

Sun Grid Engine ファイルシステムと各ノードのローカルディスクに十分なディスク容量があることを確認します。

次の表に、Sun Grid Engine ファイルシステムのファイルまたはディレクトリの種類ごとに必要なディスク容量要件を示します。

ファイルの種類またはディレクトリの種類 

必要なディスク容量 

バイナリファイル 

アーキテクチャーごとに 15M バイト 

スプールディレクトリ 

30M 〜 200M バイト 

インストール tar ファイル 

40M バイト 

各ノードのローカルディスクには、10M 〜 20M バイトのディスク容量が必要です。Sun Grid Engine ソフトウェアをノードのローカルディスクにインストールしている場合、そのバイナリファイル用に、さらに 15M バイトのディスク容量が必要です。

Sun Cluster HA for Sun Grid Engine の構成要件

Sun Cluster HA for Sun Grid Engine は、フェイルオーバーデータサービスとして構成する必要があります。Sun Cluster HA for Sun Grid Engine をスケーラブルデータサービスとして構成することはできません。詳細については、以下を参照してください。

Sun Grid Engine ファイルシステム用の NFS 構成

Sun Grid Engine ファイルシステムは、多重ホストディスクに存在する必要があります。このディスクは、Sun Grid Engine 管理サービスとして使用される、ほかのクラスタノードにも利用できる必要があります。

Sun Grid Engine ファイルシステムをクラスタ以外のノードにエクスポートするには、NFS を使用する必要があります。このファイルシステムをエクスポートする NFS サーバーも障害から保護する必要があります。NFS サーバーを障害から保護するには、Sun Cluster HA for NFS データサービスを使用します。このデータサービスの詳細は、『Sun Cluster Data Service for Network File System (NFS) ガイド (Solaris OS 版)』を参照してください。

Sun Cluster HA for NFS の構成要件

同じリソースグループ内にある Sun Grid Engine 管理層のリソースを NFS 用のリソースとして構成します。詳細は、「Sun Cluster HA for Sun Grid Engine で使用するための Sun Cluster HA for NFS の構成」を参照してください。

Sun Grid Engine コンポーネント間の依存関係

次の表に、Sun Grid Engine コンポーネント間の依存関係を示します。

表 3 Sun Grid Engine コンポーネント間の依存関係

Sun Grid Engine コンポーネント 

依存関係 

Sun Grid Engine 待ち行列マスターデーモン (sge_qmaster)

SUNW.HAStoragePlus リソース

Sun Grid Engine スケジューリングデーモン (sge_schedd)

Sun Grid Engine 待ち行列マスターデーモン (sge_qmaster) リソース

これらの依存関係は、Sun Cluster HA for Sun Grid Engine を登録および構成するときに設定されます。詳細は、「Sun Cluster HA for Sun Grid Engine の登録と構成」を参照してください。

構成上の考慮事項

Sun Cluster HA for Sun Grid Engine のインストールと構成では、構成に関する以下の点を考慮する必要があります。

Sun Grid Engine バイナリファイルの場所

Sun Grid Engine をインストールできる場所は、次のうちの 1 つです。

Sun Grid Engine バイナリファイルを高可用性ローカルファイルシステムまたはクラスタファイルシステムにインストールする場合の利点と欠点については、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』「Sun Cluster データサービス構成のガイドライン」を参照してください。


ヒント –

ファイルシステムの種類をマウントポイントから識別できるようにするには、ファイルシステムの種類を示す接頭辞を次のように使用します。


スプールディレクトリとバイナリファイル用のファイルシステム

スプールディレクトリとバイナリファイルをファイルシステムに適切に分散できるかどうかは、グリッドの構成によって変わります。次の表を参照してください。

グリッドの構成 

ファイルシステムの構成 

実行層に含まれるホストは 200 台未満です。 

スプールディレクトリとバイナリファイル用に、Sun Grid Engine ファイルシステムのルートの下にある単一の共有 NFS ファイルシステムを使用します。 

実行層に含まれるホストが約 200 台であるか、アプリケーションがディスクに頻繁にアクセスします。 

スプールディレクトリ用に、NFS ファイルシステムにある別の領域を使用します。 

実行層に含まれるホストが 200 台を超えているか、NFS の性能に問題があります。 

代替のグリッド構成については、Sun Grid Engine のマニュアルを参照してください。 

構成計画に関する質問

Sun Cluster HA for Sun Grid Engine のインストールと構成を計画するときには、この項の質問を使用します。これらの質問の回答を、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』「構成のワークシート」にあるデータサービスワークシートに書き込みます。

ノードとディスクの準備

ノードとディスクの準備とは、オペレーティングシステムの構成を変更して、Sun Cluster HA for Sun Grid Engine が Sun Grid Engine システムのシングルポイント障害を排除できるようにすることです。

開始する前に、以下の節にある要件を満たしているかどうかを確認します。

Procedureノードとディスクを準備するには

手順
  1. Sun Grid Engine をインストールするすべてのクラスタノードで、スーパーユーザーになります。

  2. それらのクラスタノードすべてで、Sun Grid Engine の管理ユーザーアカウントを作成します。

    グリッドを管理するための既存のユーザーアカウント (root 以外) を選択するか、グリッドを管理するための専用のアカウントを作成します。


    ヒント –

    Sun Grid Engine のマニュアルとの整合性のため、このアカウントの名前は sgeadmin であるとします。


  3. Sun Grid Engine ファイルシステムのルート用のディレクトリを作成します。


    # mkdir sge-root-dir
    

    注 –

    sge-root-dir は、クラスタファイルシステムに存在する必要があります。詳細は、「Sun Cluster HA for Sun Grid Engine で使用される HAStoragePlus リソースタイプの構成」を参照してください。


  4. Sun Grid Engine ファイルシステムのルートの所有者を、手順 2 で作成したアカウントの管理ユーザーに変更します。


    # chown sge-admin  sge-root-dir 
    
  5. Sun Grid Engine ファイルシステムのルートのモードを drwxr-xr-x に設定します。


    # chmod 755  sge-root-dir
    
  6. sge_qmaster サービスと sge_execd サービスのポート番号とプロトコルを指定します。

    1024 未満の未使用のポート番号を選択します。sge_qmaster サービスと sge_execd サービスは、トランスミッションコントロールプロトコル (TCP) 経由で提供されます。

    ポート番号とプロトコルを指定するには、次の行を /etc/services ファイルに追加します。

    sge_qmaster	port-no/tcp
    sge_execd  	port-no/tcp
  7. グリッド内にあるホストの種類ごとに、グリッド内にあるその種類のホストすべての名前が含まれるプレーンテキストファイルを作成します。

    install_qmaster スクリプトは、Sun Grid Engine をインストールするときに、これらのファイルを使用します。グリッド内にあるホストの種類ごとに、このファイルを個別に作成します。

    • 実行ホスト

    • 管理ホスト

    • 発行ホスト


例 1 Sun Grid Engine のインストールのためのノードとディスクの準備

次の例では、次のような構成の Sun Grid Engine をインストールするためにノードとディスクを準備する方法を示します。

Sun Grid Engine をインストールするためにノードとディスクを準備する手順は、次のとおりです。

  1. Sun Grid Engine ファイルシステムのルート用に /global/gridmaster ディレクトリを作成するには、次のコマンドを実行します。


    # mkdir /global/gridmaster
    
  2. /global/gridmaster ディレクトリの所有者をユーザー sgeadmin に変更するには、次のコマンドを実行します。


    # chown sgeadmin /global/gridmaster
    
  3. /global/gridmaster ディレクトリのモードを drwxr-xr-x に設定するには、次のコマンドを実行します。


    # chmod 755 /global/gridmaster
    
  4. sge_qmaster サービスがポート 536 と TCP 経由、sge_execd サービスがポート 537 と TCP 経由で提供されるように指定するには、次の行を /etc/services ファイルに追加します。

    sge_qmaster	536/tcp
    sge_execd  	537/tcp

Sun Grid Engine のインストールと構成

次の手順では、Sun Cluster HA for Sun Grid Engine で使用できるように Sun Grid Engine をインストールするための特別な要件だけを説明します。Sun Grid Engine のインストールと構成についての詳細は、Sun Grid Engine のマニュアルを参照してください。

Sun Grid Engine をクラスタで実行できるようにするには、論理ホスト名を使用するように Sun Grid Engine を変更する必要があります。

ProcedureSun Grid Engine をインストールおよび構成するには

開始する前に、グリッド内にあるすべてのホストにホスト名があることを確認します。グリッド内にあるホストの種類ごとに、ホスト名のリストを個別に作成します。

手順
  1. Sun Grid Engine をインストールするクラスタノードのスーパーユーザーになります。

  2. Sun Grid Engine ディストリビューションファイルをインストールします。tar.gz 形式または pkgadd 形式を選択する必要があります。

    『N1 Grid Engine 6 インストールガイド』『N1 Grid Engine 6 インストールガイド』「配布ファイルをワークステーションに読み込む方法」に示されている操作説明に従ってください。


    注 –

    pkgadd 形式を選択する場合には、Sun Grid Engine パッケージが登録されているノードに Sun Grid Engine ソフトウェアのパッチをインストールする必要があります。


  3. SGE_ROOT 環境変数に、「ノードとディスクの準備」で作成した Sun Grid Engine ファイルシステムのルート用のディレクトリを設定します。


    # SGE_ROOT=sge-root-dir 
    # export SGE_ROOT
    
  4. Sun Grid Engine ファイルシステムのルート用のディレクトリに移動します。


    # cd sge-root-dir
    
  5. Sun Grid Engine マスターホストをインストールするスクリプトを起動します。


    # ./install_qmaster
    
  6. 画面のプロンプトに従って、次の情報を指定または確認します。

    • Sun Grid Engine 管理ユーザーの名前

    • SGE_ROOT 環境変数の値

    • TCP ポート番号

    • 構成する Sun Grid Engine セルの名前

    • スプールディレクトリのパス

    • 正しいファイルアクセス権の設定

    • ドメイン名サービス (DNS) ドメインの詳細

  7. classic スプール DB を使用するか Berkley DB を使用するかを確認されたら、Berkely DB スプールサーバーの使用は選択しないでください。

    classic スプール方式を選択するか、あるいは local spooling による Berkley DB を選択してください。

  8. プロンプトが表示されたら、Sun Grid Engine のグループ ID として使用する範囲を指定します。

    十分なグループ ID を確実に割り当てることができるように、約 100 個のグループ ID を指定します (たとえば、20000 から 20100)。

  9. 画面のプロンプトに従って、次の情報を指定または確認します。

    • 実行デーモンのスプールディレクトリのパス

    • 問題の報告を受信するユーザーの電子メールアドレス

    • 構成パラメータの確認

  10. ブート時に Sun Grid Engine を起動するスクリプトをインストールするかどうかをたずねられたら、no で回答します。

    ブート時に Sun Grid Engine を起動するスクリプトをインストールするかどうかを尋ねられます。


    We can install the startup script that will
    start qmaster/scheduler at machine boot (y/n) [y] >> n  
    

    Sun Cluster HA for Sun Grid Engine が障害監視と自動障害回復を確実に提供できるようにするには、Sun Grid Engine を Sun Cluster だけから起動する必要があります。

  11. 画面のプロンプトに従って、次の情報を指定または確認します。

    • 実行ホスト、管理ホスト、および発行ホストのリストを指定します。

    • シャドウホストは使用しないでください。

    • スケジューラプロファイルを選択します。

ProcedureSun Grid Engine をクラスタで実行するには

手順
  1. Sun Grid Engine をホストするクラスタノードのスーパーユーザーになります。

  2. Sun Cluster HA for Sun Grid Engine リソースが含まれるフェイルオーバーリソースグループを作成します。

    リソースグループには「構成計画に関する質問」の質問で回答したリソースグループを使用します。


    # scrgadm -a -g sge-rg \
     -y Pathprefix=sge-root-dir
    
    -g sge-rg

    作成するリソースグループの名前は sge-rg です。

    -y Pathprefix= sge-root-dir

    Sun Cluster HA for NFS が管理情報とステータス情報の保持に使用する、クラスタファイルシステム上のディレクトリを指定します。このディレクトリは、「ノードとディスクの準備」で作成した Sun Grid Engine ファイルシステムのルート用のディレクトリである必要があります。

  3. Sun Grid Engine 論理ホスト名のリソースを、手順 2 で作成したフェイルオーバーリソースグループに追加します。


    # scrgadm -a -L -j sge-lh-rs \
    -g sge-rg \
    -l hostlist
    
    -j sge-lh-rs

    作成しているリソースの名前が sge-lh-rs であることを指定します。

    -g sge-rg

    手順 2 で作成したフェイルオーバーリソースグループに論理ホスト名リソースを追加することを指定します。

    -l hostlist

    論理ホスト名リソースによって利用可能になるホスト名をコンマ区切りリストで指定します。

Sun Grid Engine のインストールと構成の確認

Sun Cluster HA for Sun Grid Engine パッケージをインストールする前に、Sun Grid Engine ソフトウェアがすでにインストールされ、クラスタで動作するように構成されていることを確認してください。ただし、これによって、Sun Grid Engine アプリケーションが高可用性であることを確認するものではありません。Sun Cluster HA for Sun Grid Engine データサービスはまだインストールされていないからです。


注 –

この手順のどこかで問題が発生する場合、Sun Grid Engine のマニュアルを参照して、Sun Grid Engine インストールを確認する方法についての詳細を調べてください。


ProcedureSun Grid Engine のインストールと構成を確認するには

Sun Grid Engine のインストールと構成を確認するには、疑似ジョブを発行して、要求されたプロセスが動作しているかどうかをチェックします。

手順
  1. 「ノードとディスクの準備」でアカウントを作成した管理ユーザーとして、マスターホストにログインします。

  2. SGE_ROOT 環境変数に、「ノードとディスクの準備」で作成した Sun Grid Engine ファイルシステムのルート用のディレクトリを設定します。


    $ SGE_ROOT=sge-root-dir 
    $ export SGE_ROOT
    
  3. Sun Grid Engine を実行できるように環境を変更するスクリプトを起動します。


    $ . $SGE_ROOT/default/common/settings.sh
    
  4. ダミーのジョブを Sun Grid Engine に発行します。


    $ qsub $SGE_ROOT/examples/jobs/sleeper.sh
    your job 1 (*Sleeper*) has been submitted 
  5. マスターホストで、これらのプロセスが動作していることを確認します。

    • sge_qmaster

    • sge_schedd


    #  ps -ef | grep sge_ 
    root  429  1  0  Jul 27 3:37 /global/gridmaster/bin/solaris64/sge_qmaster
    root  429  1  0  Jul 27 3:37 /global/gridmaster/bin/solaris64/sge_schedd
  6. グリッドの全体的な構成を表示します。

    • コマンド行を使用している場合、次のコマンドを入力します。


      $ qconf -sconf
      
    • QMON グラフィカルユーザーインタフェース (GUI) を使用している場合、「Cluster Configuration」を選択します。

  7. 少なくとも 1 台の実行ホストで、これらのプロセスが動作していることを確認します。

    • sge_execd


    #  ps -ef | grep sge_ 
    root  451  1 0  Jul 27 3:37 /global/gridmaster/bin/solaris64/sge_execd

Sun Cluster HA for Sun Grid Engine パッケージのインストール

最初に Sun Cluster をインストールするときに、Sun Cluster HA for Sun Grid Engine パッケージをインストールしなかった場合は、この手順でパッケージをインストールしてください。この手順は、Sun Cluster HA for Sun Grid Engine パッケージをインストールする各クラスタノード上で個別に実行します。この手順を実行するには、Sun Cluster Agents CD-ROM が必要です。

複数のデータサービスを同時にインストールする場合は、『Sun Cluster ソフトウェアのインストール (Solaris OS 版)』「ソフトウェアのインストール」に記載されている手順を実行してください。

次のインストールツールのどちらかを使用して、Sun Cluster HA for Sun Grid Engine パッケージをインストールします。


注 –

Solaris 10 を使用している場合は、これらのパッケージを大域ゾーンにだけインストールしてください。パッケージをインストールしたあとで作成されたローカルゾーンにそれらのパッケージが転送されないようにするには、scinstall ユーティリティーを使用してパッケージをインストールしてください。Web Start プログラムは使用しないでください。


ProcedureWeb Start プログラムを使用して Sun Cluster HA for Sun Grid Engine パッケージをインストールする

Web Start プログラムは、コマンド行インタフェース (CLI) またはグラフィカルユーザーインタフェース (GUI) を使用して実行できます。CLI と GUI での作業の内容と手順はほとんど同じです。Web Start プログラムの詳細は、installer(1M) のマニュアルページを参照してください。

手順
  1. Sun Cluster HA for Sun Grid Engine パッケージをインストールするクラスタノード上で、スーパーユーザーになります。

  2. (省略可能) GUI で Web Start プログラムを実行する場合は、DISPLAY 環境変数が設定されていることを確認してください。

  3. CD-ROM ドライブに Sun Cluster Agents CD-ROM を挿入します。

    ボリューム管理デーモン vold(1M) が実行されており、CD-ROM デバイスを管理するように構成されている場合は、デーモンによって CD-ROM が自動的に /cdrom/cdrom0 ディレクトリにマウントされます。

  4. CD-ROM の Sun Cluster HA for Sun Grid Engine コンポーネントディレクトリに移動します。

    Sun Cluster HA for Sun Grid Engine データサービスの Web Start プログラムは、このディレクトリに入っています。


    # cd /cdrom/cdrom0/components/SunCluster_HA_SUN_GRID_ENG_3.1
    
  5. Web Start プログラムを起動します。


    # ./installer
    
  6. プロンプトが表示されたら、インストールの種類を選択します。

    • C ロケールのみをインストールする場合は、Typical を選択します。

    • ほかのロケールをインストールする場合は、Custom を選択します。

  7. 表示される手順に従って、ノードに Sun Cluster HA for Sun Grid Engine パッケージをインストールします。

    インストールが終了すると、Web Start プログラムのインストールサマリーが出力されます。このサマリーを使用して、インストール時に Web Start によって作成されたログを確認できます。これらのログは、/var/sadm/install/logs ディレクトリにあります。

  8. Web Start プログラムを終了します。

  9. Sun Cluster Agents CD-ROM を CD-ROM ドライブから取り出します。

    1. CD-ROM が使用されないように、CD-ROM 上のディレクトリ以外に移動します。

    2. CD-ROM を取り出します。


      # eject cdrom
      

Procedurescinstall ユーティリティーを使用して Sun Cluster HA for Sun Grid Engine パッケージをインストールする

この手順は、Sun Cluster HA for Sun Grid Engine をマスターできるすべてのクラスタメンバーで実行してください。

始める前に

Sun Cluster Agents CD-ROM が存在することを確認します。

手順
  1. CD-ROM ドライブに Sun Cluster Agents CD-ROM を挿入します。

  2. オプションは指定せずに、scinstall ユーティリティーを実行します。

    scinstall ユーティリティーが対話型モードで起動します。

  3. メニューオプション「新しいデータサービスのサポートをこのクラスタノードに追加」を選択します。

    scinstall ユーティリティーにより、ほかの情報を入力するためのプロンプトが表示されます。

  4. Sun Cluster Agents CD-ROM のパスを指定します。

    ユーティリティーはこの CD をデータサービス CD-ROM として示します。

  5. インストールするデータサービスを指定します。

    選択したデータサービスが scinstall ユーティリティーによって示され、この選択の確認が求められます。

  6. scinstall ユーティリティーを終了します。

  7. ドライブから CD を取り出します。

Sun Cluster HA for Sun Grid Engine で使用される HAStoragePlus リソースタイプの構成

Sun Grid Engine アプリケーションの可用性を最大限にするためには、Sun Grid Engine 管理層を起動する前に、Sun Cluster HA for Sun Grid Engine が必要とするリソースを利用できるようにしておく必要があります。このようなリソースの例としては、Sun Grid Engine ファイルシステムがあります。このようなリソースを確保するためには、Sun Cluster HA for Sun Grid Engine で使用する HAStoragePlus リソースタイプを構成する必要があります。

リソースグループとディスクデバイスグループの関係については、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』「リソースグループとディスクデバイスグループの関係」を参照してください。

Sun Cluster HA for Sun Grid Engine で使用する HAStoragePlus リソースタイプを構成するためには、次の操作が必要です。

ProcedureHAStoragePlus リソースを登録および構成するには

手順
  1. Sun Grid Engine をホストするクラスタノードでスーパーユーザーになります。

  2. SUNW.HAStoragePlus リソースタイプを登録します。


    # scrgadm -a -t SUNW.HAStoragePlus
    
  3. Sun Grid Engine ファイルシステム用の HAStoragePlus リソースを、「Sun Grid Engine をクラスタで実行するには」で作成したリソースグループに追加します。


    # scrgadm -a -j sge-hasp-rs \
    -g sge-rg \
    -t SUNW.HAStoragePlus  \
    -x FilesystemMountPoints=sge-root
    
    -j sge-hasp-rs

    作成しているリソースの名前が sge-hasp-rs であることを指定します。

    -g sge-rg

    「Sun Grid Engine をクラスタで実行するには」で作成したリソースグループにリソースを追加することを指定します。

    -x FilesystemMountPoints=sge-root

    このファイルシステム用のマウントポイントが Sun Grid Engine ファイルシステムのルートであることを指定します。

Sun Cluster HA for Sun Grid Engine で使用するための Sun Cluster HA for NFS の構成

Sun Grid Engine ファイルシステムをクラスタ以外のノードにエクスポートするには、NFS を使用する必要があります。このファイルシステムをエクスポートする NFS サーバーも障害から保護する必要があります。NFS サーバーを障害から保護するには、Sun Cluster HA for NFS データサービスを使用します。

次の手順では、Sun Cluster HA for NFS を Sun Cluster HA for Sun Grid Engine で使用するための特別な要件だけを説明します。Sun Cluster HA for NFS のインストールと構成のすべての情報については、『Sun Cluster Data Service for Network File System (NFS) ガイド (Solaris OS 版)』を参照してください。

ProcedureSun Cluster HA for Sun Grid Engine で使用するために Sun Cluster HA for NFS を構成するには


注 –

この手順のコマンドは、$SGE_ROOT 環境変数に Sun Grid Engine ファイルシステムのルートを指定していると仮定します。


手順
  1. SUNW.nfs リソースタイプを登録します。


    # scrgadm -a -t SUNW.nfs
    
  2. 任意のクラスタノードから、NFS 構成ファイル用のディレクトリを作成します。

    このディレクトリは、Sun Grid Engine ファイルシステムのルートの下に作成します。このディレクトリの名前に SUNW.nfs を指定します。


    # mkdir -p $SGE_ROOT/SUNW.nfs
    
  3. 手順 2 で作成したディレクトリで、Sun Grid Engine ファイルシステムのルート用の share コマンドが含まれるファイルを作成します。

    このファイルの名前に dfstab.sge-nfs-rs を指定します。sge-nfs-rs は、手順 4 で作成する NFS リソースの名前です。


    # echo "share -F nfs -o rw sge-root" \
     > $SGE_ROOT/SUNW.nfs/dfstab.sge-nfs-rs
    
  4. 「Sun Grid Engine をクラスタで実行するには」で作成したフェイルオーバーリソースグループに SUNW.nfs リソースを追加します。


    # scrgadm -a -j sge-nfs-rs \
    -g sge-rg \
    -t SUNW.nfs \
    -y Resource_dependencies=sge-hasp-rs
    

例 2 Sun Grid Engine ファイルシステムのルート用の dfstab ファイルの作成

次の例では、Sun Grid Engine ファイルシステムのルート用の dfstab ファイルを作成するコマンドを示します。


# echo "share -F nfs -o rw /global/gridmaster" \
 > /global/gridmaster/SUNW.nfs/dfstab.sge-nfs-rs

Sun Cluster HA for Sun Grid Engine の登録と構成

この手順を行う前に、Sun Cluster HA for Sun Grid Engine データサービスパッケージがインストールされていることを確認してください。

/opt/SUNWscsge/util ディレクトリにある構成ファイルと登録ファイルを使用して、Sun Cluster HA for Sun Grid Engine リソースを登録します。これらのファイルは、Sun Grid Engine コンポーネント間に必要な依存関係を定義します。これらの依存関係については、「Sun Grid Engine コンポーネント間の依存関係」を参照してください。これらのファイルのリストについては、付録 A 「Sun Cluster HA for Sun Grid Engine リソースを構成および削除するためのファイル」を参照してください。

Sun Cluster HA for Sun Grid Engine の登録と構成には、次の節で説明する作業が含まれます。

  1. 「Sun Cluster HA for Sun Grid Engine リソース用の構成パラメータの指定」

  2. 「Sun Cluster HA for Sun Grid Engine リソースを作成および有効にするには」

Sun Cluster HA for Sun Grid Engine リソース用の構成パラメータの指定

Sun Cluster HA for Sun Grid Engine は、Sun Cluster HA for Sun Grid Engine リソースの構成と削除のプロセスを自動化するスクリプトを提供します。これらのスクリプトは、/opt/SUNWscsge/util/ ディレクトリにある sge_config ファイルから構成パラメータを取得します。Sun Cluster HA for Sun Grid Engine リソース用の構成パラメータを指定するには、sge_config ファイルを編集します。

sge_config ファイルの各構成パラメータは、キーワードと値のペアとして定義されます。sge_config ファイルには、すでに、必要なキーワードと等号記号が含まれます。詳細は、sge_config のリスト」を参照してください。sge_config ファイルを編集するときには、各キーワードに必要な値を追加します。「構成計画に関する質問」で特定した値を使用してください。

sge_config ファイルのキーワードと値のペアは、次のとおりです。

COMMDRS=sge-commd-rs
QMASTERRS=sge-qmaster-rs
SCHEDDRS=sge-schedd-rs
MASTERRG=sge-rg
MASTERLH=sge-lh-rs
MASTERPORT=portno
SGE_ROOT=sge-root-dir
SGE_CELL=cell-name
SGE_VER=6.0|5.3

sge_config ファイルのキーワードの意味と使用できる値は、次のとおりです。

COMMDRSS=sge-commd-rs

Sun Grid Engine 通信デーモン sge_commd 用のリソースに割り当てる名前を指定します。この指定が必要となるのは Sun Grid Engine 5.3 の場合だけであり、Sun Grid Engine 6.0 の場合は空のままにすることができます。

QMASTERRS=sge-qmaster-rs

Sun Grid Engine 待ち行列マスターデーモン sge_qmaster 用のリソースに割り当てる名前を指定します。これは必須キーワードです。

SCHEDDRS=sge-schedd-rs

Sun Grid Engine スケジューリングデーモン sge_schedd 用のリソースに割り当てる名前を指定します。これは必須キーワードです。

MASTERRG=sge-rg

Sun Cluster HA for Sun Grid Engine リソースが含まれるリソースグループの名前を指定します。この名前は、「Sun Grid Engine をクラスタで実行するには」でリソースグループを作成したときに割り当てた名前である必要があります。これは必須キーワードです。

MASTERLH=sge-lh-rs

Sun Grid Engine 用の論理ホスト名リソースの名前を指定します。この名前は、「Sun Grid Engine をクラスタで実行するには」でリソースを作成したときに割り当てた名前である必要があります。これは必須キーワードです。

MASTERPORT=portno

/etc/inet/servicessge_qmaster に構成されているポート番号を指定します (通常は 536)。この値は Sun Cluster HA for Sun Grid Engine データサービスで使用されませんが、ここに記載しておきます。この値は必須キーワードであり、整数でなければなりません。

SGE_ROOT=sge-root-dir

Sun Grid Engine ファイルシステムのルートディレクトリを指定します。このディレクトリは、「ノードとディスクの準備」で作成した Sun Grid Engine ファイルシステムのルート用のディレクトリである必要があります。これは必須キーワードです。

SGE_CELL=cell-name

Sun Grid Engine が参照するセルを指定します。これは必須キーワードです。

SGE_VER=5.3|6.0

インストールされている Sun Grid Engine 構成のバージョンを指定します。これは必須キーワードであり、値として "5.3" または "6.0" を指定します。


例 3 sge_config ファイルの例

次の例では、sge_config ファイルの構成パラメータは次のように設定されています。

COMMDRS=""
QMASTERRS=sge_qmaster-rs
SCHEDDRS=sge_schedd-rs
MASTERRG=sge-rg
MASTERLH=sge-lh-rs 
MASTERPORT=536
SGE_ROOT=/global/gridmaster
SGE_CELL=default
SGE_VER=6.0

ProcedureSun Cluster HA for Sun Grid Engine リソースを作成および有効にするには

開始する前に、sge_config ファイルを編集して、Sun Cluster HA for Sun Grid Engine 用の構成パラメータを指定していることを確認します。詳細は、「Sun Cluster HA for Sun Grid Engine リソース用の構成パラメータの指定」を参照してください。

手順
  1. SUNW.gds リソースタイプを登録します。


    # scrgadm -a -t SUNW.gds
    
  2. Sun Grid Engine リソースを作成するためのスクリプトが含まれるディレクトリに移動します。


    # cd /opt/SUNWscsge/util/
    
  3. Sun Grid Engine リソースを作成するスクリプトを実行します。


    # ./sge_register
    
  4. 「Sun Grid Engine をクラスタで実行するには」で作成したフェイルオーバーリソースグループをオンラインにします。

    このリソースグループに含まれるリソースは、次のとおりです。

    • 論理ホスト名リソース

    • HAStoragePlus リソース

    • NFS リソース

    • Sun Grid Engine アプリケーションリソース


    # scswitch -Z -g sge-rg
    
    -g sge-rg

    「Sun Grid Engine をクラスタで実行するには」で作成したリソースグループをオンラインにすることを指定します。


    注意 – 注意 –

    フェイルオーバーリソースグループをオンラインにする前に、Sun Grid Engine デーモン (sge_qmastersge_schedd) が稼働していないことを確認してください。インストールスクリプト install_qmaster によって起動されたために稼働を続けている場合や、「Sun Cluster HA for Sun Grid Engine のインストールと構成を確認する」に説明されている検証作業のあと、これらのデーモンがそのまま稼働を続けている場合などがあります。


Sun Cluster HA for Sun Grid Engine 拡張プロパティーの設定

Sun Cluster HA for Sun Grid Engine リソース用の拡張プロパティーは、これらのリソースを作成するスクリプトを実行するときに設定されます。これらのプロパティーを設定する必要があるのは、スクリプトが設定する値以外の値が必要な場合だけです。Sun Cluster HA for Sun Grid Engine 拡張プロパティーの詳細は、SUNW.gds(5) のマニュアルページを参照してください。拡張プロパティーの中には動的に変更できるものがあります。ただし、それ以外の拡張プロパティーは、リソースを作成するか無効にするときにしか更新できません。「調整可能」の欄には、そのプロパティーをいつ変更できるかが示されています。

リソースの拡張プロパティーを更新するには、次のオプションを指定してscrgadm(1M) コマンドを実行し、リソースを変更します。


-x property=value 
-x property

設定する拡張プロパティーを指定します。

value

設定する拡張プロパティーの値を指定します。

リソースを作成したあとでリソースを構成する場合は、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』の第 2 章「データサービスリソースの管理」に示されている手順を使用します。

Sun Cluster HA for Sun Grid Engine のインストールと構成の確認

Sun Cluster HA for Sun Grid Engine のインストール、登録、構成が終わったら、Sun Cluster HA for Sun Grid Engine のインストールと構成を確認します。これによって、Sun Cluster HA for Sun Grid Engine データサービスが Sun Grid Engine アプリケーションの高可用性をサポートしているかどうかがわかります。

ProcedureSun Cluster HA for Sun Grid Engine のインストールと構成を確認する

手順
  1. Sun Grid Engine をホストするノードのスーパーユーザーになります。

  2. すべての Sun Grid Engine リソースがオンラインであることを確認します。


    # scstat
    
  3. Sun Grid Engine リソースがオンラインでない場合、そのリソースを有効にします。


    # scswitch -e -j sge-rs
    
  4. Sun Grid Engine リソースグループを別のクラスタノードに切り換えます。


    # scswitch -z -g sge-rg -h node
    

Sun Cluster HA for Sun Grid Engine 障害モニターの調整

Sun Cluster HA for Sun Grid Engine 障害モニターは、次のデーモンが正しく動作しているかどうかを確認します。

各 Sun Cluster HA for Sun Grid Engine 障害モニターは、Sun Grid Engine コンポーネントを表すリソースに含まれます。このようなリソースを作成するのは、Sun Cluster HA for Sun Grid Engine を登録および構成するときです。詳細は、「Sun Cluster HA for Sun Grid Engine の登録と構成」を参照してください。

これらのリソースのシステムプロパティーと拡張プロパティーは、障害モニターの動作を制御します。事前に設定された障害モニターの動作は、これらのプロパティーのデフォルト値に基づいています。現在の動作は、ほとんどの Sun Cluster システムに適しているはずです。したがって、Sun Cluster HA for Sun Grid Engine 障害モニターを調整する必要があるのは、この事前設定されている動作を変更する必要がある場合だけです。

Sun Cluster HA for Sun Grid Engine 障害モニターの調整では次のことを行います。

詳細は、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』「Sun Cluster データサービス用に障害モニターを調整する」を参照してください。

Sun Cluster HA for Sun Grid Engine のデバッグ

/opt/SUNWscsge/etc ディレクトリにある config ファイルを使用すると、 Sun Grid Engine リソースのデバッグを有効にできます。このファイルを使用すると、すべての Sun Grid Engine リソースまたは特定のノード上の特定の Sun Grid Engine リソースのデバッグを有効にできます。Sun Cluster HA for Sun Grid Engine のデバッグをクラスタ全体で有効にする必要がある場合は、この手順をすべてのノードで繰り返します。

ProcedureSun Cluster HA for Sun Grid Engine のデバッグを有効にするには

手順
  1. Sun Cluster HA for Sun Grid Engine のデバッグが有効であるかどうかを判断します。

    デバッグが無効である場合、/etc/syslog.conf ファイルに daemon.notice が設定されています。


    # grep daemon /etc/syslog.conf
    *.err;kern.debug;daemon.notice;mail.crit        /var/adm/messages
    *.alert;kern.err;daemon.err                     operator
    #
  2. このデバッグを有効にするには、/etc/syslog.conf ファイルを編集して、daemon.noticedaemon.debug に変更します。

  3. Sun Cluster HA for Sun Grid Engine のデバッグが有効であることを確認します。

    デバッグが有効である場合、/etc/syslog.conf ファイルに daemon.debug が設定されています。


    # grep daemon /etc/syslog.conf
    *.err;kern.debug;daemon.debug;mail.crit        /var/adm/messages
    *.alert;kern.err;daemon.err                    operator
    #
  4. syslogd デーモンを再起動します。


    # pkill -1 syslogd
    
  5. /opt/SUNWscsge/etc/config ファイルを編集して、DEBUG=DEBUG=ALL または DEBUG= sge-rs に変更します。


    # cat /opt/SUNWscsge/etc/config
    #
    # Copyright 2003 Sun Microsystems, Inc.  All rights reserved.
    # Use is subject to license terms.
    #
    # Usage:
    #       DEBUG=<RESOURCE_NAME> or ALL
    #
    DEBUG=ALL
    #

    注 –

    デバッグを無効にするには、これらの手順を逆にします。