Sun N1 Grid Engine 6.1 管理ガイド

QMON を使用した並列環境の構成

QMON Main Control」ウィンドウで「Parallel Environment Configuration」ボタンをクリックします。「Parallel Environment Configuration」ダイアログボックスが表示されます。

現在構成されている並列環境は、「PE List」の下に表示されます。

並列環境の内容を表示するには、並列環境を選択します。選択した並列環境の構成は、「Configuration」の下に表示されます。

並列環境を削除するには、並列環境を選択してから「Delete」をクリックします。

新しい並列環境を追加するには「Add」をクリックし、並列環境を変更するには並列環境を選択してから「Modify」をクリックします。

「Add」または「Modify」をクリックすると、「Add/Modify PE」ダイアログボックスが表示されます。

新しい並列環境を追加する場合、「Name」フィールドにその名前を入力します。並列環境を変更する場合、「Name」フィールドにはその名前が表示されます。

「Slots」ボックスでは、並行して実行中のすべての並列環境ジョブにより占有可能なジョブスロットの合計数を入力します。

「User Lists」には、並列環境にアクセスできるユーザーアクセスリストが表示されます。「Xuser Lists」には、 並列環境にアクセスできないユーザーアクセスリストが表示されます。ユーザーアクセスリストの詳細については、「ユーザーアクセスリストの構成」を参照してください。

リストの内容を変更するには、各リストの右側にあるアイコンをクリックします。「Select Access Lists」ダイアログボックスが表示されます。

「Start Proc Args」フィールドおよび「Stop Proc Args」フィールドはオプションです。これらのフィールドを使用して、並列環境の起動および停止手続きの正確な起動シーケンスを入力します。それぞれ、「並列環境の起動手続き」および 「並列環境の終了」を参照してください。ある種の並列環境にこのような手続きが必要でない場合は、これらのフィールは空のままにできます。

通常、先頭の引数は、起動または停止手続きそのものの名前になります。残りのパラメータは、その手続きに対するコマンド行引数です。

内部実行時情報を手続きに渡すための各種の特殊な識別子 ($ 接頭辞から始まる) が用意されています。使用可能なすべてのパラメータのリストは、 sge_pe(5) のマニュアルページに記載されています。

「Allocation Rule」フィールドでは、並列環境で使用する各マシンに割り当てる並列プロセス数を定義します。正の整数で、適切な各ホストのプロセス数を決定します。特別な分母 $pe_slots を使用すると、ジョブのプロセスの完全な範囲を、シングルホスト (SMP) 上に割り当てることになります。分母 $fill_up および $round_robin を使用すると、各ホストでのプロセスの分配がアンバランスになります。これらの割り当て規則の詳細については、 sge_pe(5) のマニュアルページを参照してください。

「Urgency Slots」フィールドでは、スロット範囲を持つ保留中のジョブが取得するスロット数のアクセスに Grid Engine システムが使用する方法を指定します。想定されたスロット割り当てが意味を持つのは、数値リソースに関するリソース要求ベースの優先順位関係を決定する場合です。スロットの数には、整数値を指定できます。min を指定すると、スロット範囲の最小値を使用します。max を指定すると、スロット範囲の最大値を使用します。avg を指定すると、ジョブの並列環境の範囲要求内で発生するすべての数値の平均を使用します。

「Control Slaves」チェックボックスでは、Grid Engine システムが並列タスクを生成するかどうか、または対応する並列環境が独自のプロセスを作成するかどうかを指定します。Grid Engine システムでは、sge_execd および sge_shepherd を使用して並列タスクを生成します。システムにより正確なアカウンティングとリソース制御が実現されるため、Grid Engine システムによりスレーブタスクを完全に制御することを推奨します。ただし、この機能が使用可能であるのは、Grid Engine システムシステム用に特別にカスタマイズされた並列環境インタフェースのみです。詳細については、「並列環境と Grid Engine ソフトウェアの密統合」を参照してください。

「Job Is First Task」チェックボックスが意味を持つのは、「Control Slaves」が選択されている場合のみです。「Job Is First Task」を選択した場合は、ジョブスクリプト、またはその子プロセスの 1 つが、並列アプリケーションの並列タスクの 1 つとして動作します。たとえば PVM では、通常、ジョブスクリプトを並列アプリケーションの一部にする必要があります。「Job Is First Task」チェックボックスをクリアすると、ジョブスクリプトは並列アプリケーションを開始しますが、参加はしません。たとえば MPI では、mpirun を使用する場合、通常はジョブスクリプトを並列アプリケーションの一部にする必要はありません。

変更を保存するには「OK」をクリックし、ダイアログ ボックスを閉じます。変更を保存せずにダイアログボックスを閉じるには、「Cancel」をクリックします。

QMON を使用した構成済み並列環境インタフェースの表示

QMON Main Control」ウィンドウで「Parallel Environment Configuration」ボタンをクリックします。「Parallel Environment Configuration」ダイアログボックスが表示されます。詳細については、QMON を使用した並列環境の構成」を参照してください。

次の例では、発行される並列ジョブを定義しています。ジョブは、4 から 16 個のプロセスとともに、並列環境インタフェース mpi (メッセージ引き渡しインタフェース) を使用するよう要求しています。推奨値は 16 です。

使用可能な並列環境のリストから並列環境を選択するには、「Parallel Environment」フィールドの右側にあるボタンをクリックします。選択ダイアログボックスが表示されます。

「Parallel Environment」フィールドの並列環境名のあとに、ジョブにより開始される並列タスクの数の範囲を追加できます。

以前に説明した並列ジョブの指定に対応する qsub コマンドは、次のようになります。


% qsub -N Flow -p -111 -P devel -a 200012240000.00 -cwd \
 -S /bin/tcsh -o flow.out -j y -pe mpi 4-16 \
 -v SHARED_MEM=TRUE,MODEL_SIZE=LARGE \
 -ac JOB_STEP=preprocessing,PORT=1234 \
 -A FLOW -w w -r y -m s,e -q big_q\
 -M me@myhost.com,me@other.address \
 flow.sh big.data

この例は、qsub -pe コマンドを使用して、同等の要求を定式化する方法を示しています。qsub(1) のマニュアルページには、-pe オプションの詳細が記載されています。

次の考慮事項に留意し、並列ジョブに適した並列環境インタフェースを選択します。

ご使用の種類の並列ジョブに最適な、使用可能な並列環境インタフェースについては、Grid Engine システムの管理者にお問い合わせください。

並列環境要求とともにリソース要件を指定することができます。リソース要求を指定すると、並列環境インタフェースに適したキューのセットが、要求に合うキューにさらに絞られます。『Sun N1 Grid Engine 6.1 ユーザーズガイド』「リソース要件の定義」を参照してください。

たとえば、次のコマンドを実行する場合を考えます。


% qsub -pe mpi 1,2,4,8 -l nastran,arch=osf nastran.par

このジョブに適したキューは、並列環境の構成で並列環境インタフェース mpi に関連付けられたキューになります。適したキューは、qsub -l コマンドで指定されたリソース要求の指定も満たします。


注 –

並列環境インタフェースは、構成の自由度が大きい機能です。特に、管理者は、サイトに固有のニーズに合わせて並列環境の起動および停止手続きを構成することができます。詳細については、sge_pe(5) のマニュアルページを参照してください。起動および停止手続きにジョブを発行するユーザーから、情報を渡すには、qsub -v および qsub -V コマンドを使用します。これらの 2 つのオプションは環境変数をエクスポートします。特定の環境変数をエクスポートする必要があるかどうかについて不明な点がある場合は、管理者にお尋ねください。