この章では、Grid Engine システムのさまざまな側面の構成に関する内容説明を行います。この章では、次の作業について説明します。
システム上でどのデーモンが実行中であるか、およびホストが sge_qmaster でどのように登録されているかに応じて、Grid Engine システムホストは 4 つのグループに分類されます。
マスターホスト。マスターホストは、クラスタの活動全般の中心です。マスターホストは、マスターデーモン sge_qmaster を実行します。sge_qmaster は、キューやジョブなどのすべての Grid Engine システムコンポーネントを制御します。また、ユーザーのアクセス権などに関するコンポーネントの状態に関するテーブルも維持します。マスターホストは、通常、スケジューラ sge_schedd を実行します。マスターホストは、インストール手順により実行される構成以外の構成を必要としません。
マスターホストの最初の設定方法については、『Sun N1 Grid Engine 6.1 インストールガイド』の「マスターホストをインストールする方法」を参照してください。マスターホストに対する動的な変更の構成方法については、「シャドウマスターホストの構成」を参照してください。
実行ホスト。実行ホストは、ジョブを実行するアクセス権を持つノードです。そのため、実行ホストはキューインスタンスを提供し、実行デーモン sge_execd を実行します。実行ホストは、『Sun N1 Grid Engine 6.1 インストールガイド』の「実行ホストをインストールする方法」で説明されているインストール手順によって最初に設定されます。
管理ホスト。任意の種類の管理作業を行うために、マスターホスト以外のホストにもアクセス権を付与できます。管理ホストを設定するには、次のコマンドを使用します。
qconf -ah ホスト名
詳細については、qconf(1) のマニュアルページを参照してください。
発行ホスト。発行ホストは、バッチジョブの発行と制御のみが可能です。特に、発行ホストにログインしているユーザーは、qsub を使用してジョブを発行したり、qstat を使用してジョブの状態を制御したり、グラフィカルユーザーインタフェース QMON を実行できます。発行ホストを設定するには、次のコマンドを使用します。
qconf -as ホスト名
詳細については、qconf(1) のマニュアルページを参照してください。
ホストは、複数のクラスに属することが可能です。マスターホストは、デフォルトでは管理ホストと発行ホストになっています。
スプーリングデータベースは NFS でマウントされたファイルシステムに配置できないため、次の手続きでは、Berkeley DB RPC サーバーをスプーリングに使用する必要があります。
スプーリングをローカルファイルシステムに対して構成する場合は、スプーリングデータベースを、新しい sge_qmaster ホスト上のローカルファイルシステムに転送する必要があります。
新しいマスターホストに読み取り/書き込みアクセス権があることを確認します。
新しいマスターホストには、現在のマスター同様、qmaster スプールディレクトリと common ディレクトリに対する読み取り/書き込みアクセス権が必要です。管理ユーザーがユーザー root (グローバルクラスタ構成で admin_user の設定を確認) の場合は、ユーザー root がそのユーザー名でこれらのディレクトリにファイルを作成できることを確認してください。
新しいマスターホストで移行スクリプトを実行します。
新しいマスターホストで、ユーザー root として次のスクリプトを実行してください。
# /etc/init.d/sgemaster -migrate |
このコマンドは、元のマスターホスト上で sge_qmaster および sge_schedd を停止し、新しいマスターホスト上でこれらのコマンドを起動します。$SGE_ROOT/$SGE_CELL/common/act_qmaster ファイルにあるマスターホスト名は、自動的に新しいマスターホストの名前に変更されます。qmaster が動作していない場合は、警告メッセージが表示され、1 分ほどして、新しいホスト上で qmaster が起動されます。
必要に応じて shadow_masters ファイルを変更します。
$SGE_ROOT/$CELL/common/shadow_masters ファイルが存在するかどうかを確認します。ファイルが存在する場合は、必要に応じて新しい qmaster ホストをこのファイルに追加し、元のマスターホストを削除できます。それぞれのマシンで次のコマンドを発行して、sge_shadowd デーモンの実行を停止、再開します。
/etc/init.d/sgemaster -shadowd stop /etc/init.d/sgemaster -shadowd start |
システム全体の sgemaster 起動スクリプトがある場所は、使用されているオペレーティングシステムによって異なります。 $SGE_ROOT/default/common/sgemaster は常に使用できます。
移行手続きは、sgemaster -migrate コマンドが発行されたホストに移行します。primary_qmaster ファイルが存在する場合、そのマシンにある sgemaster への呼び出しがそのファイルに含まれていると、移行せずにそのマシンに戻ります。こうした状況を回避するには、$SGE_ROOT/$SGE_CELL/common/primary_qmaster ファイルを変更または削除してください。
primary_qmaster ファイルの存在は、qmaster が実際に動作していることを意味しません。
移行手続き中、ジョブは実行を継続するかもしれませんが、グリッドはアクティブでないはずです。移行時に、qsub または qstat などの実行中の SGE コマンドはエラーを返します。
現在の qmaster が停止すると、qmaster との交信待ちでタイムアウトするまで、スケジューラの停止に遅れが生じます。
shadow_masters ファイルによって、移行手続きが直接影響を受けることはありません。このファイルは、シャドウマスターが構成されていた場合にのみ存在します。シャドウマスターの構成方法の詳細は、「シャドウマスターホストの構成」を参照してください。
現在のマスターホストで、次のコマンドを入力して、マスターデーモンとスケジューラデーモンを停止します。
qconf -ks -km |
次の手順に従い sge-root/cell/common/act_qmaster ファイルを編集します。
新しいマスターホストで、sge_qmaster と sge_schedd を起動します。
sge-root/cell/common/sge5 |
シャドウマスターホストはクラスタ内のマシンで、マスターデーモンの障害を検出して、マスターホストとしてその役割を引き継ぐことができます。シャドウマスターデーモンが、マスターデーモン sge_qmaster に異常な障害が発生したことを検出すると、シャドウマスターデーモンが動作しているホスト上で新しい sge_qmaster を起動します。
マスターデーモンが正常に停止した場合は、シャドウマスターデーモンは起動しません。マスターデーモンを正常に停止したあとにシャドウマスターデーモンに引き継ぎを任せる場合は、sge_qmaster スプールディレクトリにあるロックファイルを削除します。このスプールディレクトリのデフォルトの位置は、 sge-root/cell/spool/qmaster です。
シャドウマスターホストでの sge_qmaster の自動フェイルオーバーの起動には、約 1 分かかります。その間、Grid Engine システムコマンドが実行されるたびに、エラーメッセージが表示されます。
ファイル sge-root/ cell/common/act_qmaster には、実際に sge_qmaster デーモンを実行しているホストの名前が含まれています。
ホストをシャドウマスターとして準備するには、次の要件が満たされている必要があります。
シャドウマスターホストは、ディスクに記録されている sge_qmaster の状態情報、ジョブ構成、およびキュー構成を共有する必要があります。特に、シャドウマスターホストは、マスターホストのスプールディレクトリと、ディレクトリ sge-root/cell/common への読み取り/書き込みルートアクセス権が必要です。
sge_qmaster のスプーリングには、Berkeley DB RPC サーバーまたは典型的な Grid Engine システムスプーリングを使用する必要があります。 詳細は、『Sun N1 Grid Engine 6.1 インストールガイド』の「データベースサーバーとスプールホスト」を参照してください。
shadow-master-hostname ファイルは、そのホストをシャドウマスターホストとして定義する行を含む必要があります。
以上の要件が満たされるとすぐに、シャドウマスターホストの機能はこのホストに対して起動されます。機能の起動には、Grid Engine システム デーモンの再起動は必要ありません。
シャドウマスターホストファイル sge-root/cell/common/shadow_masters には、次の要素が含まれています。
マスターデーモン sge_qmaster が最初に実行されるマシンである、プライマリマスターホストの名前
シャドウマスターホストの名前
シャドウマスターホスト名ファイルの書式は次のようになります。
ファイルの最初の行がプライマリマスターホストを定義する
それ以降の行が、1 行につき 1 ホスト、シャドウマスターホストを定義する
シャドウマスターホストの順序は重要です。プライマリマスターホストがファイルの最初の行になります。プライマリマスターホストで動作の続行に障害が生じた場合、2 行目で定義されているシャドウマスターが引き継ぎます。このシャドウマスターにも障害が発生した場合は、3 行目で定義されているシャドウマスターが引き継ぐ、となります。
シャドウ sge_qmaster を起動するには、システムは、古い sge_qmaster が停止しているか、新しく起動されるシャドウ sge_qmaster に干渉するアクションを実行することなく停止することを確認する必要があります。
非常にまれな状況では、古い sge_qmaster がすでに停止しているか、これから停止するかを判別することが不可能な場合があります。このような場合は、シャドウマスターホストの sge_shadowd のメッセージログファイルにエラーメッセージが記録されます。第 9 章「チューニング、エラーメッセージ、および障害追跡」を参照してください。また、sge_qmaster デーモンへの tcp 接続を開く試みは、永続的に失敗します。このような事態になった場合は、実行中のマスターデーモンが存在しないことを確認してから、すべてのシャドウマスターマシン上で sge_qmaster を手動で再起動します。「コマンド行からのデーモンの再起動」を参照してください。
次の 3 つの環境変数は、シャドウマスターのテイクオーバー時間に影響します。
SGE_DELAY_TIME - この変数は、テイクオーバーの実行が失敗した場合に sge_shadowd が一時停止する間隔を制御します。この値は、複数の sge_shadowd インスタンスが存在し、それらがマスターになろうと競合している場合にのみ使用されます。デフォルトは 600 秒です。
SGE_CHECK_INTERVAL - この変数は、sge_shadowd がハートビートファイルを確認する間隔を制御します。デフォルトでは 60 秒です。
SGE_GET_ACTIVE_INTERVAL - この変数は、ハートビートファイルが変更されていない場合に sge_shadowd インスタンスがテイクオーバーを試みる間隔を制御します。
これらの変数は、次のように相互に作用します。
マスターホストはハートビートファイルを 30 秒ごとに更新します。
sge_shadowd デーモンは、 SGE_CHECK_INTERVAL 変数で定義されている秒数ごとにハートビートファイルの変更を確認します。このため、この値は 30 秒より大きくします。
sge_shadowd デーモンは、ハートビートファイルが更新されていることを検出すると、そのデーモンは再び待ち状態になり、もう一度ハートビートファイルを確認するタイミングになるまで待ちます。
sge_shadowd デーモンは、ハートビートファイルが更新されていないことを検出すると、SGE_CHECK_INTERVAL 変数で定義されている秒数が経過するまで待機します。この手順によって、sge_shadowd デーモンのテイクオーバーが頻繁に行われすぎないようにし、マスターホストが余裕を持ってハートビートファイルを更新できるようにします。
SGE_GET_ACTIVE_INTERVAL の期限が切れると、ハートビートファイルがまだ更新されていない場合は、sge_shadowd デーモンのテイクオーバーが行われます。
推奨する設定は、SGE_CHECK_INTERVAL が 45 秒、SGE_GET_ACTIVE_INTERVAL が 90 秒です。この設定にすると、約 2 分後にテイクオーバーが発生します。これらの環境変数の設定後にシャドウホストの動作を確認する場合は、マスターホストのネットワークケーブルを引き抜いて、障害のシミュレーションを行う必要があります。
N1 Grid Engine 6.1 ソフトウェアは、マスターホスト用を除き、すべてのタイプのホストのオブジェクトリストを維持しています。管理ホストオブジェクトと発行ホストオブジェクトのリストは、あるホストが管理アクセス権と発行アクセス権のどちらを持っているかを示しています。実行ホストオブジェクトにはそのほかのパラメータも含まれています。これらのパラメータの中には、ホスト上で実行中の sge_execd により報告される負荷情報や、管理者により定義された負荷パラメータのスケーリング係数があります。
ホストオブジェクトの構成は、QMON を使用するか、コマンド行から行うことができます。
「QMON Host Configuration」ダイアログボックスには次の 4 つのタブがあります。
「Administration Host」タブ。図 1–3 を参照してください。
「Submit Host」タブ。図 1–4 を参照してください。
「Host Groups」タブ。図 1–5 を参照してください。
「Execution Host」タブ。図 1–1 を参照してください。
qconf コマンドは、ホストオブジェクトを管理するためのコマンド行インタフェースを提供します。
実行ホストを構成する前に、『Sun N1 Grid Engine 6.1 インストールガイド』の「実行ホストをインストールする方法」の説明に従って、実行ホストにソフトウェアをインストールしてください。
実行ホストを構成するには、「QMON Main Control」ウィンドウで「Host Configuration」ボタンをクリックしてから、「Execution Host」タブをクリックします。「Execution Host」タブは次の図のようになっています。
実行ホストから管理または発行コマンドが使用できるのは、実行ホストも管理または発行ホストとして宣言されている場合のみです。「QMON を使用した管理ホストの構成」および 「QMON を使用した発行ホストの構成」を参照してください。
「Hosts」リストには、すでに定義されている実行ホストが表示されます。
「Load Scaling」リストには、選択した実行ホストに対して現在構成されている負荷スケーリング係数が表示されます。負荷パラメータの詳細については、「負荷パラメータ」を参照してください。
「Access Attributes」リストにはアクセス権が表示されます。アクセス権の詳細については、第 4 章「ユーザーアクセスの管理」を参照してください。
「Consumables/Fixed Attributes」リストには、ホストと関連付けられている消費可能リソース属性および固定リソース属性の、リソースの可用性が表示されます。リソース属性の詳細については、「コンプレックスリソース属性」を参照してください。
「Reporting Variables」リストには、実行ホストから負荷レポートが受信された場合に、レポートファイルに書き込まれる変数が表示されます。レポート変数の詳細については、「レポート変数の定義」を参照してください。
「Usage Scaling」リストには、さまざまなマシンの個別の使用率メトリック CPU、メモリー、および I/O の現在のスケーリング係数が表示されます。リソースの使用率は、現在実行中の各ジョブに関して、sge_execd によって定期的に報告されます。スケーリング係数は、ジョブを実行中のユーザーまたはプロジェクトに関して、特定のマシンでのリソース使用率の相対的なコストを示しています。たとえばこれらの係数は、400 MHz プロセッサでの 1 秒の CPU 時間のコストを、600 MHz CPU と比較することに使用できます。「Usage Scaling」ウィンドウに表示されないメトリックのスケーリング係数は 1 です。
実行ホストを追加または変更するには、「Add」または「Modify」をクリックします。「Add/Modify Exec Host」ダイアログボックスが表示されます。
「Add/Modify Exec Host」ダイアログボックスでは、実行ホストに関連付けられているすべての属性を変更できます。「Host」フィールドには、既存の実行ホストの名前が表示されます。
新しい実行ホストを追加する場合は、「Host」フィールドに名前を入力します。
スケーリング係数を定義するには、「Scaling」タブをクリックします。
「Load Scaling」テーブルの「Load」カラムには使用可能なすべての負荷パラメータが表示され、「Scale Factor」カラムには、対応するスケーリングの定義が表示されます。「Scale Factor」カラムは編集できます。有効なスケーリング係数は、固定小数点または科学的記数法形式の正の浮動小数点数です。
「Usage Scaling」テーブルの「Usage」カラムには、使用率メトリック CPU、メモリー、および I/O の現在のスケーリング係数が表示されます。「Scale Factor」カラムには、対応するスケーリングの定義が表示されます。「Scale Factor」カラムは編集できます。有効なスケーリング係数は、固定小数点または科学的記数法形式の正の浮動小数点数です。
リソース属性を定義してホストと関連付けるには、「Consumables/Fixed Attributes」タブをクリックします。
ホストと関連付けられているリソース属性は、「Consumables/Fixed Attributes」テーブルに表示されます。
現在のコンプレックス構成に関する詳細な情報が必要な場合、またはその情報を変更したい場合は、「Complex Configuration」ダイアログボックスを使用します 。コンプレックスリソース属性の詳細については、「コンプレックスリソース属性」を参照してください。
「Consumables/Fixed Attributes」テーブルには、値が現在定義されている対象であるすべてのリソース属性が表示されます。「Name」または「Value」カラム名のいずれかをクリックすることで、リストを拡張できます。「Attribute Selection」ダイアログボックスが表示されます。このダイアログボックスには、コンプレックスで定義されているすべてのリソース属性が含まれています。
「Consumables/Fixed Attributes」テーブルに属性を追加するには、属性を選択してから「OK」をクリックします。
属性値を変更するには、「Value」フィールドをダブルクリックしてから値を入力します。
属性を削除するには、属性を選択してから Control + D キーを押すか、マウスボタン 3 をクリックします。「OK」をクリックして、その属性を削除することを確認します。
以前に構成したユーザーアクセスリストに基づいて実行ホストに対するユーザーのアクセス権を定義するには、「User Access」タブをクリックします。
以前に構成したプロジェクトに基づいて実行ホストに対するプロジェクトのアクセス権を定義するには、「Project Access」タブをクリックします。
レポート変数を定義するには、「Reporting Variables」タブをクリックします。
「Available」リストには、実行ホストから負荷レポートが受信された場合にレポートファイルに書き込み可能なすべての変数が表示されます。
「Available」リストからレポート変数を選択してから赤い右矢印をクリックし、選択した変数を「Selected」リストに追加します。
「Selected」リストからレポート変数を削除するには、変数を選択してから赤い左矢印をクリックします。
実行ホストを削除するには、「QMON Main Control」ウィンドウで「Host Configuration」ボタンをクリックしてから、「Execution Host」タブをクリックします。
「Execution Host」ダイアログボックスで、削除するホストを選択してから「Delete」をクリックします。
実行ホストデーモンを停止するには、「QMON Main Control」ウィンドウで「Host Configuration」ボタンをクリックしてから、「Execution Host」タブをクリックします。
「Execution Host」ダイアログボックスで、ホストを選択してから「Shutdown」をクリックします。
コマンド行から実行ホストを構成するには、qconf コマンドで次の引数を使用します。
-ae オプション (実行ホストの追加) を使用すると、実行ホストの構成テンプレートが含まれるエディタが表示されます。このエディタは、デフォルトの vi エディタか、EDITOR 環境変数に対応するエディタのいずれかです。すでに構成されている実行ホストの名前である exec-host を指定すると、この実行ホストの構成がテンプレートとして使用されます。実行ホストの構成は、テンプレートを変更してディスクに保存することで行います。変更すべきテンプレートエントリの詳細については、host_conf(5) のマニュアルページを参照してください。
-de オプション (実行ホストの削除) を使用すると、実行ホストのリストから、指定したホストが削除されます。実行ホスト構成のすべてのエントリは失われます。
-me オプション (実行ホストの変更) を使用すると、指定した実行ホストの構成をテンプレートとして含むエディタが表示されます。このエディタは、デフォルトの vi エディタか、EDITOR 環境変数に対応するエディタのいずれかです。実行ホスト構成の変更は、テンプレートを変更してディスクに保存することで行います。変更すべきテンプレートエントリの詳細については、host_conf(5) のマニュアルページを参照してください。
-Me オプション (実行ホストの変更) を使用すると、実行ホストの構成テンプレートとして filename の内容が使用されます。指定したファイルの構成では、既存の実行ホストを参照する必要があります。この実行ホストの構成は、ファイルの内容により置き換えられます。-Me オプションは手動による対話が不要であるため、qconf オプションは cron ジョブなどでのオフライン実行ホストの構成の変更に便利です。
-se オプション (実行ホストを表示) を使用すると、host_conf で定義されている指定の実行ホストの構成が表示されます。
-sel オプション (実行ホストのリストの表示) を使用すると、実行ホストとして構成されているホストのリストが表示されます。
「QMON Main Control」ウィンドウで「Host Configuration」ボタンをクリックします。「Administration Host」タブとともに「Host Configuration」ダイアログボックスが表示されます。「Administration Host」タブは次の図のようになっています。
「Host Configuration」ボタンをはじめてクリックすると、デフォルトでは「Administration Host」タブが表示されます。
「Administration Host」タブを使用して、管理コマンドが使用可能なホストを構成します。「Host」リストには、すでに管理アクセス権が設定されているホストが表示されます。
新しい管理ホストを追加するには、「Host」フィールドに名前を入力してから、「Add」をクリックするか、Return キーを押します。
リストから管理ホストを削除するには、ホストを選択してから「Delete」をクリックします。
コマンド行から管理ホストを構成するには、qconf コマンドで次の引数を使用します。
ホストが管理ホストとしても宣言されている場合を除き、発行ホストから管理コマンドを実行することはできません。詳細については、「QMON を使用した管理ホストの構成」を参照してください。
発行ホストを構成するには、「QMON Main Control」ウィンドウで「Host Configuration」ボタンをクリックしてから、「Submit Host」タブをクリックします。次の図に「Submit Host」 タブを示します。
「Submit Host」タブを使用して、ジョブの発行、監視、および制御を行うことができるホストを宣言します。「Host」リストには、すでに発行アクセス権が設定されているホストが表示されます。
発行ホストを追加するには、「Host」フィールドに名前を入力してから、「Add」をクリックするか、Return キーを押します。
発行ホストを削除するには、発行ホストを選択してから「Delete」をクリックします。
コマンド行から発行ホストを構成するには、qconf コマンドで次の引数を使用します。
ホストグループを使用すると、1 つの名前を使用して複数のホストを参照できます。同じようなホストは、ホストグループにグループ化してまとめることができます。ホストグループは、複数の個別ホストだけでなく、そのほかのホストグループを含むこともできます。別のホストグループのメンバーであるホストグループは、そのホストグループのサブグループになります。
たとえば、次のメンバーを含む @bigMachines というホストグループを定義できます。
@solaris64 |
@solaris32 |
fangorn |
balrog |
最初の @ 記号は、その名前がホストグループであることを示します。ホストグループ @bigMachines には、2 つのサブグループ @solaris64 および @solaris32 のメンバーであるすべてのホストが含まれます。また、@bigMachines には 、2 つの個別ホスト fangorn および balrog も含まれます。
「QMON Main Control」ウィンドウで「Host Configuration」ボタンをクリックします。「Host Configuration」ダイアログボックスが表示されます。
「Host Groups」タブをクリックします。「Host Groups」タブは次の図のようになっています。
ホストグループを構成するには、「Host Groups」タブを使用します。「Hostgroup」リストには、現在構成されているホストグループが表示されます。「Members」リストには、選択したホストグループのメンバーであるすべてのホストが表示されます。
ホストグループを追加するには「Add」をクリックし、ホストグループを変更するには「Modify」をクリックします。「Add/Modify Host Group」ダイアログボックスが表示されます。
新しいホストグループを追加する場合、「Hostgroup」フィールドにホストグループ名を入力します。ホストグループ名は「@」記号で始まる必要があります。
既存のホストグループを変更する場合は、「Hostgroup」フィールドにホストグループ名が入力されています。
現在構成中のホストグループにホストを追加するには、「Host」フィールドにホスト名を入力してから赤い矢印をクリックし、「Members」リストに名前を追加します。ホストグループをサブグループとして追加するには、「Defined Host Groups」リストからホストグループ名を選択してから赤い矢印をクリックし、その名前を「Members」リストに追加します。
「Members」リストからホストまたはホストグループを削除するには、ホストまたはホストグループを選択してから、ゴミ箱のアイコンをクリックします。
変更を保存するには「Ok」をクリックし、ダイアログボックスを閉じます。変更を保存せずにダイアログボックスを閉じるには、「Cancel」をクリックします。
ホストグループを削除するには、「Hostgroup」リストからホストグループを選択してから「Delete」をクリックします。
コマンド行からホストグループを構成するには、qconf コマンドで次の引数を使用します。
qconf -ahgrp [host-group-name]
-ahgrp オプション (ホストグループの追加) を使用すると、ホストグループのリストに新しいホストグループが追加されます。構成の書式の詳細な説明については、hostgroup(5) のマニュアルページを参照してください。
-Ahgrp オプション (ファイルからのホストグループの追加) を使用すると、filename で定義されているホストグループ構成を含むエディタが表示されます。このエディタは、デフォルトの vi エディタか、EDITOR 環境変数に対応するエディタのいずれかです。ホストグループを構成するには、構成を変更してディスクに保存します。
-dhgrp オプション (ホストグループの削除) を使用すると、ホストグループのリストから、指定したホストグループが削除されます。ホストグループ構成のすべてのエントリは失われます。
-mhgrp オプション (ホストグループの変更) を使用すると、テンプレートとして、指定したホストグループの構成を含むエディタが表示されます。このエディタは、デフォルトの vi エディタか、EDITOR 環境変数に対応するエディタのいずれかです。ホストグループ構成の変更は、テンプレートを変更してディスクに保存することで行います。
-Mhgrp オプション (ファイルからのホストグループの変更) を使用すると、filename の内容をホストグループの構成テンプレートとして使用します。指定したファイルの構成は、既存のホストグループを参照する必要があります。このホストグループの構成は、ファイルの内容により置き換えられます。
-shgrp オプション (ホストグループの表示) を使用すると、指定したホストグループの構成が表示されます。
qconf -shgrp_tree host-group-name
-shgrp_tree オプション (ツリーとしてホストグループを表示) を使用すると、指定したホストグループとそのサブホストグループの構成がツリーとして表示されます。
qconf -shgrp_resolved host-group-name
-shgrp_resolved オプション (解釈処理されたホストリストとともにホストグループを表示) を使用すると、解釈処理されたホストリストとともに、指定したホストグループの構成が表示されます。
-shgrpl オプション (ホストグループリストの表示) を使用すると、すべてのホストグループのリストが表示されます。
実行ホストの状態の概要をすばやく取得するには、次のように qhost コマンドを使用します。
% qhost |
このコマンドにより、次の例のような出力が作成されます。
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS ------------------------------------------------------------------------------- global - - - - - - - arwen aix43 1 - - - - - baumbart irix65 2 0.00 1.1G 91.5M 128.0M 0.0 boromir hp11 1 - 128.0M - 256.0M - carc lx24-amd64 2 0.00 3.8G 989.8M 1.0G 0.0 denethor aix51 1 4.54G - - - - durin lx24-x86 1 0.37 123.1M 46.5M 213.6M 26.6M eomer sol-sparc64 1 0.13 256.0M 248.0M 513.0M 93.0M lolek tru64 1 0.02 1.0G 790.0M 1.0G 8.0K mungo lx22-alpha 1 1.00 248.9M 78.8M 129.8M 2.5M nori sol-x86 2 0.38 1023.0M 372.0M 512.0M 37.0M pippin darwin 1 0.00 640.0M 264.0M 0.0 0.0 smeagol hp11 1 0.35 512.0M 425.0M 1.0G 95.0M |
出力形式とそのほかのオプションの詳細については、qhost(1) のマニュアルページを参照してください。
無効、予約済みなどにより使用できないホスト名のリストを次に示します。
global |
template |
all |
default |
unknown |
none |
コマンド行から Grid Engine システムデーモンを終了するには、次のいずれかのコマンドを使用します。
% qconf -ke[j] {hostname,... | all} % qconf -ks % qconf -km |
これらのコマンドを使用するには、管理者特権またはオペレータ特権が必要です。管理者特権およびオペレータ特権の詳細については、第 4 章「ユーザーアクセスの管理」を参照してください。
qconf –ke コマンドは、実行デーモンを停止します。ただし、アクティブなジョブは取り消しません。システム上で sge_execd が実行中でない間に終了するジョブは、sge_execd が再起動するまで、sge_qmaster に報告されません。ただし、ジョブのレポートは失われません。
qconf -kej コマンドは、現在アクティブなすべてのジョブを終了し、すべての実行デーモンをダウンさせます。
クラスタ内のすべての実行ホストを停止するには、停止させる実行ホストから成る、コンマで区切られたリストを使用するか、all を指定します。
qconf -ks コマンドは、スケジューラ sge_schedd を停止します。
qconf -km コマンドは、強制的に sge_qmaster プロセスを終了させます。
停止手続きを実行する前にすべてのアクティブなジョブが終了するのを待機したい場合は、すでに説明した qconf シーケンスを実行する前に、各クラスタキュー、キューインスタンス、またはキュードメインに対して qmod -dq コマンドを使用します。 クラスタキュー、キューインスタンス、およびキュードメインの詳細については、「キューの構成」を参照してください。
% qmod -dq {cluster-queue | queue-instance | queue-domain} |
qmod -dq コマンドは、新しいジョブが、使用不可のキューインスタンスに対してスケジュールされることを防ぎます。デーモンを終了する前には、キューインスタンス内で実行中のジョブがなくなるまで待機する必要があります。
Grid Engine システムデーモンを再起動するマシンに、ルートとしてログインします。
次のコマンドを入力して、起動スクリプトを実行します。
% sge-root/cell/common/sgemaster % sge-root/cell/common/sgeexecd |
これらのスクリプトは、このホストで通常は実行中であるデーモンを探し、対応するデーモンを起動します。
基本クラスタ構成は、サイトの依存関係を反映し、Grid Engine システムの動作に影響を与えるよう構成された情報のセットです。サイトの依存関係には、mail や xterm などのプログラム用の有効なパスが含まれます。グローバル構成は、マスターホストだけでなく、Grid Engine システムプール内のあらゆるホストに用意されています。また、各ホストに対してローカルな構成を使用して、グローバル構成の特定のエントリを無効にするよう、システムを構成できます。
クラスタ管理者は、インストール後ただちに、グローバル構成とローカルホスト構成をサイトのニーズに適合させる必要があります。そのあと、構成を最新の状態に保つ必要があります。
sge_conf(5) のマニュアルページには、構成のエントリの詳細な説明があります。
「QMON Main Control」ウィンドウで「Cluster Configuration」ボタンをクリックします。「Cluster Configuration」ダイアログボックスが表示されます。
「Host」リストで、ホストの名前を選択します。「Configuration」に、選択したホストの現在の構成が表示されます。
「QMON Main Control」ウィンドウで「Cluster Configuration」ボタンをクリックします。
「Host」リストで「global」を選択します。
sge_conf(5) のマニュアルページで説明されている書式で、構成が表示されます。
「Cluster Configuration」ダイアログボックス (図 1–6) で、ホスト名または名前「global」を選択してから「Add」または「Modify」をクリックします。「Cluster Settings」ダイアログボックスが表示されます。
「Cluster Settings」ダイアログボックスでは、グローバル構成またはローカルホスト構成のすべてのパラメータを変更できます。
ダイアログボックスのすべてのフィールドにアクセスできるのは、グローバル構成を変更している場合のみです。ローカルホストを変更する場合、その構成はダイアログボックスに反映されます。ユーザーは、ローカルホストの変更に適用可能なパラメータのみ変更できます。
新しいローカルホスト構成を追加する場合、ダイアログボックスのフィールドは空になっています。
「Advanced Settings」タブでは、ユーザーが構成を変更しているか、新しい変更を追加しているかに応じて、対応する動作が表示されます。「Advanced Settings」タブからは、あまり使用しないクラスタ構成パラメータにアクセスできます。
変更を完了したら、「OK」をクリックして変更を保存し、ダイアログボックスを閉じます。変更を保存せずにダイアログボックスを閉じるには、「Cancel」をクリックします。
すべてのクラスタ構成パラメータの完全な説明については、sge_conf(5) のマニュアルページを参照してください。
「QMON Main Control」ウィンドウで「Cluster Configuration」ボタンをクリックします。
「Host」リストで、構成を削除するホストの名前を選択してから「Delete」をクリックします。
現在のクラスタ構成を表示するには qconf -sconf コマンドを使用します。詳細な説明は、qconf(1) のマニュアルページを参照してください。
次のいずれかのコマンドを入力します。
% qconf -sconf % qconf -sconf global % qconf -sconf host |
qconf –sconf コマンドと qconf –sconf global コマンドは機能が同等です。これらのコマンドはグローバル構成を表示します。
qconf -sconf host コマンドは、指定したローカルホストの構成を表示します。
qconf コマンドを使用してクラスタ構成を変更するには、管理者である必要があります。
次のいずれかのコマンドを入力します。
% qconf -mconf global % qconf -mconf host |
qconf -mconf global コマンドは、グローバル構成を変更します。
qconf -mconf host コマンドは、指定した実行ホストまたはマスターホストのローカル構成を変更します。
ここで説明されている qconf コマンドは、多くの使用可能な qconf コマンドの例にすぎません。そのほかの例については、qconf(1) マニュアルページを参照してください。