「キューとキュープロパティーの表示」の説明どおり、キューの所有者はキューの一時停止や再開および無効化や有効化を行う権限を持っています。所有者は、重要な作業に特定のマシンが必要で、これらのマシンが背景で実行されているジョブの影響を強く受ける場合に、キューを一時停止したり無効にしたりする場合があります。
キューは 2 つの方法で制御できます。
「QMON Queue Control」ダイアログボックスの使用
qmod コマンドの使用
「QMON Main Control」ウィンドウで「Queue Control」ボタンをクリックします。「Cluster Queues」ダイアログボックスが表示されます。
「Cluster Queue」タブには、クラスタに対して定義したすべてのクラスタキューの簡単な概要が示されます。また「Cluster Queue」タブでは、クラスタキューを一時停止および再開させたり、クラスタキューを有効または無効にしたり、クラスタキューを構成したりすることもできます。
「Cluster Queue」ダイアログボックスに表示される情報は、定期的に更新されます。更新を強制的に行うには、「Refresh」をクリックしてください。クラスタキュー名をクリックして、キューを選択します。
「Delete」、「Suspend」、「Resume」、「Disable」、または「Enable」をクリックして、対応する操作を選択したクラスタキューに対して実行します。一時停止/再開および無効化/有効化操作では、対応する sge_execd へ通知を行う必要があります。通知できない場合は、「Force」をクリックして、sge_qmaster 内部ステータスを強制的に変更できます。たとえば、ホストが休止している場合は通知を行えません。
一時停止/再開および無効化/有効化操作は、クラスタキュー所有者権限、Grid Engine 管理者権限またはオペレータ権限が必要です。詳細は、「管理者、オペレータ、および所有者」を参照してください。
一時停止したクラスタキューにさらにジョブを追加することはできません。「QMON を使用したジョブの監視と制御」の説明どおり、一時停止したキュー内ですでに実行されていたジョブも一時停止されます。キューが再開されるとすぐ、クラスタキューとジョブの一時停止も解除されます。
一時停止したクラスタキュー内のジョブが明示的に一時停止されている場合は、キューが再開されても、そのジョブは再開されません。明示的に一時停止したジョブは、明示的に再開する必要があります。
無効にされたクラスタキューは閉じられています。ただし、これらのキュー内の実行中のジョブは続行できます。クラスタキューは通常、キューを「排出」するために無効にされます。クラスタキューを有効にしたあとは、ジョブを再度実行できます。現在実行中のジョブに対する処理は行われません。
エラー状態は、キューリスト内に赤いフォントを使用して表示されます。キューからエラー状態を削除するには、「Clear Error」をクリックします。
選択されたクラスタキュー内の現在実行中のすべてのジョブを再スケジューリングするには、「Reschedule」をクリックします。
クラスタキューとキューインスタンスを構成するには、「Cluster Queue」ダイアログボックスの「Add」または「Modify」をクリックします。詳細は、『Sun N1 Grid Engine 6.1 管理ガイド』の「QMON を使用したキューの構成」を参照してください。
ダイアログボックスを閉じるには、「Done」をクリックしてください。
クラスタキューテーブルの各行は、1 つのクラスタキューを表します。各クラスタキューについて、テーブルは次の情報を一覧表示します。
Cluster Queue – クラスタキューの名前。
Load – すべてのクラスタキューホストの標準負荷平均の平均。負荷値を持つホストだけが考慮されます。
Used – 現在使用済みのジョブスロットの数。
Avail – 現在使用可能なジョブスロットの数。
Total – ジョブスロットの合計数。
aoACD – 次の状態のうち 1 つ以上の状態を持つキューインスタンスの数。
a – 負荷しきい値アラーム
o – 親のない状態
A – 一時停止しきい値アラーム
C – カレンダにより一時停止
D – カレンダにより無効化
cdsuE – 次の状態のうち 1 つ以上の状態を持つキューインスタンスの数。
c – あいまいな構成
d – 無効化
s – 一時停止
u – 不明
E – エラー
s – 一時停止状態のキューインスタンスの数。
A – 1 つ以上の一時停止しきい値を現在超過しているキューインスタンスの数。ジョブはこれ以上追加できません。
S – 別のキューとの従属関係によって一時停止されているキューインスタンスの数。
C – Grid Engine システムのカレンダによって自動的に一時停止されているキューインスタンスの数。
u – 状態が不明なキューインスタンスの数。
a – 1 つ以上の負荷しきい値を現在超過しているキューインスタンスの数。
d – 無効状態のキューインスタンスの数。
D – Grid Engine システムのカレンダによって自動的に無効になったキューインスタンスの数。
c – 構成があいまいなキューインスタンスの数。
o – 親がない状態のキューインスタンスの数。
E – エラー状態のキューインスタンスの数。
クラスタキューおよびそれらの状態については、qstat(1) のマニュアルページを参照してください。
「Queue Instances」タブでは、選択したクラスタキューに関連するすべてのキューインスタンスの簡単な概要が示されます。また「Queue Instance」タブでは、キューインスタンスを一時停止、再開、無効化、および有効化することもできます。
クラスタキュー名をクリックして、キューインスタンスを選択します。
「Suspend」、「Resume」、「Disable」、または「Enable」をクリックして、対応する操作を選択したキューインスタンスに対して実行します。一時停止/再開および無効化/有効化操作では、対応する sge_execd へ通知を行う必要があります。たとえばホストに到達不可能で、通知ができない場合は、「Force」をクリックして sge_qmaster 内部ステータスを強制的に変更できます。
一時停止/再開および無効化/有効化操作は、キュー所有者権限、Grid Engine 管理者権限またはオペレータ権限が必要です。「管理者、オペレータ、および所有者」を参照してください。
一時停止したキューインスタンスにさらにジョブを追加することはできません。「QMON を使用したジョブの監視と制御」の説明どおり、一時停止したキューインスタンス内ですでに実行中となっていたジョブも一時停止されます。キューインスタンスが再開されるとすぐ、キューインスタンスとジョブの一時停止も解除されます。
一時停止したキューインスタンス内のジョブが明示的に一時停止されている場合は、キューインスタンスが再開されても、そのジョブは再開されません。明示的に一時停止したジョブは、明示的に再開する必要があります。
無効になったキューインスタンスは閉じられます。ただし、キューインスタンス内の実行中のジョブは続行できます。キューインスタンスは通常、キューインスタンスを「排出する」ために無効にされます。キューインスタンスを有効にしたあとは、ジョブを再実行できます。現在実行中のジョブに対する処理は行われません。
キューインスタンステーブルの各行は、1 つのキューインスタンスを表します。各キューインスタンスについて、テーブルは次の情報を一覧表示します。
Queue – キューインスタンスの名前
qtype – キューインスタンスのタイプ。B (バッチ)、I (対話型)、または P (並行処理) のいずれかです。
load_avg – キューインスタンスホストの負荷平均
arch – キューインスタンスホストのアーキテクチャー
states – キューインスタンスの状態
キュー状態のリストについては、「クラスタキューのステータス」を参照してください。キューインスタンスおよびそれらの状態については、qstat(1) のマニュアルページを参照してください。
キューインスタンスの現在の属性情報、負荷情報、およびリソース消費情報を取り出すには、キューインスタンスを選択して「Load」をクリックします。この情報には、キューインスタンスのホストとなっているマシンの情報も暗黙に含まれています。次の図のウィンドウが表示されます。
「Attribute」列では、ホストまたはグローバルクラスタから継承される属性を含む、キューインスタンスに付けられるすべての属性が一覧表示されます。
「Slot-Limits/Fixed Attributes」列では、キューインスタンススロット制限単位または固定リソース属性として定義される属性の値が表示されます。
「Load(scaled)/Consumable」列では、報告された負荷パラメータや拡張された負荷パラメータに関する情報が表示されます。この列ではまた、消費可能なリソース機能を基準にした使用可能なリソース機能に関する情報も表示されます。『Sun N1 Grid Engine 6.1 管理ガイド』の「負荷パラメータ」 と『Sun N1 Grid Engine 6.1 管理ガイド』の「消費可能リソース」を参照してください。
負荷属性が消費可能なリソースとして構成されている場合、負荷レポートと消費可能な容量は、互いに無効にしあう恐れがあります。ジョブ割り振りアルゴリズムで使用される両方の最小値が表示されます。
表示されている負荷および消費可能な値では現在、「実行ホスト」の説明どおり負荷調整の修正は考慮されていません。
「Customize」ボタンを使用すると、表示するクラスタキューとキューインスタンスをフィルタリングできます。
次の 図では、現在の構成があいまいなキューインスタンスだけがフィルタリングで選択されています。
「Queue Customize」ダイアログボックスの「Save」をクリックして、ホームディレクトリの .qmon_preferences ファイルに設定を保存し、あとで QMON を呼び出したときの標準的な再起動で使用できるようにします。
qmod コマンドを使用して、キューを一時停止および再開することができます。qmod を使用して、キューを無効または有効にすることもできます。
% qmod -s q-name % qmod -us -f q-name1, q-name2 % qmod -d q-name % qmod -e q-name1, q-name2, q-name3 |
qmod –s は、キューを一時停止します。qmod –us –f は、2 つのキューを再開 (一時停止を解除) します。qmod –d は、キューを無効にします。qmod –e は、3 つのキューを有効にします。
-f オプションは、たとえばネットワーク問題などが原因で対応する sge_execd を実行できない場合に、ステータスの変更を sge_qmaster に強制的に登録します。
キューの一時停止と再開および キューの無効化と有効化では、所有者権限、管理者権限またはオペレータ権限が必要です。「管理者、オペレータ、および所有者」を参照してください。
qmod コマンドは、crontab または at ジョブで使用できます。