Sun N1 System Manager 1.3 Grid Engine プロビジョニングおよび監視マニュアル

第 5 章 N1 Grid Engine のジョブの操作

グリッドで実行中のアプリケーションはジョブとみなされます。このあとの各節では、ジョブの状態、リソースの使用状況、およびスケジューリングポリシーを確認する方法について説明します。この情報は、あるジョブに関するデータの「概要」、「使用状況」、「割り当て」といった異なる表示形式で表示されます。各ジョブの複合タスクなど、各ジョブに関する詳細情報も表示できます。

ジョブの状態の確認

「ジョブの概要」タブで、ジョブの状態を一覧で確認し、パフォーマンスに影響する可能性がある要因を確認することができます。ジョブ ID をクリックすると、詳細情報を示す「ジョブの詳細」ページが表示され、きわめて詳細な情報を参照できます。

図 5–1 「ジョブの概要」タブ

このページは、すべてのグリッドのジョブの概要を示します。

「ジョブの概要」タブには、次のフィールドがあります。

「ジョブ」の「ユーザー」、「プロジェクト」、および「部署」は、権利付与ポリシー (チケットポリシー) で使用し、ジョブの振り分け優先度に反映させることができます。たとえば、1 つの部署のジョブは、別の部署のジョブよりも、振り分け優先度が常に高くなるようにできます。

振り分け優先度は、次の 3 つの上位レベルのスケジューリングポリシーから計算されます。「Entitlement」、「緊急度」、および「Custom」(「POSIX」) 。N1GE のスケジューリングポリシーおよび振り分け優先度に関する詳細は、sge_priority のマニュアルページ、および『Scheduler Policies for Job Prioritization in the Sun N1 Grid Engine 6 System』(www.sun.com/blueprints/1005/819-4325.html) を参照してください。

グリッドの資源の確認

「ジョブ」の「使用状況」タブには、ジョブによるグリッドの計算資源の使用状況に関連した情報や、ジョブの振り分け優先度で考慮するそのほかの要素に関連した情報が表示されます。「概要」表示とは異なり、実行中のジョブと一時停止しているジョブだけが表示されます。「使用状況」表示には、次の列項目があります。

図 5–2 「ジョブ」の「使用状況」タブ

このタブには、ジョブの使用状況が表示されます。


注 –

CPU 使用量またはメモリー使用量の値が空白の場合は、そのジョブの使用状況の情報が報告されていないことを示します。使用状況が報告されたかどうかあとで再び確認してください。


各列の意味については、QMON のマニュアルページを参照してください。

標準化された優先度

標準化されたチケット、緊急度、および POSIX の各優先度は、N1GE のスケジューラで、ジョブの振り分けの優先順位の決定に使用される 3 つの上位レベルのポリシーです。それぞれで、総合的な優先順位に寄与する要素が計算されます。これら 3 つのポリシー寄与要素を有意義にするために、これらを 0 と 1 の間の数値にそれぞれ標準化します。

スケジューリングポリシーの確認

「ジョブ」の「割り当て」タブには、ジョブが享受する振り分け優先度に寄与し、スケジューリングポリシーを構成している要素に関する情報が表示されます。この表示を使用して、優先度のポリシーが実際に効果があるかどうかを確認し、キュー内のジョブの全体的な優先順位を決定しているコンポーネントのトラブルシューティングを行うことができます。

ジョブの優先順位は次の 3 つのポリシーに基づいて決定されます。

計算式の最初の部分であるチケットは、設定されている権利指向型のスケジューリングポリシーを実装するためにスケジューラによって行われる計算を示します。チケットから、スケジューラ内部の論理的な処理がわかります。この機能によって、自分が望んでいるポリシーがどんなものであっても、実際にそれに従っていることを容易に確認できます。また、問題や予期しなかった動作の診断にも使用できます。

上位レベルからジョブに割り当てられたチケット数は、ジョブの権利に正比例します。数が多いほど権利が多くなります。権利が多いジョブは通常は優先度が高いですが、総合的な優先順位はほかの 2 つの要素の影響も受けます。ただし、緊急度ポリシーとカスタムポリシーを意図的に無効にした場合は、権利付与 (チケット) ポリシーだけが有効になります。

優先順位の計算式の 2 つめの部分はカスタム (POSIX) 優先度です。管理者はこの値を使用して特定のジョブの優先度を自由に上げることができます。

優先順位の公式の 3 つめの部分である緊急度は、ジョブの所有者ではなく、ジョブの個々の特性だけから計算されます。緊急度の値は、次の 3 つの情報の合計から得られます。期限、待機時間、およびリソース要件です。

N1GE のスケジューリングポリシーおよび振り分け優先度の詳細は、sge_priority のマニュアルページと『Scheduler Policies for Job Prioritization in the Sun N1 Grid Engine 6 System』(www.sun.com/blueprints/1005/819-4325.html) を参照してください。

図 5–3 「ジョブ」の「割り当て」タブ

このタブには、ジョブに割り当てられているリソースが表示されます。

ジョブの「割り当て」ページには、次の情報が表示されます。


注 –

チケット、POSIX、および緊急度の標準化された値は「ジョブ」の「使用状況」タブで確認できます。


各列の意味については、qmon のマニュアルページを参照してください。

ジョブの詳細情報の表示

特定のジョブ表示のタブでジョブ ID を選択すると、そのジョブに関する詳細情報を表示できます。表示される「ジョブの詳細」ページでは、情報が次の 3 つの表で表示されます。「ステータスの概要」、「使用状況の詳細」、および「スケジュールの詳細」。

「ステータスの概要」表には、ジョブ環境、リソース要求、送信オプションなどに関連するさまざまなプロパティーの詳細情報が表示されます。

図 5–4 「ジョブの詳細」 ページ

このページには、特定のジョブの詳細情報が表示されます。

「使用状況の詳細」表には、そのジョブの現在のリソース使用状況が表示されます。たとえばジョブが開始されたばかりであるか、ジョブが保留中のため、この情報がない場合は、この表は空になります。複数のタスクがあるジョブについては、各タスクの使用状況が別個の行に表示されます。

「スケジュールの詳細」表には、そのジョブのスケジュール情報が表示されます。

このページのほとんどのフィールドは参照すればわかる内容になっています。詳細は、qstat のマニュアルページを参照してください。

タスクの詳細情報の表示

「Task Details」ページでは、選択したタスクに関する詳細情報が 4 つの表に表示されます。3 つのジョブ表示のタブに表示される各タスクに関する情報がこの 1 ページに表示されます。このページ内の情報はすべて、問題が発生しているジョブの診断に役立ちます。

図 5–5 「Task Details」ページ

このページには、特定のジョブのタスクの詳細情報が表示されます。

「Task Details」ページの各表の情報は、ジョブのスプールディレクトリ内の異なるファイルに対応しています。ジョブのスプールディレクトリ内の情報については、『N1 Grid Engine 6 管理ガイド』を参照してください。次の表があります。

「タスクの概要」表

「タスクの概要」表には、ジョブのタスクに関する基本的な情報が表示されます。