Sun N1 Grid Engine 6.1 管理ガイド

第 9 章 チューニング、エラーメッセージ、および障害追跡

この章では、Grid Engine システム環境をチューニングするいくつかの方法を説明します。また、エラーメッセージの通知方法と、よくあるさまざまな問題の解決方法に関するヒントを説明します。

この章で説明する内容は、次のとおりです。

グリッド環境のチューニング

Grid Engine システムは、完全な機能を有する、汎用分散リソース管理ツールです。システムのスケジューラコンポーネントは、幅広いさまざまな計算ファームのシナリオをサポートしています。計算環境から最大限のパフォーマンスを引き出すには、使用可能になっている機能を調べる必要があります。続いて、負荷管理問題を解決するためには実際にどの機能が必要であるかを決定する必要があります。これらの機能の一部を使用不可にすることで、クラスタのスループットのパフォーマンスが向上する可能性があります。

スケジューラ監視

スケジューラ監視は、一部のジョブが振り分けられなかった理由を調べる手助けになります。ただし、すべてのジョブに対して常にこの情報を提供すると、リソースを消費する可能性があります。通常は、この情報はそれほど必要ありません。

スケジューラ監視を使用不可にするには、スケジューラ構成で schedd_job_info を false に設定します。QMON を使用したスケジューラ構成の変更」、および sched_conf (5) のマニュアルページを参照してください。

完了ジョブ

配列ジョブの場合、qmaster の完了ジョブのリストは非常に大きなサイズになることがあります。qstat は完了ジョブのリストの取得も行うため、完了ジョブのリストを無効化すると、メモリーが節約され、qstat プロセスが高速化します。

完了ジョブのリスト機能を無効化するには、クラスタ構成で finished_jobs をゼロに設定します。QMON を使用したグローバルおよびホスト構成の追加と変更」、および sge_conf(5) のマニュアルページを参照してください。

ジョブの検査

ジョブ発行時に検査を強制することは、振り分け不可能なジョブが永続的に保留状態のままになることを防ぐための、重要な手続きになります。ただし、ジョブの検査は時間を消費するタスクになる可能性もあります。さまざまな実行ノードと消費可能リソースを抱え、すべてのユーザーが独自のジョブプロファイル を有する、異機種システム混在環境においては特に、ジョブの検査が時間を消費する可能性があります。異なるジョブがごく少数しかない同機種システム環境では、一般的なジョブの検査は省略できます。

ジョブの検査を使用不可にするには、クラスタ全体のデフォルト要求で、qsub のオプション –w n を追加します。『Sun N1 Grid Engine 6.1 ユーザーズガイド』「QMON による高度なジョブの発行」、および sge_request(5) のマニュアルページを参照してください。

負荷しきい値および一時停止しきい値

慎重にマシンへの過剰な予約を行い、また過剰なシステム負荷を防ぐ必要がある場合に、負荷しきい値は必要です。一時停止しきい値も、システムに過剰な負荷をかけることを防止するために使用します。

ノードの過剰な負荷を防止する必要があるもう 1 つのケースは、実行ノードが対話型の負荷に対してオープンなままである場合です。対話型の負荷は、Grid Engine システムの制御下にありません。

計算ファームは、汎用度が低い場合があります。たとえば、計算ノードの各 CPU が唯一のキュースロットによってのみ表され、これらのノードでは対話型負荷が想定されていない場合があります。このような場合、load_thresholds を省略できます。

両方のしきい値を使用不可にするには、load_thresholdsnone に設定し、suspend_thresholdsnone に設定します。「負荷および一時停止しきい値の構成」、および queue_conf(5) のマニュアルページを参照してください。

負荷調整

ジョブが振り分けられたあと、測定された負荷を大きくするために、負荷調整を使用します。この仕組みにより、ジョブの振り分けと対応する負荷の影響との間の遅延が原因である、マシンの過剰な予約が防止されます。必要でない場合は、負荷調整をオフにできます。負荷調整は、ホストと負荷しきい値のソートを伴って、スケジューラに追加の作業を課すことになります。

負荷調整を使用不可にするには、スケジューラ構成で job_load_adjustmentsnone に設定し、load_adjustment_decay_time をゼロに設定します。QMON を使用したスケジューラ構成の変更」、および sched_conf (5) のマニュアルページを参照してください。

直接スケジューリング

Grid Engine システムのデフォルトでは、固定スケジュール間隔でスケジューリング実行を開始します。固定間隔の優れた特徴としては、qmaster およびスケジューラの CPU 時間の消費を制限する点があります。好ましくない特徴としては、固定間隔はスケジューラを制限し、人為的にスループットを制限する点があります。多くの計算ファームには、qmaster とスケジューラ専用のマシンがあり、このような設定ではスケジューラを制限する理由がありません。sched_conf(5) の schedule_interval を参照してください。

スケジューラ構成の flush_submit_sec および flush_finish_sec パラメータを使用することで、直接スケジューリングを構成できます。QMON を使用したスケジューラ構成の変更」、および sched_conf (5) のマニュアルページを参照してください。

直接スケジューリングがアクティブである場合、計算ファームのスループットは、sge_qmaster とスケジューラをホスティングしているマシンの能力によってのみ制限されます。

緊急度ポリシーおよびリソース予約

緊急度ポリシーを使用すると、リソースに依存するジョブ優先順位方式をカスタマイズできます。このようなジョブ優先順位方式には、次の要素が含まれます。

リソース予約を使用している場合、両方の目標の実現は特に重要です。

DTrace によるパフォーマンスチューニング

数千台のアクティブなコンポーネントにまたがる可能性がある分散システムの障害追跡は、もっとも経験の豊富なシステム管理者にとってさえ難題であることがあります。実際、Grid Engine 管理者には、本番の環境のパフォーマンス低下につながる問題を特定し、再現するための明確な手段はありません。Solaris 10 環境では、DTrace ユーティリティーを使用し、Grid Engine マスターコンポーネントのオンサイトパフォーマンスを監視できます。DTrace は、Solaris 10 環境での動的イベントをトレースするための包括的なフレームワークです。DTrace に関する全般的な情報については、http://www.sun.com/bigadmin/content/dtrace/ および dtrace のマニュアルページを参照してください。N1 Grid Engine 6.1 ソフトウェア での DTrace の使用の詳細は、$SGE_ROOT/dtrace/README_dtrace.txt ファイルを参照してください。

コマンド行からの DTrace によるパフォーマンスチューニング

Solaris 10 DTrace を使用できる場合は、$SGE_ROOT/dtrace/monitor.sh スクリプトを使用して、Grid Engine マスターを監視し、パフォーマンス上の問題点を探すことができます。monitor.sh スクリプトは次のオプションをサポートしています。

-interval value

統計間隔を指定します。デフォルトは 15sec です。間隔が広いほど統計精度は低く、狭いほど高くなります。特に有用な値の範囲は 1sec から 24hours です。

-cell cell-name

$SGE_CELL が「デフォルト」でない場合は必須です。

-spooling

統計に加えて qmaster スプールのプローブ情報も表示します。このオプションによって、推定されるスプールの問題点に関するより具体的な情報を表示できます。

-requests

外部からの qmaster 要求のプローブを表示します。このオプションによって、qmaster の処理が滞る原因になっているインスタンスを評価するためのより具体的な情報を表示できます。


注 –

重大なメッセージやエラー、警告メッセージがあると、 monitor.sh 出力に表示されます。


Grid Engine マスターのパフォーマンス上の問題の分析

効果的なパフォーマンスチューニングを実現するには、分散システムのパフォーマンス上の問題点を理解する必要があります。$SGE_ROOT/dtrace/monitor.sh スクリプトは、稼働中の Grid Engine マスターのスループット関連データを測定し、そのデータをいくつかのインデックスにまとめて 1 間隔当たり 1 行の形式で出力します。この表示の情報は 4 つの主要カテゴリに分かれます。

詳細は、下記の例を参照してください。

問題分析のための DTrace 出力例

ここでは、Grid Engine マスターの問題点を検出可能な事例の監視出力例を示します。この例には、次の情報が含まれます。


注 –

実際のシステムに表示されるコラムは、下記の例と異なることがあります。


この例では、17:40:32 から 17:41:05 の間にパフォーマンスが低下しています。

CPU     ID      FUNCTION:NAME
  0      1             :BEGIN                 Time |   #wrt  wrt/ms |#rep #gdi #ack|   #dsp  dsp/ms    #sad|   #snd    #rcv|  #in++   #in--  #out++  #out--|  #lck0  #ulck0   #lck1  #ulck1
  0  36909         :tick-3sec 2006 Nov 24 17:39:23 |      43       3|   0    8    4|      3     691     121|      4       4|     11      11      15      15|     68      68     289     288
  0  36909         :tick-3sec 2006 Nov 24 17:39:26 |      83      16|   0   10    3|      3     699     122|      3       3|     14      13      17      17|     90      90     681     681
  0  36909         :tick-3sec 2006 Nov 24 17:39:29 |     117      24|   0    9    4|      4    1092     198|      4       4|     13      13      17      17|     71      71     591     591
  0  36909         :tick-3sec 2006 Nov 24 17:39:32 |      19       4|   0    9    3|      3     591     147|      3       3|     12      12      15      15|     44      43     249     249
  0  36909         :tick-3sec 2006 Nov 24 17:39:35 |     144      28|   0    9    4|      4    1012     173|      4       4|     13      13      17      17|     61      62    1246    1247
  0  36909         :tick-3sec 2006 Nov 24 17:39:38 |      46       5|   0    8    3|      3     705     122|      3       3|     11      11      14      14|     67      67     293     293
  0  36909         :tick-3sec 2006 Nov 24 17:39:41 |     154      31|   0    9    3|      4     894     198|      3       3|     13      13      16      16|     73      72     968     969
  0  36909         :tick-3sec 2006 Nov 24 17:39:44 |      46       5|   0   10    4|      4     971     162|      4       4|     13      13      17      17|     71      72     304     304
  0  36909         :tick-3sec 2006 Nov 24 17:39:47 |     154      29|   0    8    3|      3     739     158|      3       3|     11      11      14      14|     67      67     990     990
  0  36909         :tick-3sec 2006 Nov 24 17:39:50 |      46       5|   0   10    4|      4     815     162|      4       4|     14      14      18      18|     76      76     692     693
  0  36909         :tick-3sec 2006 Nov 24 17:39:53 |      74      15|   0    8    3|      3     746     136|      3       3|     12      12      15      15|     54      53     571     571
  0  36909         :tick-3sec 2006 Nov 24 17:39:56 |     116      20|   0   11    4|      4     992     184|      4       4|     14      14      18      18|     80      81     669     669
  0  36909         :tick-3sec 2006 Nov 24 17:39:59 |      87      18|   0   11    4|      4     851     176|      5       4|     15      15      21      21|     77      76     670     670
  0  36909          :tick-3sec 2006 Nov 24 17:40:02 |     109      20|   0   12    5|      4     930     184|      4       5|     17      17      20      20|     77      78     624     624
   0  36909         :tick-3sec 2006 Nov 24 17:40:05 |      88      15|   0    9    3|      4     995     176|      3       3|     12      12      15      15|     71      71    1026    1026
  0  36909          :tick-3sec 2006 Nov 24 17:40:08 |     112      20|   0   12    4|      4     927     184|      5       4|     16      16      22      22|     81      81     652     652
  0  36909          :tick-3sec 2006 Nov 24 17:40:11 |      32       6|   0    7    4|      3     618     121|      3       4|     11      11      13      13|     54      53     336     336
  0  36909          :tick-3sec 2006 Nov 24 17:40:14 |     145      30|   0   11    4|      4     988     199|      4       4|     15      15      19      19|     64      65     827     827
  0  36909          :tick-3sec 2006 Nov 24 17:40:17 |      43       3|   0    7    3|      3     618     121|      3       3|     10      10      13      13|     64      64     286     286
  0  36909          :tick-3sec 2006 Nov 24 17:40:20 |     157      31|   0   11    4|      4     977     199|      4       4|     15      15      19      19|     80      80    1406    1408
  0  36909          :tick-3sec 2006 Nov 24 17:40:23 |      43       4|   0    7    3|      3     701     121|      3       3|     10      10      13      13|     64      64     285     285
  0  36909          :tick-3sec 2006 Nov 24 17:40:26 |      73      18|   0   11    4|      4     948     171|      4       4|     15      15      19      19|     77      77     700     700
  0  36909          :tick-3sec 2006 Nov 24 17:40:29 |     127      31|   0   10    4|      4     968     189|      4       4|     14      14      18      18|     74      74     584     584
  0  36909          :tick-3sec 2006 Nov 24 17:40:32 |      10       3|   0    6    0|      1     203      41|      0       0|     58       8      62      62|     23      22     106     106
  0  36909          :tick-3sec 2006 Nov 24 17:40:35 |      19       5|   0    5    0|      0       0       0|      0       0|      8       5      13      13|     30      30     200     200
  0  36909          :tick-3sec 2006 Nov 24 17:40:38 |      16       5|   0    5    1|      0       0       0|      0       0|      5       6      10      10|     27      26     558     559
  0  36909          :tick-3sec 2006 Nov 24 17:40:41 |       1       0|   0    4    0|      0       0       0|      0       0|      7       4      11      11|      9       9      34      34
  0  36909          :tick-3sec 2006 Nov 24 17:40:44 |       0       0|   0    4    0|      0       0       0|      0       0|      7       4      11      11|      8       8      28      28
  0  36909          :tick-3sec 2006 Nov 24 17:40:47 |       0       0|   0    6    0|      1     744      81|      1       1|     10       6      15      15|     14      14      33      33
  0  36909          :tick-3sec 2006 Nov 24 17:40:50 |       1       0|   0    5    1|      0       0       0|      0       0|      8       6      14      14|     11      11      49      49
  0  36909          :tick-3sec 2006 Nov 24 17:40:53 |       0       0|   0    4    0|      0       0       0|      0       0|      9       4      12      12|      6       7      28      28
  0  36909          :tick-3sec 2006 Nov 24 17:40:56 |       0       0|   0    5    0|      0       0       0|      0       0|      8       5      13      13|     12      12     420     420
  0  36909          :tick-3sec 2006 Nov 24 17:40:59 |       0       0|   0    4    0|      0       0       0|      0       0|      8       4      12      12|      9       8      30      30
  0  36909          :tick-3sec 2006 Nov 24 17:41:02 |       0       0|   0    4    1|      0       0       0|      0       0|     12       5      16      16|      7       8      25      25
  0  36909          :tick-3sec 2006 Nov 24 17:41:05 |     165      41|   0   48   60|      0       0       0|      1       1|     23     106      71      71|     96      97    1236    1236
  0  36909          :tick-3sec 2006 Nov 24 17:41:08 |     178      28|   0   15   53|      4     965     206|      4       4|     68      68      75      75|    130     130    1336    1336
  0  36909          :tick-3sec 2006 Nov 24 17:41:11 |     106      23|   0   27   35|      4     855     166|      4       4|     82      82      91      91|    115     114    1040    1040
  0  36909          :tick-3sec 2006 Nov 24 17:41:14 |     198      37|   0   41   70|      4    1189     196|      4       4|    185     185     185     185|    134     135    1327    1327
  0  36909          :tick-3sec 2006 Nov 24 17:41:17 |      16       5|   0    9    5|      4     940     161|      3       3|     17      17      20      20|     43      42     234     234
  0  36909          :tick-3sec 2006 Nov 24 17:41:20 |     162      35|   0   13    8|      4     958     200|      4       4|     23      23      28      28|     80      81    1018    1018
  0  36909          :tick-3sec 2006 Nov 24 17:41:23 |      44       6|   0    6    3|      2     544      81|      3       3|      8       8      11      11|     63      63     747     747
  0  36909          :tick-3sec 2006 Nov 24 17:41:26 |     150      34|   0   13    6|      4     921     199|      4       4|     21      21      25      25|     73      72     923     923
  0  36909          :tick-3sec 2006 Nov 24 17:41:29 |      43       3|   0    5    2|      2     506      81|      2       2|      7       7       9       9|     57      57     260     260
  0  36909          :tick-3sec 2006 Nov 24 17:41:32 |     157      37|   0    9    3|      4     978     199|      3       3|     13      13      16      16|     73      72     970     970
  0  36909          :tick-3sec 2006 Nov 24 17:41:35 |      43       3|   0    7    3|      2     512      85|      3       3|      9       9      12      12|     61      62     274     274
  0  36909          :tick-3sec 2006 Nov 24 17:41:38 |     127      29|   0    8    3|      4     994     185|      3       3|     11      11      14      14|     68      68    1265    1265
  0  36909          :tick-3sec 2006 Nov 24 17:41:41 |      66      11|   0   10    4|      4     973     171|      4       4|     14      14      18      18|     67      67     354     354
  0  36909          :tick-3sec 2006 Nov 24 17:41:44 |      48      10|   0    8    3|      3     785     128|      3       3|     11      11      14      14|     52      51     399     399
  0  36909          :tick-3sec 2006 Nov 24 17:41:47 |     142      31|   0   12    4|      4     913     192|      5       4|     17      17      23      23|     89      90     830     830
  0  36909          :tick-3sec 2006 Nov 24 17:41:50 |      64      13|   0   11    5|      4     853     168|      4       5|     15      15      18      18|     75      75     542     542

Grid Engine ソフトウェアのエラーレポートの取得方法

Grid Engine ソフトウェアは、特定のファイルにメッセージを記録するか、電子メールを送信する (または両方の手段) でエラーや警告を報告します。ログファイルには、メッセージ ファイルとジョブ STDERR 出力が含まれます。

ジョブが開始されるとただちに、ジョブスクリプトの標準的なエラー (STDERR ) 出力がファイルにリダイレクトされます。デフォルトのファイル名と位置が使用されますが、qsub コマンドのある種のオプションを使用してファイル名と位置を指定することもできます。詳細については、Grid Engine システムのマニュアルページを参照してください。

sge_qmastersge_schedd、および sge_execd のそれぞれに messages ファイルがあります。各ファイルには同じファイル名、 messages が付けられています。sge_qmaster ログファイルは、マスタースプールディレクトリに存在します。sge_schedd メッセージ ファイルは、スケジューラスプールディレクトリに存在します。実行デーモンのログファイルは、実行デーモンのスプールディレクトリに存在します。スプールディレクトリの詳細については、『Sun N1 Grid Engine 6.1 インストールガイド』「ルートディレクトリの下のスプールディレクトリ」を参照してください。

各メッセージは、ファイル内の 1 行を使用します。各メッセージは、縦線記号 (|) で区切られた 5 つのコンポーネントに再分割されます。

    メッセージのコンポーネントは、次のとおりです。

  1. 最初のコンポーネントは、メッセージのタイムスタンプです。

  2. 2 つ目のコンポーネントは、メッセージを生成するデーモンを指定します。

  3. 3 つ目のコンポーネントは、デーモンが動作しているホスト名です。

  4. 4 つ目はメッセージの種類です。メッセージの種類は、次のいずれかです。

    • 通知の N (情報提供が目的)

    • 情報の I (情報提供が目的)

    • 警告の W

    • エラーの E (エラー状態の検出)

    • 重大の C (プログラムの異常終了になる可能性あり)

    クラスタ構成で loglevel パラメータを使用して、グローバルまたはローカルにどのメッセージの種類を記録するかを指定します。

  5. 5 つ目のコンポーネントは、メッセージのテキストです。


    注 –

    何らかの理由でエラーログファイルにアクセスできない場合、Grid Engine システムは、対応するホストのファイル /tmp/sge_qmaster_messages /tmp/sge_schedd_messages、または /tmp/sge_execd_messages にエラーメッセージを記録しようとします。


状況によっては、Grid Engine システムは電子メールでユーザーか管理者、またはその両方にエラーイベントを通知します。Grid Engine システムにより送信される電子メールメッセージには、メッセージ本文は含まれません。メッセージテキストは、メールの件名フィールドにすべて含まれます。

さまざまなエラーまたは終了コードの意味

次の表に、ジョブ関連のさまざまエラーコードまたは終了コードの意味を示します。これらのコードは、あらゆる種類のジョブに該当します。

表 9–1 ジョブ関連のエラーまたは終了コード

スクリプト/方法 

終了/エラーコード 

意味 

Job スクリプト 

正常終了 

 

99 

再度キューに入れる 

 

Rest 

成功。アカウンティングファイルの終了コード 

 

 

 

プロローグ/エピローグ 

正常終了 

 

99 

再度キューに入れる 

 

Rest 

キューのエラー状態。ジョブは再度キューに入れられる 

次の表に、並列環境 (PE) 構成関連のジョブのエラーコードまたは終了コードの意味を示します。

表 9–2 並列環境関連のエラーまたは終了コード

スクリプト/方法 

終了/エラーコード 

意味 

pe_start 

成功 

 

Rest 

キューをエラー状態に設定。ジョブは再度キューに入れられる 

 

 

 

pe_stop 

成功 

 

Rest 

キューをエラー状態に設定。ジョブは再度キューには入れられない 

次の表に、キュー構成関連のジョブのエラーコードまたは終了コードの意味を示します。これらのコードは、対応する方法が書き換えられた場合にのみ該当します。

表 9–3 キュー関連のエラーまたは終了コード

スクリプト/方法 

終了/エラーコード 

意味 

ジョブ開始 

成功 

 

Rest 

成功。ほかの意味は特になし 

 

 

 

一時停止 

成功 

 

Rest 

成功。ほかの意味は特になし 

 

 

 

再開 

成功 

 

Rest 

成功。ほかの意味は特になし 

 

 

 

終了 

成功 

 

Rest 

成功。ほかの意味は特になし 

次の表に、チェックポイント設定関連のジョブのエラーコードまたは終了コードの意味を示します。

表 9–4 チェックポイント設定関連のエラーまたは終了コード

スクリプト/方法 

終了/エラーコード 

意味 

チェックポイント 

成功 

 

Rest 

成功。ただし、カーネルチェックポイントの場合は、チェックポイントが失敗したことを意味する。 

 

 

 

移行 

成功 

 

Rest 

成功。ただし、カーネルチェックポイントの場合は、チェックポイントが成功しなかったことを意味する。移行は行われる。 

 

 

 

再起動 

成功 

 

Rest 

成功。ほかの意味は特になし 

 

 

 

後処理 

成功 

 

Rest 

成功。ほかの意味は特になし 

デバッグモードでの Grid Engine システムのプログラムの実行

重大なエラー状態が発生した場合に、問題の特定に十分な情報がエラー記録機構によって生成されないことがあります。このため、Grid Engine システムには、ほぼすべての補助プログラムとデーモンをデバッグモードで実行する機能が用意されています。デバッグのレベルは、提供される情報の量および深さに応じて異なります。デバッグのレベルは、0 から10 の範囲で、10 はもっとも詳細な情報を提供するレベル、0 はデバッグ無効です。

デバッグレベルを設定するため、Grid Engine システムの配布には、ユーザーの .cshrc または .profile リソースファイルに対する拡張が用意されています。csh または tcsh のユーザーには、ファイル sge-root/util/dl.csh が含まれています。sh または ksh のユーザーに対応するファイルの名前は sge-root/ util/dl.sh です。標準のリソースファイルに、これらのファイルを取り込む必要があります。csh または tcsh のユーザーの場合は、.cshrc ファイルに次の行を含めます。


source sge-root/util/dl.csh

sh または ksh のユーザーの場合は、.profile ファイルに次の行を含めます。


. sge-root/util/dl.sh

いったんログアウトして、ログインし直すと、次のコマンドを使用してデバッグレベルの level を設定できるようになります。


% dl level

level が 0 より大きい場合、Grid Engine システムのコマンドを開始すると、トレース出力が STDOUT に書き込むようコマンドに強制します。このトレース出力には、警告メッセージ、ステータスメッセージ、エラーメッセージばかりでなく、内部的に呼び出されたプログラムモジュール名が含まれます。メッセージには、ユーザーが指定するデバッグレベルに応じて、エラーの報告に役立つ行番号情報も含まれます。


注 –

デバッグトレースを監視するには、大きなサイズのスクロール行バッファーを持つウィンドウを使用する必要があります。たとえば、1000 行のスクロール行バッファーを使用します。



注 –

ウィンドウが xterm の場合、 xterm のログ記録機構を使用してあとでトレース出力を調べることができます。


デバッグモードで Grid Engine システムデーモンの 1 つを実行すると、デーモンが端末接続を維持して、トレース出力を書き出します。こうした端末接続は、使用している端末エミュレーションの割り込み文字を入力することによって打ち切ることができます。たとえば、Control-C などを使用します。

デバッグモードを無効にするには、デバッグレベルを 0 に戻します。

dbwriter デバッグレベルの設定

sgedbwriter スクリプトは、dbwriter プログラムを開始します。このスクリプトの位置は、sge_root /dbwriter/bin/sgedbwriter です。sgedbwriter スクリプトは、dbwriter の構成ファイルである dbwriter.conf を読み取ります。この構成ファイルの位置は、sge_root/cell /common/dbwriter.conf です。この構成ファイルは、dbwriter のデバッグレベルを設定します。たとえば、次のように指定します。


#
# Debug level
# Valid values: WARNING、INFO、CONFIG、FINE、FINER、FINEST、ALL
#
DBWRITER_DEBUG=INFO

dbwriter コマンドの –debug オプションを使用すると、dbwriter により作成されるメッセージの数を変更できます。通常は、デフォルトのデバッグレベル info を使用する必要があります。より詳細なデバッグレベルを使用する場合は、dbwriter により出力されるデータ量を大幅に増やします。

次のデバッグレベルを指定できます。

warning

重大なエラーと警告のみが表示されます。

info

情報メッセージの数が追加されます。info はデフォルトのデバッグレベルです。

config

たとえば規則の処理に関する、dbwriter 構成に関連する追加の情報が得られます。

fine

さらに多くの情報が作成されます。このデバッグレベルを選択すると、dbwriter により実行されるすべての SQL 文が出力されます。

finer

デバッグ用に使用します。

finest

デバッグ用に使用します。

all

すべてのレベルの情報を表示します。デバッグ用に使用します。

問題の診断

Grid Engine システムには、問題の診断に役立つ、報告手段がいくつか用意されています。次の節では、これらの使用方法を説明します。

保留中のジョブが振り分けられない

保留中のジョブが実行可能な状態であることが明らかであるにもかかわらず、振り分けられないことがあります。Grid Engine システムには、その理由を調べる手段として qstat -j job-id qalter-w v job-id のユーティリティーとオプションのペアがあります。

このコマンドは、基本的にジョブが振り分けられない理由を一覧表示します。この目的のため、ドライスケジューリングが実行されます。スロットを含めて消費可能なすべてのリソースが、そのジョブ用に完全に利用可能であるとみなされます。負荷値は変化するため、すべての負荷値は無視されます。

ジョブまたはキューがエラー状態 E と報告される

ジョブまたはキューのエラーが、qstat 出力で、大文字の E で示されます。

ジョブがエラー状態になるのは、Grid Engine システムがジョブを実行しようとして、そのジョブに固有の理由で実行に失敗した場合です。

キューがエラー状態になるのは、Grid Engine システムがジョブを実行しようとして、そのキューに固有の理由で実行に失敗した場合です。

Grid Engine システムには、ジョブ実行エラーが発生した場合に、ユーザーおよび管理者がその診断情報を収集するための一群の機能が用意されています。キューおよびジョブのエラー状態のどちらも、原因はジョブの実行失敗にあります。そのため、診断機能は両方の種類のエラー状態に適用できます。

一般的な問題の障害追跡

この節では、一般的な問題の原因と対処に役立つ情報を説明します。