第5章 |
|
この章では、Hardware Diagnostic Suite 用に Sun Management Center のアラームを表示、カスタマイズする方法を説明します。
注 - この章の手順は、の説明に従って Hardware Diagnostic Suite がすでに実行されていることを前提としています。 |
Sun Management Center のアラームについては、『Sun Management Center 3.5 ユーザーマニュアル』を参照してください。
Sun Management Center ソフトウェアはシステムを監視し、異常な状態が発生したときはアラームを使って通知します。このアラームは、事前に定義されている範囲外の状態に陥ったときに発生します。
Hardware Diagnostic Suite は、Sun Management Center の Hardware Diagnostic Suite の機能を利用して、テスト中のホストに関するアラーム情報を生成、表示します。Hardware Diagnostic Suite のテストセッションでエラーが発生した場合、デフォルトでは必ず、Sun Management Center の重大アラームが発生し、Sun Management Center コンソールに表示されます。このデフォルトの処理とは別に、ユーザ側で Sun Management Center のアラームを発生させる Hardware Diagnostic のイベントを定義したり、アラームが発生した時の処理を定義することもできます。
Sun Management Center は、特定のアラームが発生したときに電子メールを送信したり、そのシステム上でスクリプトを実行したりする機能があります。たとえば、Hardware Diagnostic Suite によってマルチプロセッサシステムの FPU でエラーが検出された場合に、アラームを発生させ、そのアラームによって、疑わしい CPU をオフラインにするスクリプトを自動的に実行することができます。またその一方で、すぐに電子メールによる通知がシステム管理者に送信されるようにすることもできます。アラームのアクションのフローについては、図 5-7 を参照してください。
Sun Management Center はアラームアイコンを使用して (表 5-1)、アラーム状態が発生したことを報告します。
表 5-2 は、アラームアイコンが表示される Sun Management Center のウィンドウをまとめています。
「アラーム」タブに表示されるホストのアラーム情報は次のとおりです。
色によってアラームの重要度を示すグラフィックインジケータです (表 5-1 を参照)。 インジケータの横の緑色のチェックマークは、アラームが確認済みであることを示します。チェックマークのないアラームは未確認です。 |
|
|
1. Sun Management Center メインウィンドウの階層表示またはトポロジ表示で、アラーム状態の確認をするホストを表示します。
アラームアイコンが表示されている場合は (表 5-1)、さらに調査が必要な未確認のアラームが存在することを意味します。
1 つのホストに表示されるアラームアイコンは、一度に 1 つだけです。1 つのホストに 2 種類以上のアラームがある場合は、重要度の高い未確認のアラームが優先されて、ツリー (階層) の上方向に伝達されます。これに対し、Sun Management Center のアラームウィンドウでは、すべてのアラームが一覧表示されます。
注 - Sun Management Center は、多くの種類のイベントに対してアラームを表示します。表示されたアラームのすべてが、Hardware Diagnostic Suite のテストセッション中のイベントで生成されたものとは限りません。 |
注 - Sun Management Center は、特定の 1 つのエージェントからのアラーム情報を 1 つのサーバだけ受信するように設定されています。 |
2. アラームが存在する場合は、次の手順に従ってアラーム状態を表示し、確認済みにします。
a. Sun Management Center のメインウィンドウからホストをダブルクリックして、「詳細」ウィンドウを開きます。
「アラーム」ウィンドウが表示されます (図 5-1)。現在のホストのすべてのアラームが表示されます。
3. アラームを確認済みにするには、アラームを選択して、チェックマークボタン をクリックします。
「アラーム」タブの表のそのアラームに確認済みのマークが付きます。他の Sun Management Center には、確認済みになったアラームは表示されません。
Sun Management Center のアラームについての詳細は、『Sun Management Center 3.5 ユーザーマニュアル』 を参照してください。
|
デフォルトでは、Sun Management Center は、Hardware Diagnostic Suite のエラーログおよび情報ログファイルをスキャンして、ERROR または FATAL のテキストパターンが含まれていないかどうかを調べます。パターンを検出した場合に、アラームを発生させます。このエラー条件は、変更することができます。また、アラームを発生させるログパターンを自分で作成することもできます。
1. Sun Management Center のメインウィンドウで、アラーム条件を設定または変更するホストの「詳細」ウィンドウを開きます。 を参照。
2. 「詳細」ウィンドウの「モジュールブラウザ」タブを選択します。
3. トポロジ表示から「ローカルアプリケーション」アイコンをダブルクリックします。
4. トポロジ表示から「Hardware Diagnostic Suite」アイコンをダブルクリックします。
5. トポロジ表示から「Hardware Diagnostic Suite Agent」アイコンをダブルクリックします。
Hardware Diagnostic Suite のエージェントのプロパティが表示されます (図 5-2)。
これらのプロパティについては表 5-4 を参照してください。
パターン名のプロパティを指定します。パターン名は、このテーブルの索引キーであるため、一意である必要があります。Hardware Diagnostic Suite のデフォルトのエラーパターンは次のとおりです。 |
||
regexp のパターンの説明を指定します。Hardware Diagnostic Suite の説明は以下のとおりです。 |
||
Hardware Diagnostic Suite のデフォルトのパターンは次のとおりです。 ERROR -- 対処する必要があるハードウェアエラーが発生すると、Hardware Diagnostic Suite のログファイルにこのパターンが生成されます。この種のエラーとしては、メディアが挿入されていない、ケーブルの接続不良、切断があります。 FATAL -- このパターンは、回復不可能なハードウェア障害が発生した場合に生成されます。データ比較やハードウェアエラーが検出された場合がそうです。 |
||
発生したパターン一致件数を示します。この数がアラームしきい値に一致すると、アラームが生成されます。手順 6 〜 手順 9 で説明しているように、このセルはアラームしきい値の設定にも使用されます。 |
6. 「正規表現パターン」セルをクリックし、「ERROR」または「FATAL」データ属性のいずれかを選択します。(エラーの種類については、 を参照してください。)
アラームパネルが表示されます (図 5-3)。このパネルでは、アラームしきい値を設定できます。
9. アラームしきい値フィールドに適切な数値を入力して、アラームしきい値を設定します。
アラームしきい値により、パターン一致件数に基づいて生成されるアラームの種類が決まります (表 5-5)。
ここで指定された期間の間だけアラームが発生します。たとえば、day_of_week=fri と入力した場合は、金曜日にアラーム状態が発生した場合だけ、アラームが発生します。火曜日にアラーム状態が発生しても、アラームは記録されません。 |
たとえば、FATAL パターンの「正規表現」列で属性エディタを開いて、次のように入力したと仮定します。重大しきい値、警告しきい値、注意しきい値にそれぞれ 3、2、1 と入力します。
diag_error パターンおよび diag_fatal パターンのどちらも、重大のデフォルトのしきい値は次のとおりになります。
デフォルトのしきい値を Hardware Diagnostic Suite のデフォルト値に戻すには、フィールドを空白にします。
|
Sun Management Center の Hardware Diagnostic Suite は、ユーザ自身が、Hardware Diagnostic Suite のエラーログファイルに記録された場合にアラームを発生させるパターンを作成できます。
1. 「Hardware Diagnostic Suite」フォルダを開きます。
この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集するの手順 1 〜手順 5 を参照してください。
2. アラームを発生させる新しい Hardware Diagnostic Suite ログファイルパターンを追加するには、次の手順に従ってください。
a. 「Hardware Diagnostic エラー」テーブルの任意の場所を右クリックし、ポップアップメニューから「新しい行」を選択します。
「行の追加」ダイアログボックスが表示されます (図 5-4)。
b. 表 5-6 の説明を参考に、フィールドに情報を入力します。
これらのフィールドの詳細説明については、表 5-4 を参照してください。
d. 発生させるアラームの種類ごとにアラームしきい値を設定します。
この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集するを参照してください。
変更を適用すると、テーブルに新しい行が挿入されます。ここで指定したパターンが、テストセッションで記録されたメッセージに含まれていると、アラームが生成されます。
|
デフォルトでは、エラーまたは重大なエラーが検出されると、アラーム処理として、root に電子メールが送信されます。ただしこのアラーム処理は、カスタマイズすることが可能であり、たとえばスクリプトを実行するような違った処理を定義することができます。
1. 「Hardware Diagnostic Suite」フォルダを開きます。
この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集するの手順 1 〜手順 5 を参照してください。
2. Hardware Diagnostic エラーテーブルの「正規表現パターン」テーブルセルで「属性エディタ」を開きます。
この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集するの手順 6 〜手順 7 を参照してください。
図 5-5 に示すような「処理」タブが表示されます (これらの項目については、表 5-7 を参照)。
「不確定な」アイコンが表示されたときの処理を示します。不確定な状態のオブジェクトは黒の星印、または「スプラット」が付けられます。これはアラームほど深刻度は高くありません。 |
|
注 - デフォルトでは、Hardware Diagnostic Suite で重大アラームが発生するとスーパーユーザに電子メールが送信されます。既存の処理を変更するか、新しい処理を定義するには、処理フィールドに処理を追加します。 |
各処理フィールドには、処理を 1 つだけ指定できます。複数の処理 (電子メールの送信とスクリプトの実行など) を定義する場合は、異なるフィールドにそれぞれの処理を指定する必要があります。以下に、その手順例を示します。
「処理の選択」ダイアログボックスが表示されます (図 5-6)。
c. 重大なアラームが発生したときにスクリプトを実行する処理を定義するには、次のことを行います。
i. /var/opt/SUNWsymon/bin ディレクトリにスクリプトを置きます。実行権限が設定されていることを確認してください。
注 - 「処理の選択」プルダウンメニューからスクリプトを選択できるようにするには、スクリプトを /var/opt/SUNWsymon/bin ディレクトリに入れておく必要があります。また、スクリプトはスーパーユーザ権限で実行します。 |
ii. 「使用可能なスクリプト」プルダウンメニューからスクリプトを選択します。
Copyright© 2003, Sun Microsystems, Inc. All rights reserved.