5


Hardware Diagnostic Suite での Sun Management Center のアラームの使用方法

この章では、Hardware Diagnostic Suite 用に Sun Management Center のアラームを表示、カスタマイズする方法を説明します。



注 - この章の手順は、の説明に従って Hardware Diagnostic Suite がすでに実行されていることを前提としています。



Sun Management Center のアラームについては、『Sun Management Center 3.5 ユーザーマニュアル』を参照してください。


Sun Management Center のアラームの概要

Sun Management Center ソフトウェアはシステムを監視し、異常な状態が発生したときはアラームを使って通知します。このアラームは、事前に定義されている範囲外の状態に陥ったときに発生します。

Hardware Diagnostic Suite は、Sun Management Center の Hardware Diagnostic Suite の機能を利用して、テスト中のホストに関するアラーム情報を生成、表示します。Hardware Diagnostic Suite のテストセッションでエラーが発生した場合、デフォルトでは必ず、Sun Management Center の重大アラームが発生し、Sun Management Center コンソールに表示されます。このデフォルトの処理とは別に、ユーザ側で Sun Management Center のアラームを発生させる Hardware Diagnostic のイベントを定義したり、アラームが発生した時の処理を定義することもできます。

Sun Management Center は、特定のアラームが発生したときに電子メールを送信したり、そのシステム上でスクリプトを実行したりする機能があります。たとえば、Hardware Diagnostic Suite によってマルチプロセッサシステムの FPU でエラーが検出された場合に、アラームを発生させ、そのアラームによって、疑わしい CPU をオフラインにするスクリプトを自動的に実行することができます。またその一方で、すぐに電子メールによる通知がシステム管理者に送信されるようにすることもできます。アラームのアクションのフローについては、図 5-7 を参照してください。

Sun Management Center はアラームアイコンを使用して (表 5-1)、アラーム状態が発生したことを報告します。

表 5-1 アラームアイコン

アイコン

重要度

説明

 

黒い警告記号

1 停止

 

 

サービスに影響する状態が発生し、すぐに対処する必要があることを示します。たとえば、Sun Management Center の管理対象のオブジェクトがサービスを停止し、リソースとしてそのオブジェクトが必要な場合は、このアラームレベルになります。

 

赤い警告記号

 

2 重大

 

 

サービスに影響する状態が発生し、対処する必要があることを示します。この種のアラームは、Hardware Diagnostic Suite テストセッションでハードウェア障害が検出されたときに発生します。

 

黄色い警告記号

 

3 警告

 

 

サービスには影響しない状態が発生し、重大な障害になるのを防ぐには、この時点で何らかの対処をします。

 

 

青い警告記号

 

4 注意

 

 

 

サービスに影響する可能性がある障害が検出されたことを示します。

 

 

灰色の警告記号

 

5 使用不可

 

 

リソースが使用不可になっていることを示します。


表 5-2 は、アラームアイコンが表示される Sun Management Center のウィンドウをまとめています。

表 5-2 アラームアイコンが表示される場所

アラームアイコンが
表示される場所

説明

Sun Management Center のメインウィンドウ

階層表示およびトポロジ表示内のホストの横に色付きのアラームアイコンが表示されます。

 

「ドメインの状態の概要」パネル (丸い形をした色付きのアラームアイコンがまとめられた、ウィンドウの右上部分) には、重要度のレベル別にアラーム数が表示されます。 を参照してください。

「詳細」ウィンドウ

 

「詳細」ウィンドウの最上部にあるホスト名の横に、小さな色付きのアラームアイコンが表示されます。

「詳細」ウィンドウ
(「モジュールブラウザ」タブ)

アラームが発生した Sun Management Center モジュールの横に、色付きのアラームアイコンが表示されます。Hardware Diagnostic Suite が生成したアラームは、階層表示およびトポロジ表示内の「ローカルアプリケーション」の横に表示されます。

「詳細」ウィンドウ
(アラームタブ)

確認済みのものも含めてすべてのアラームが表形式で一覧表示されます。


アラーム情報

「アラーム」タブに表示されるホストのアラーム情報は次のとおりです。

表 5-3 「アラーム」タブの表に表示される情報

カテゴリ

説明

アラームレベル

色によってアラームの重要度を示すグラフィックインジケータです (表 5-1 を参照)。

インジケータの横の緑色のチェックマークは、アラームが確認済みであることを示します。チェックマークのないアラームは未確認です。

開始時刻

アラームの最初の発生時刻です。

状態

「ベルが鳴っている」開状態のアイコンは、アラームの原因となった状態が依然として存在していることを示します。

「ベルが止まっている」閉状態のアイコンは、その状態が解消されたことを示します。

処理

アラームに割り当てられている処理を示します。

メッセージ

アラームの種類を示す簡単なメッセージです。



procedure icon  ホストのアラーム状態を表示して、確認済みにする

1. Sun Management Center メインウィンドウの階層表示またはトポロジ表示で、アラーム状態の確認をするホストを表示します。

アラームアイコンが表示されている場合は (表 5-1)、さらに調査が必要な未確認のアラームが存在することを意味します。

1 つのホストに表示されるアラームアイコンは、一度に 1 つだけです。1 つのホストに 2 種類以上のアラームがある場合は、重要度の高い未確認のアラームが優先されて、ツリー (階層) の上方向に伝達されます。これに対し、Sun Management Center のアラームウィンドウでは、すべてのアラームが一覧表示されます。



注 - Sun Management Center は、多くの種類のイベントに対してアラームを表示します。表示されたアラームのすべてが、Hardware Diagnostic Suite のテストセッション中のイベントで生成されたものとは限りません。





注 - Sun Management Center は、特定の 1 つのエージェントからのアラーム情報を 1 つのサーバだけ受信するように設定されています。



2. アラームが存在する場合は、次の手順に従ってアラーム状態を表示し、確認済みにします。

a. Sun Management Center のメインウィンドウからホストをダブルクリックして、「詳細」ウィンドウを開きます。

b. 「アラーム」タブを選択します。

「アラーム」ウィンドウが表示されます (図 5-1)。現在のホストのすべてのアラームが表示されます。

図 5-1 「アラーム」タブ

アラームタブとアラームデータを示す画面ショット

3. アラームを確認済みにするには、アラームを選択して、チェックマークボタン チェックマークボタンの記号 をクリックします。


「アラーム」タブの表のそのアラームに確認済みのマークが付きます。他の Sun Management Center には、確認済みになったアラームは表示されません。

Sun Management Center のアラームについての詳細は、『Sun Management Center 3.5 ユーザーマニュアル』 を参照してください。


procedure icon  Hardware Diagnostic Suite 用のアラームしきい値を編集する

デフォルトでは、Sun Management Center は、Hardware Diagnostic Suite のエラーログおよび情報ログファイルをスキャンして、ERROR または FATAL のテキストパターンが含まれていないかどうかを調べます。パターンを検出した場合に、アラームを発生させます。このエラー条件は、変更することができます。また、アラームを発生させるログパターンを自分で作成することもできます。

1. Sun Management Center のメインウィンドウで、アラーム条件を設定または変更するホストの「詳細」ウィンドウを開きます。 を参照。

2. 「詳細」ウィンドウの「モジュールブラウザ」タブを選択します。

3. トポロジ表示から「ローカルアプリケーション」アイコンをダブルクリックします。

4. トポロジ表示から「Hardware Diagnostic Suite」アイコンをダブルクリックします。

5. トポロジ表示から「Hardware Diagnostic Suite Agent」アイコンをダブルクリックします。

Hardware Diagnostic Suite のエージェントのプロパティが表示されます (図 5-2)。

図 5-2 「Hardware Diagnostic Suite Agent」のプロパティ

Hardware Diagnostic Agent ウィンドウの画面ショット。1 つのテーブルがエージェントのプロパティを示し、もう 1 つのテーブルがエラーパターン名と説明を示しています。

これらのプロパティについては表 5-4 を参照してください。

表 5-4 「Hardware Diagnostic Suite Agent」のプロパティ

テーブル名

行 / 列

説明

Hardware Diagnostic Suite エージェント

HWDS UDP ポート

ハードウェア診断エージェントとサーバ間の通信に使用されます。

Hardware Diagnostic
診断エラー

 

パターン名

パターン名のプロパティを指定します。パターン名は、このテーブルの索引キーであるため、一意である必要があります。Hardware Diagnostic Suite のデフォルトのエラーパターンは次のとおりです。

  • diag_error -- Hardware Diagnostic Suite テストセッション中のエラーメッセージに対するパターン名
  • diag_fatal -- Hardware Diagnostic Suite テストセッション中の致命的なエラーメッセージに対するパターン名

パターン詳細

regexp のパターンの説明を指定します。Hardware Diagnostic Suite の説明は以下のとおりです。

Hardware Error Detected
Hardware Failure

正規表現
パターン

アラームを発生させるパターンを定義します。

Hardware Diagnostic Suite のデフォルトのパターンは次のとおりです。

ERROR -- 対処する必要があるハードウェアエラーが発生すると、Hardware Diagnostic Suite のログファイルにこのパターンが生成されます。この種のエラーとしては、メディアが挿入されていない、ケーブルの接続不良、切断があります。

FATAL -- このパターンは、回復不可能なハードウェア障害が発生した場合に生成されます。データ比較やハードウェアエラーが検出された場合がそうです。

Hardware Diagnostic Suite で検出されるエラーの種類については、 を参照してください。

一致数

発生したパターン一致件数を示します。この数がアラームしきい値に一致すると、アラームが生成されます。手順 6手順 9 で説明しているように、このセルはアラームしきい値の設定にも使用されます。


6. 「正規表現パターン」セルをクリックし、「ERROR」または「FATAL」データ属性のいずれかを選択します。(エラーの種類については、 を参照してください。)

7. 次のいずれかの方法で「属性エディタ」を開きます。

 

8. 「属性エディタ」の「アラーム」タブを選択します。

アラームパネルが表示されます (図 5-3)。このパネルでは、アラームしきい値を設定できます。

図 5-3 属性エディタ、アラームパネル

属性エディタの「アラーム」タブの画面ショット。[ D ]

9. アラームしきい値フィールドに適切な数値を入力して、アラームしきい値を設定します。

アラームしきい値により、パターン一致件数に基づいて生成されるアラームの種類が決まります (表 5-5)。

表 5-5 アラームしきい値

数値入力フィールド

説明

重大しきい値

整数値を指定します。パターンの発生件数がこの値を超えると、重大 (赤) アラームが生成されます。

警告しきい値

整数値を指定します。パターンの発生件数がこの値を超えると、警告 (黄) アラームが生成されます。

注意しきい値

整数値を指定します。パターンの発生件数がこの値を超えると、注意 (青) アラームが生成されます。

アラームウィンドウ

ここで指定された期間の間だけアラームが発生します。たとえば、day_of_week=fri と入力した場合は、金曜日にアラーム状態が発生した場合だけ、アラームが発生します。火曜日にアラーム状態が発生しても、アラームは記録されません。


たとえば、FATAL パターンの「正規表現」列で属性エディタを開いて、次のように入力したと仮定します。重大しきい値、警告しきい値、注意しきい値にそれぞれ 3、2、1 と入力します。

diag_error パターンおよび diag_fatal パターンのどちらも、重大のデフォルトのしきい値は次のとおりになります。

デフォルトのしきい値を Hardware Diagnostic Suite のデフォルト値に戻すには、フィールドを空白にします。


procedure icon  独自のアラームトリガーを作成する

Sun Management Center の Hardware Diagnostic Suite は、ユーザ自身が、Hardware Diagnostic Suite のエラーログファイルに記録された場合にアラームを発生させるパターンを作成できます。

1. 「Hardware Diagnostic Suite」フォルダを開きます。

この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集する手順 1手順 5 を参照してください。

2. アラームを発生させる新しい Hardware Diagnostic Suite ログファイルパターンを追加するには、次の手順に従ってください。

a. 「Hardware Diagnostic エラー」テーブルの任意の場所を右クリックし、ポップアップメニューから「新しい行」を選択します。

「行の追加」ダイアログボックスが表示されます (図 5-4)。

図 5-4 Sun Management Center の「行の追加」ダイアログボックス

「行の追加」ダイアログボックスの画面ショット。フィールドには「パターン名」、「正規表現パターン」、「パターン詳細」があります。ボタンには「了解」、「適用」、「リセット」、「取消し」があります。

b. 表 5-6 の説明を参考に、フィールドに情報を入力します。

これらのフィールドの詳細説明については、表 5-4 を参照してください。

表 5-6 「行の追加」ダイアログボックスのフィールドの説明

フィールド名

説明

パターン名

作成するアラーム条件の名前を入力します。

正規表現パターン

アラーム条件を生成する正規表現 (パターン) を入力します。

パターン詳細

正規表現のパターンの説明を指定します。


c. 次のいずれかの操作をします。

d. 発生させるアラームの種類ごとにアラームしきい値を設定します。

この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集するを参照してください。

変更を適用すると、テーブルに新しい行が挿入されます。ここで指定したパターンが、テストセッションで記録されたメッセージに含まれていると、アラームが生成されます。


procedure icon   アラーム処理を定義する

デフォルトでは、エラーまたは重大なエラーが検出されると、アラーム処理として、root に電子メールが送信されます。ただしこのアラーム処理は、カスタマイズすることが可能であり、たとえばスクリプトを実行するような違った処理を定義することができます。



注 - これらのスクリプトは、スーパーユーザ権限で実行します。



1. 「Hardware Diagnostic Suite」フォルダを開きます。

この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集する手順 1手順 5 を参照してください。

2. Hardware Diagnostic エラーテーブルの「正規表現パターン」テーブルセルで「属性エディタ」を開きます。

この手順については、Hardware Diagnostic Suite 用のアラームしきい値を編集する手順 6手順 7 を参照してください。

3. 「属性エディタ」の「処理」タブを選択します。

図 5-5 に示すような「処理」タブが表示されます (これらの項目については、表 5-7 を参照)。

図 5-5 「属性エディタ」の「処理」タブ

「属性エディタ」の「処理」タブの画面ショット。[ D ]

 

表 5-7 「処理」タブのフィールドの説明

フィールド

説明

重大時処理

 

重大 (赤) アラームが発生したときの処理を示します。

警告時処理

 

警告 (黄) アラームが発生したときの処理を示します。

注意時処理

 

注意 (青) アラームが発生したときの処理を示します。

不確定時処理

「不確定な」アイコンが表示されたときの処理を示します。不確定な状態のオブジェクトは黒の星印、または「スプラット」が付けられます。これはアラームほど深刻度は高くありません。

終了時処理

 

アラームが閉状態になったときの処理を示します。

変更時処理

 

アラームの発生に関係なく、状態に変化があったときの処理を示します。


4. 処理フィールドに処理を追加します。



注 - デフォルトでは、Hardware Diagnostic Suite で重大アラームが発生するとスーパーユーザに電子メールが送信されます。既存の処理を変更するか、新しい処理を定義するには、処理フィールドに処理を追加します。



各処理フィールドには、処理を 1 つだけ指定できます。複数の処理 (電子メールの送信とスクリプトの実行など) を定義する場合は、異なるフィールドにそれぞれの処理を指定する必要があります。以下に、その手順例を示します。

a. いずれかの重要度の「処理」ボタンをクリックします。

「処理の選択」ダイアログボックスが表示されます (図 5-6)。

b. 電子メールの送信先を指定します。

図 5-6 電子メールアドレスが入力された処理フィールド

「処理の選択」パネルの画面ショット。オプションとして、電子メールの送信、スクリプトなどの他の処理、処理のクリアが可能です。
ここでは、「警告時処理」フィールドに電子メールの送信先 (この例では admin@shift1) を入力しています。
この例では、「重大時処理:」の工場出荷時のデフォルトの設定は「email sh root」です。次の手順では、重大時処理を再定義して、スクリプトが実行されるようにします。すでに「警告時処理」フィールドに電子メールの送信先を指定したため、アラームが発生すると、電子メールの送信とスクリプトの実行の両方が行われるようになります。
デフォルトでは、Hardware Diagnostic Suite で「警告」アラームが生成されることはありません。この例のアラーム処理が機能するには、警告条件用のアラームしきい値を設定する必要があります。Hardware Diagnostic Suite 用のアラームしきい値を編集する を参照してください。
この例では、重大なエラーが発生するたびに警告アラームが生成され、メールの送信先に次のような電子メールが送信されます。
Date:Tue, 12 Oct 1999 15:25:39 -0800
From:root@Payroll2 (0000-Admin(0000))
Mime-Version:1.0
 
Sun Management Center alarm action notification ...{Alert:
Payroll2 File Scanning Hardware Error Detected Matches > 1}

c. 重大なアラームが発生したときにスクリプトを実行する処理を定義するには、次のことを行います。

i. /var/opt/SUNWsymon/bin ディレクトリにスクリプトを置きます。実行権限が設定されていることを確認してください。



注 - 「処理の選択」プルダウンメニューからスクリプトを選択できるようにするには、スクリプトを /var/opt/SUNWsymon/bin ディレクトリに入れておく必要があります。また、スクリプトはスーパーユーザ権限で実行します。



ii. 「使用可能なスクリプト」プルダウンメニューからスクリプトを選択します。

iii. メニューから「了解」をクリックします。

このカスタムアラーム設定によって、図 5-7 のフローチャートようなアラーム処理が実行されるようになります。

図 5-7 アラーム処理のフローチャート

カスタムアラーム処理のフローチャート。[ D ]

5. 次のいずれかの操作を「属性エディタ」で実行します。

  • これまでの設定を適用して、ウィンドウを閉じる場合は、「了解」をクリックします。
  • ウィンドウを閉じないで変更を適用する場合は、「適用」をクリックします。
  • 「属性エディタ」のデフォルトパラメータに戻す場合は、「リセット」をクリックします。
  • 設定を取り消す場合は、「取消し」をクリックします。