Sun Enterprise 10000 SSP 3.3 ユーザーマニュアル

イベント検出デーモン

イベント検出デーモン (edd(1M)) は、Sun Enterprise 10000 システムの信頼性、可用性、保守性 (RAS: Reliability、Availability、Serviceability) を実現する上で核となるコンポーネントです。edd(1M) は、Sun Enterprise 10000 制御ボード上のイベントの監視を開始し、制御ボードで実行されるイベント検出監視タスクが生成するイベントを待機します。検出されたイベントに対しては、SSP 上で応答動作スクリプトを実行して応答します。イベント発生の条件およびイベントに対する応答は、すべて設定することができます。

edd(1M) は、イベント管理のメカニズムを提供するだけであり、イベントの検出・監視を直接行うわけではありません。イベントの検出は、制御ボードで実行されるイベント監視タスクによって処理されます。edd(1M) は、監視対象のイベントの種類を指定するベクトルをダウンロードして、イベント監視タスクを構成します。イベントの処理は、応答動作スクリプトによって行われます。このスクリプトは、SSP 上で edd(1M) がイベントを検出したときに呼び出されます。

RAS 機能は、相互に協調するいくつかのプログラムによって実現されます。プラットフォーム内の制御ボードは、制御ボードエグゼクティブ (CBE) プログラムを実行します。CBE は Ethernet を介して SSP 上の制御ボードサーバー (cbs(1M)) プログラムと通信します。これらの 2 つのコンポーネントによって、プラットフォームと SSP の間のデータ通信が実現されます。

SSP には、制御ボードサーバーおよび SNMP (Simple Network Management Protocol) エージェントを介して制御ボードへアクセスするための一連のインタフェースが用意されています。edd(1M) は、制御ボードサーバーインタフェースを使用して、制御ボードエグゼクティブ上にイベント検出監視タスクを構成します (図 11-2)。

図 11-2 イベント検出スクリプトのアップロード

Graphic

構成されたイベント検出監視タスクは、プラットフォーム内のさまざまな状態 (環境の状態、シグニチャーブロック、電圧、パフォーマンスデータなど) を調べます。イベント発生の原因となる状態変化が検出されると、適切な情報を収めたイベントメッセージが作成され、SSP で実行されている制御ボードサーバー (cbs(1M)) に送られます。イベントメッセージを受け取った制御ボードサーバーは、イベントを SNMP エージェントに送り、SNMP エージェントは SNMP トラップを生成します (図 11-3)。

図 11-3 イベントの検出と通知

Graphic

SNMP トラップを受け取った edd(1M) は、応答動作を開始するかどうかを決定します。応答動作が必要な場合は、edd(1M) は適切な応答動作スクリプトをサブプロセスとして実行します (図 11-4)。

図 11-4 応答動作

Graphic

応答動作スクリプトの実行中に、同じ種類または関連する種類のイベントメッセージが作成されることがあります。同様のイベントに対する応答動作スクリプトがすでに実行中である場合は、重要性の低いイベントメッセージは無視できます。たとえば、edd(1M) が過熱イベントに対する応答動作スクリプトを実行しているとします。この応答動作スクリプトが実行されているときに、イベント監視スクリプトが別の過熱イベントを検出することがあります。edd(1M) は最初の応答スクリプトが完了するまでは、(最初と同様の過熱状態に対して発生した) 別の過熱イベントには応答しません。応答すべきイベントを必要に応じて取り除くのは、アプリケーション (edd(1M) など) の役割です。イベント処理のサイクルは、この時点で完了します。