ナビゲーションリンクをスキップ | |
印刷ビューの終了 | |
Oracle Solaris 11.1 でのサービスと障害の管理 Oracle Solaris 11.1 Information Library (日本語) |
Oracle Solaris の障害管理機能は、耐障害性のあるエラーハンドラ、構造化されたエラー遠隔測定、自動化された診断ソフトウェア、応答エージェント、および構造化されたメッセージングを構築するためのアーキテクチャーを備えています。障害管理には、CPU、メモリー、I/O の各サブシステム、Oracle Solaris ZFS、増え続ける一連のデバイスドライバ、その他の管理スタックなど、ソフトウェアスタックの多くの部分が関与します。
FMA の目的は、Oracle Solaris システム上で発生する問題の解決を支援することです。問題は、以前機能していた何かが機能しなくなったことを意味する障害である場合があります。問題は、一度も正しく機能しなかったことを意味する欠陥である場合もあります。一般に、ハードウェアには障害と欠陥の両方が発生する可能性があります。しかし、ソフトウェアのほとんどの問題は欠陥であるか、または構成上の問題が原因です。
高レベルの障害管理スタックには、エラー検出機能、診断エンジン、および応答エージェントが含まれています。エラー検出機能は、その名前が示すように、システム内のエラーを検出し、必要な対応をただちに実行します。エラー検出機能は、明確に定義されたエラーレポート (ereport) を診断エンジンに対して発行します。診断エンジンは、ereport を解釈し、システムに障害や欠陥が存在するかどうかを判定します。このような判定を行うときに、診断エンジンは問題の原因である可能性があるリソースまたはリソースのセットを示す疑いリストを発行します。リソースには、現場交換可能ユニット (FRU)、ラベル、または自動システム再構成ユニット (ASRU) が関連付けられている場合と、関連付けられていない場合があります。ASRU は、FRU が交換されるまでは問題を軽減するためにサービスからただちに取り除いてもかまいません。
疑いリストに複数の疑いが含まれる場合 (たとえば、診断エンジンが疑いを 1 つだけに特定できない場合など) は、それぞれの疑いに主要な疑いである確率が割り当てられます。リスト内の確率を合計すると 100 パーセントになります。疑いリストは応答エージェントによって解釈されます。応答エージェントは、疑いリストに基づいていくつかの操作を試行します。応答には、メッセージの記録、CPU ストランドのオフライン化、メモリーページの取得、I/O デバイスの廃棄などが含まれます。
エラー検出機能、診断エンジン、および応答エージェントは、障害管理デーモン fmd によって接続されます。fmd は、次の図に示すように、さまざまなコンポーネント間のマルチプレクサとして機能します。
障害管理デーモンは、それ自体が SMF の制御下にあるサービスです。このサービスはデフォルトで有効になっており、ほかの SMF サービスと同じように制御されます。詳細は、smf(5) のマニュアルページを参照してください。
FMA サービスと SMF サービスは、必要に応じて相互にやりとりします。一部のハードウェアの問題が原因で、SMF がサービスを停止したり、再起動したりすることがあります。また、一部の SMF エラーが原因で、FMA が欠陥を報告することもあります。