Oracle® Solaris 11.2 での障害の管理

印刷ビューの終了

更新: 2014 年 7 月
 
 

障害管理の概要

Oracle Solaris の障害管理機能には、次のコンポーネントが含まれています。

  • 耐障害性のあるエラーハンドラを構築するためのアーキテクチャー

  • 構造化されたエラー遠隔測定

  • 自動化された診断ソフトウェア

  • 応答エージェント

  • 構造化されたメッセージング

障害管理には、CPU、メモリー、I/O の各サブシステム、Oracle Solaris ZFS、多数のデバイスドライバなど、ソフトウェアスタックの多くの部分が関与します。

FMA は障害と欠陥の両方に役立ちます。

  • 障害 – 障害の発生したコンポーネントとは、以前は機能していたが、今は機能しなくなったコンポーネントです。

  • 欠陥 - 欠陥のあるコンポーネントとは、今までに正しく機能したことがないコンポーネントです。

ハードウェアでは障害と欠陥の両方が検出される可能性があります。ソフトウェアのほとんどの問題は欠陥であるか、または構成上の問題が原因です。障害管理サービスとシステムサービスは、頻繁に相互にやりとりします。たとえば、ハードウェアの問題が原因で、サービスが停止されたり、再起動されたりすることがあります。SMF サービスのエラーが原因で、FMA が欠陥を報告することもあります。

障害管理スタックには、エラー検出機能、診断エンジン、および応答エージェントが含まれています。

エラー検出機能

エラー検出機能はシステム内のエラーを検出し、必要な対応をただちに実行します。エラー検出機能は、明確に定義されたエラーレポート (ereport) を診断エンジンに対して発行します。

診断エンジン

診断エンジンは ereport を解釈し、システムに障害や欠陥が存在するかどうかを判定します。このような判定を行うときに、診断エンジンは問題の原因である可能性があるリソースまたはリソースのセットを示す疑いリストを発行します。リソースには、フィールド交換可能ユニット (FRU)、ラベル、または自動システム再構成ユニット (ASRU) が関連付けられている場合があります。ASRU は、FRU が交換されるまでは問題を軽減するためにサービスからただちに取り除いてもかまいません。

疑いリストに複数の疑いが含まれる場合 (たとえば、診断エンジンが疑いを 1 つだけに特定できない場合など) は、それぞれの疑いに主要な疑いである確率が割り当てられます。リスト内の確率を合計すると 100% になります。疑いリストは応答エージェントによって解釈されます。

応答エージェント

応答エージェントは、疑いリストに基づいてアクションの実行を試みます。応答には、メッセージの記録、CPU ストランドのオフライン化、メモリーページの取得、I/O デバイスの廃棄などが含まれます。

エラー検出機能、診断エンジン、および応答エージェントは、障害管理デーモン fmd によって接続されます。fmd は、次の図に示すように、さまざまなコンポーネント間のマルチプレクサとして機能します。

図 1-1  障害管理アーキテクチャーのコンポーネント

image:Fault Manager デーモン、エラー検出機能、診断エンジン、および応答エージェント間の関係を示しています。

Fault Manager によって管理される問題のライフサイクルには、次のステージを含めることができます。

診断

Fault Manager によって新しい問題が診断されました。診断には、1 つ以上の疑いからなるリストが含まれています。さらなるエラーの発生を防ぐために、疑いが自動的に隔離された可能性があります。問題はイベントペイロードの UUID で識別されます。この問題の解決ライフサイクルを表す追加のイベントには、一致する UUID が使用されます。

更新

問題の診断に含まれていた疑わしいリソースの 1 つ以上が、修復または交換されたか、疑いがなくなったか、あるいはそのリソースに再度障害が発生しました。疑いリストにはまだ、障害の発生したリソースが少なくとも 1 つ含まれています。fmadm コマンドを実行して修復が行われたか、あるいはシステムが修復 (ある部品のシリアル番号の変更など) を検出した可能性があります。fmadm コマンドについては、Chapter 3, 障害の修復を参照してください。

修復

問題の診断に含まれていた疑わしいリソースのすべてが修復または解決されたか、疑いがなくなりました。それらのリソースの一部またはすべてがまだ隔離されている可能性があります。

解決

問題の診断に含まれていた疑わしいリソースのすべてが修復または解決されたか、疑いがなくなったため、隔離されなくなりました。たとえば、疑いがあってオフラインになっていた CPU は再度オンラインに戻ります。リソースのオフラインとオンラインの切り替えは通常、自動で行われます。

Fault Manager デーモンは、サービス管理機能 (SMF) サービスの 1 つです。svc:/system/fmd サービスはデフォルトで有効になっています。SMF サービスの詳細は、Oracle Solaris 11.2 でのシステムサービスの管理 を参照してください。Fault Manager デーモンの詳細は、fmd(1M) のマニュアルページを参照してください。

fmadm config コマンドは、Fault Manager の各モジュールの名前、説明、およびステータスを示します。これらのモジュールは、システムの問題を診断および修復します。fmstat コマンドは、障害の統計情報に示されたように、これらのモジュールに関する追加情報を表示します。