Go to main content
Oracle® Solaris 11.3 での障害、欠陥、およびアラートの管理

印刷ビューの終了

更新: 2015 年 10 月
 
 

障害管理の概要

Oracle Solaris の障害管理機能には、次のコンポーネントが含まれています。

  • 耐障害性のあるエラーハンドラを構築するためのアーキテクチャー

  • 構造化された遠隔測定

  • 自動化された診断ソフトウェア

  • 応答エージェント

  • 構造化されたメッセージング

障害管理には、CPU、メモリー、I/O の各サブシステム、Oracle Solaris ZFS、多数のデバイスドライバなど、ソフトウェアスタックの多くの部分が関与します。

FMA は、障害、欠陥、およびアラートを診断して管理できます。

  • 障害 – 障害とは、以前機能していた何かが機能しなくなるタイプの問題です。障害は通常、障害が発生したハードウェアコンポーネントを表しています。

  • 欠陥 – 欠陥とは、何かが機能したことがないタイプの問題です。欠陥は通常、ソフトウェアコンポーネントを表しています。

  • アラート – アラートは障害でも欠陥でもありません。アラートは問題を表しているか、単なる情報である場合があります。

ソフトウェアのほとんどの問題は欠陥であるか、または構成上の問題が原因です。障害管理サービスとシステムサービスは、頻繁に相互にやりとりします。たとえば、ハードウェアの問題が原因で、サービスが停止されたり、再起動されたりすることがあります。SMF サービスのエラーが原因で、FMA が欠陥を報告することもあります。

障害管理アーキテクチャー

障害管理スタックには、エラー検出機能と監視検出機能、診断エンジン、および応答エージェントが含まれています。

エラー検出機能

エラー検出機能はシステム内のエラーを検出し、必要な対応をただちに実行します。エラー検出機能は、明確なエラーレポート (ereport) または情報レポート (ireport) を診断エンジンに発行します。

監視検出機能

監視検出機能は、障害の症状でも欠陥の症状でもないシステムの状況を報告します。監視検出機能は、明確な情報レポートである ireport を発行し、このレポートは診断エンジンに送信されるか、単にログに記録される場合があります。

診断エンジン

診断エンジンは ereport と ireport を解釈し、障害、欠陥、またはアラートを診断するべきかを判定します。このような判定を行うときに、診断エンジンは問題または状況の原因である可能性があるリソースまたはリソースのセットを示す疑いリストを発行します。リソースには、フィールド交換可能ユニット (FRU)、ラベル、または自動システム再構成ユニット (ASRU) が関連付けられている場合があります。ASRU は、FRU が交換されるまでは問題を軽減するためにサービスからただちに取り除いてもかまいません。リソース、FRU、ラベル、および ASRU の定義については、障害管理の用語集を参照してください。

疑いリストに複数の疑いが含まれる場合 (たとえば、診断エンジンが疑いを 1 つだけに特定できない場合など) は、それぞれの疑いに主要な疑いである確率が割り当てられます。リスト内の確率を合計すると 100% になります。疑いリストは応答エージェントによって解釈されます。

応答エージェント

応答エージェントは、疑いリストに基づいてアクションの実行を試みます。応答には、メッセージの記録、CPU ストランドのオフライン化、メモリーページの取得、I/O デバイスの廃棄などが含まれます。

特定のハードウェア障害が発生した場合、Oracle Auto Service Request (ASR) は自動的に Oracle サービスリクエストをオープンできます。詳細は、http://www.oracle.com/us/support/auto-service-request/ を参照してください。

エラー検出機能、監視検出機能、診断エンジン、および応答エージェントは、Fault Manager デーモン fmd によって接続されます。fmd は、次の図に示すように、さまざまなコンポーネント間のマルチプレクサとして機能します。

図 1  障害管理アーキテクチャーのコンポーネント

image:Fault Manager デーモン、エラー検出機能、アラート、診断エンジン、および応答エージェント間の関係を示しています。

Fault Manager によって管理される問題または状況のライフサイクル

Fault Manager によって管理される問題または状況のライフサイクルには、次のステージを含めることができます。これらの各ライフサイクル状態の変更は、一意のリストイベントの発行に関連付けられています。

診断

新しい診断が Fault Manager によって行われました。診断には、1 つ以上の疑いからなるリストが含まれています。list.suspect イベントが発行されます。診断はイベントペイロードの UUID で識別され、この診断の解決ライフサイクルを表す追加のイベントには、一致する UUID が使用されます。

隔離

さらなるエラーの発生を防ぐために、疑いが自動的に隔離されました。list.isolated イベントが発行されます。たとえば、CPU またはディスクがオフラインにされました。

更新

問題の診断に含まれていた疑わしいリソースの 1 つ以上が、修復または交換されたか、疑いがなくなったか、あるいはそのリソースに再度障害が発生しました。list.updated イベントが発行されます。疑いリストにはまだ、障害の発生したリソースが少なくとも 1 つ含まれています。fmadm コマンドを実行して修復が行われたか、あるいはシステムが修復 (ある部品のシリアル番号の変更など) を検出した可能性があります。fmadm コマンドについては、Chapter 3, 障害と欠陥の修復およびアラートのクリアを参照してください。

修復

診断に含まれていた疑わしいリソースのすべてが、修復または解決されたか、または疑いがなくなりました。list.repaired イベントが発行されます。それらのリソースの一部またはすべてがまだ隔離されている可能性があります。

解決

診断に含まれていた疑わしいリソースのすべてが修復、解決、または赦免されたため、隔離されなくなりました。list.resolved イベントが発行されます。たとえば、疑いがあってオフラインになっていた CPU は再度オンラインに戻ります。リソースのオフラインとオンラインの切り替えは通常、自動で行われます。

Fault Manager デーモンは、サービス管理機能 (SMF) サービスの 1 つです。svc:/system/fmd サービスはデフォルトで有効になっています。SMF サービスの詳細は、Oracle Solaris 11.3 でのシステムサービスの管理 を参照してください。Fault Manager デーモンの詳細は、fmd(1M) のマニュアルページを参照してください。

fmadm config コマンドは、Fault Manager の各モジュールの名前、説明、およびステータスを示します。これらのモジュールは、リソースを診断して隔離し、通知を生成してシステムの問題を自動修復します。fmstat コマンドは、Fault Manager およびモジュールの統計に示されているように、これらのモジュールに関する追加情報を表示します。

障害管理の用語集

ASRU

自動システム再構成ユニット (ASRU) はリソースに関連付けられており、これは、リソースでの問題の影響を軽減するために無効にできるシステム内のハードウェアまたはソフトウェアコンポーネントです。たとえば、CPU スレッドは、CPU の障害に対応してオフラインにできる ASRU です。また、ASRU は、サービス状態が障害の影響を受けるシステム内のハードウェアまたはソフトウェアコンポーネントであることもあります。ASRU は、fmadm list または fmdump -v の出力の「Affects」フィールドに示されています。

シャーシ

シャーシは FRU に関連付けられていおり、FRU がある場所を示しています。FRU を交換するには、シャーシの場所とそのシャーシ内の FRU の場所を把握している必要があります。シャーシの場所は、メインシステムのシャーシの場合は /SYS、外部シャーシの場合は chassis_name.chassis_serial_number、またはシャーシのユーザー定義の別名です。あとのラベルも参照してください。

診断クラス

診断クラスは、sub-class1.sub-class2...sub-classN 形式の一意の識別子であり、診断に関連付けられた障害、欠陥、またはアラートイベントのタイプを一意に識別します。診断クラスは問題クラスとも呼ばれます。

FMRI

障害管理リソース識別子 (FMRI) は、リソース、FRU、および ASRU を識別するために使用されます。FMRI には、スキームとスキーム固有の構文があります。詳細は、fmri(5) を参照してください。fmdump -v コマンドを使用して FMRI を確認できます。

FRU

フィールド交換可能ユニット (FRU) はリソースに関連付けられており、これは、問題を修正するために交換または修復できるシステム内のハードウェアまたはソフトウェアコンポーネントです。たとえば、CPU モジュールは、CPU の障害に対応して交換できる FRU です。

ラベル

ラベルは FRU に関連付けられており、シャーシ内の特定の FRU を検出するために使用できるハードウェアの物理的なマーキングを識別します。前述のシャーシも参照してください。fmdump および fmadm list コマンド出力の「Location」フィールドには、シャーシとラベルの組み合わせまたは場合によってはラベルの階層セットである /dev/chassis パスが示されます。Chapter 2, 障害、欠陥、およびアラート情報の表示の例で「Location」フィールドを参照してください。/dev/chassis パスの詳細は、devchassis(7FS) のマニュアルページを参照してください。

リソース

リソースは、診断を行うことができるシステム内の物理エンティティーまたは抽象エンティティーです。