Fault Management Architecture の用語
次の表では、このドキュメントで使用する Fault Management Architecture の用語について説明します。
|
|
CRU
|
CRU は、顧客交換可能ユニット (メモリー DIMM など) です。
|
診断エンジン
|
Oracle Linux FMA は、サービスプロセッサにある診断エンジンを使用して、mcelog によって生成されるものを含め、ハードウェアイベントの ereport を処理します。Oracle ILOM の障害管理アーキテクチャーでサポートされる診断エンジンのリストについては、Oracle ILOM のドキュメントを参照してください。
|
エラーレポート (Ereport)
|
エラーレポートにはエラーイベントが記録されます。これらには、Fault Manager がエラーを診断して適切な障害診断メッセージを作成できるように、raw デバイスとエラータイプ情報が含まれています。
|
障害
|
障害とは、ハードウェアコンポーネントが存在するものの、Fault Manager によって 1 つ以上の問題が診断されたために使用できないか機能が低下していることを示します。システムに対する追加の損害を回避するために、コンポーネントは無効にされています。
|
障害ケース
|
問題の診断時に、Fault Manager は、問題を参照するケース ID (UUID によって表される) が含まれる障害診断メッセージをログに記録します。
|
FRU
|
FRU はフィールド交換可能ユニット (プロセッサなど) です。
|
ラベル
|
システムのマザーボードにあるプロセッサ #1 を表す「/SYS/MB/P1」などの場所の文字列 (FRU とも呼ばれます)。引用符で囲まれた値は、物理ハードウェア上にあるラベル、または Oracle ILOM での表示時のラベルと一致させるためのものです。
|
マシンチェックイベント
|
ハードウェアによって報告され、OS に報告されたプラットフォームエラー。報告されるエラーは、訂正可能であることも、訂正不可能であることも、回復可能であることも、致命的であることもあります。Linux では、mcelog はこれらのエラーを取得します。
|
mcelog
|
mcelog は、x86 Linux システムでのエラー処理と予測的障害分析を提供します。mcelog デーモンは、CPU およびメモリーマシンチェックイベントを処理して、構成可能なエラーしきい値に基づいてアクションを実行します。不正なメモリーページのリタイア、CPU コアのオフライン化、キャッシュエラーの自動処理などのさまざまなアクションを構成できます。ユーザー定義のアクションも構成できます。
Oracle Linux FMA は、mcelog によって処理されて mcelog ログファイルに格納されるエラーを取得して、標準の Oracle 障害形式に変換し、ホストと Oracle ILOM の両方で使用可能な同期された障害管理データベースに追加します。
|
ページのリタイア
|
可能な場合は、障害のある物理メモリーの場所に対応する OS メモリーページがサービスから削除される、新しい Linux OS のカーネル機能。この機能は、システムの可用性を向上させるために役立ちます。
|
予防自己修復
|
予防自己修復とは、ソフトウェアとハードウェアの障害条件の診断、レポート、および処理を自動的に行うための障害管理アーキテクチャーと手法です。予防自己修復によって、ハードウェアまたはソフトウェアの問題をデバッグするために必要な時間が削減され、各障害の詳細データがシステム管理者または Oracle の保守担当者に提供されます。アーキテクチャーは、Linux mcelog イベント管理プロトコル、Fault Manager、およびホスト OS から標準の FMA 障害ケースに対して受信したエラーを処理するサービスプロセッサベースの診断エンジンで構成されます。
|
サービスプロセッサ (SP)
|
ほとんどの Oracle サーバーには、強力な予算編成と制御、システムの健全性のモニタリング、エラーのレポートや障害診断を含む FMA のアクティビティーなどのシャーシ機能を制御するサービスプロセッサが付属しています。
|
汎用一意識別子 (UUID)
|
UUID は、任意のシステムのセット全体で問題を一意に識別するために使用されます。
|
|