Go to main content
Oracle® Hardware Management Pack 2.4 Linux Fault Management Architecture ソフトウェアユーザーズガイド

印刷ビューの終了

更新: 2017 年 4 月
 
 

障害および欠陥の通知

mcelog デーモンは、エラーを検出すると、構成可能な応答を起動して、mcelog ファイルに情報を記録します。たとえば、物理アドレスの場所 0x45a3b50c0 で訂正可能なメモリー読み取りエラーが生成されたとします。これが発生すると、mcelog デーモンはエントリを /var/log/mcelog に追加します。例:

CPU 8
BANK 3
TSC 0
RIP 00:0
MISC 0x85
ADDR 0x45a3b50c0    <------ address that had the correctable read error
STATUS 0x9c000000f00c009f
MCGSTATUS 0x7
PROCESSOR 0:0x306f1
TIME 1389814624
SOCKETID 0
APICID 18
MCGCAP 0x7000c16

また、次のような問題 (しきい値を超えたエラー数) および行われた作業 (ページのオフライン化) を説明するメッセージがシステムログ (/var/log/messages) に送信されます。

1  Jan 15 14:37:04 testserver16 kernel: Machine check poll done on CPU 8
2  Jan 15 14:37:04 testserver16 mcelog: Family 6 Model 3f CPU: only decoding 
architectural errors
3  Jan 15 14:37:04 testserver16 mcelog: corrected Socket memory error count 
exceeded threshold: 1 in 24h
4  Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? []
5  Jan 15 14:37:04 testserver16 mcelog: Corrected memory errors on page 45a3b5000 
exceed threshold 1 in 24h: 1 in 24h
6  Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? []
7  Jan 15 14:37:04 testserver16 mcelog: Running trigger `page-error-trigger'
8  Jan 15 14:37:04 testserver16 mcelog: Offlining page 45a3b5000

5 行目のメッセージは、訂正可能なエラーしきい値が 24 時間後に 1 つのエラーに設定されたことを示しています。このしきい値を超えたため、行われたアクションは、サービスからのページ 0x45a3b5000 の削除でした。これは、システムログ内の「Offlining page」メッセージ (8 行目) に示されています。訂正可能なエラーを検出するプロセスは、mcelog.conf ファイルの「page」セクション内の「memory-ce-action」値に応じて、新しいページが割り当てられるか、または強制終了されます。

障害が発生したアドレスに対応する DIMM が出荷時にプログラムされた DIMM しきい値を超えた場合は、ページがオフラインになるだけでなく、ホストに転送されて障害管理データベースの一部として記録される障害が SP で発生します。

多くの場合、Fault Manager デーモンとの最初のやりとりは、障害または欠陥が診断されたことを示すシステムメッセージです。メッセージは、コンソールと /var/log/messages ファイルの両方に送信されます。Fault Manager デーモンからのすべてのメッセージで、次の形式が使用されます。

1    SUNW-MSG-ID: SPX86A-8002-30, TYPE: Fault, VER: 1, SEVERITY: Minor
2    EVENT-TIME: Wed Nov 27 10:36:30 PST 2013
3    PLATFORM: SUN SERVER X4-4, CSN: -, HOSTNAME: testserver16
4    SOURCE: fdd, REV: 1.0
5    EVENT-ID: eed2208e-2dcf-40c9-9bab-ab3a13e94182
6    DESC: A processor has detected multiple memory controller correctable
     errors.
8    AUTO-RESPONSE: The affected processor will be disabled at the next system boot
9    and remain unavailable until repaired.  
10   The chassis wide and processor service-required LED's are illuminated.
11   IMPACT: The system will continue to operate in the presence of this
12   fault.
13   System performance may be impacted due to disabled processor.
14   REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this 
15   event. Please refer to the associated reference document at 
16   http://support.oracle.com/msg/SUN4V-8001-8H for the latest service procedures and 
17   policies regarding this diagnosis.

診断された問題が通知されたら、必ず推奨された Oracle ナレッジ記事で詳細を参照してください。例については、上記の 16 行目を参照してください。ナレッジ記事には、14 行目に表示されているアクション以外にユーザーまたはサービスプロバイダが行うべき追加のアクションが記載されていることがあります。

また、Simple Network Management Protocol (SNMP) または Simple Mail Transfer Protocol (SMTP) を使用して、Oracle ILOM でイベントの通知を構成できます。Oracle ILOM ドキュメント (http://www.oracle.com/goto/ILOM/docs) を参照してください

さらに、サポートされる遠隔監視リソース (Oracle ILOM など) から特定のハードウェアの問題が発生した場合に、Oracle サービスを自動的にリクエストするように Oracle Auto Service Request を構成できます。この機能については、Oracle Auto Service Request の製品ページを参照してください。このページのドキュメントリンクを開くと、Oracle ASR のクイックインストールガイドOracle ASR のインストールと操作のガイドへのリンクがあります。