さまざまな理由で、通常の動作中に mcelog デーモンが起動しなかったり失敗したりすることがあります。これが発生した場合は、ホストからの CPU とメモリーエラーの受信と診断を停止します。
例:
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32435) is running...
ステータスは「running」です。そうではない場合は、停止または失敗した可能性があります。
mcelog が実行中ではないか失敗した場合、Oracle Linux FMA mce モジュールが機能するためには mcelog デーモンが正しく機能している必要があるため、このモジュールは失敗します。
すべての Fault Manager モジュールのステータスを表示するには、次のように入力します。
[root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 failed Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
上の例では、mce モジュールのステータスは「failed」です。これは、CPU またはメモリーマシンチェックイベントがホストによってモニターされておらず、その結果障害管理データベースに記録または診断されていないことを意味します。
例:
[root@testserver16 ~]# fmdump -Ve n 21 2014 09:56:05.930589483 ereport.fm.fmd.module nvlist version: 0 version = 0x0 class = ereport.fm.fmd.module detector = (embedded nvlist) nvlist version: 0 version = 0x1 scheme = fmd authority = (embedded nvlist) nvlist version: 0 version = 0x0 system-mfg = unknown system-name = unknown system-part = unknown system-serial = unknown sys-comp-mfg = unknown sys-comp-name = unknown sys-comp-part = unknown sys-comp-serial = unknown server-name = testserver16 host-id = ffffffff990a7a4a (end authority) mod-name = mce mod-version = 1.0 (end detector) ena = 0x3631d6cd9f6c0001 msg = mcelog not running!: client requested that module execution abort errno = 1072 errclass = ereport.fm.fmd.hdl_abort __ttl = 0x1 __tod = 0x52de8a85 0x3777ab2b
上の例では、「msg =」フィールドには、mcelog は実行中ではなく、これが mce モジュールの失敗の原因であることが表示されます。
例:
[root@testserver16 ~]# service mcelogd start Starting mcelog daemon
例:
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32498) is running...
[root@testserver16 ~]# fmadm unload mce
これを行うことで、障害管理データベースで特定できる障害イベントが生成されます。
例:
[root@ban25ts12uut2 ~]# fmadm faulty --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244 FMD-8000-2K Minor Problem Status : solved Diag Engine : fmd-self-diagnosis / 1.0 System Manufacturer : unknown Name : unknown Part_Number : unknown Serial_Number : unknown Host_ID : ffffffff990a7a4a ---------------------------------------- Suspect 1 of 1 : Fault class : defect.sunos.fmd.module Certainty : 100% Affects : fmd:///module/mce Status : faulted and taken out of service Description : A Linux Fault Manager component has experienced an error that required the module to be disabled. Response : The module has been disabled. Events destined for the module will be saved for manual diagnosis. Impact : Automated diagnosis and response for subsequent events associated with this module will not occur. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/FMD-8000-2K for the latest service procedures and policies regarding this diagnosis.
例:
[root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager [root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 active Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
mce モジュールがアンロードまたはリロードされない場合は、次のようにして Fault Manager を再起動します。
[root@testserver16 ~]# service fmd.init restart Stopping fmd: [ OK ] Starting fmd: [ OK ]