Go to main content
Oracle® Linux Fault Management Architecture ソフトウェアユーザーズガイド

印刷ビューの終了

更新: 2015 年 10 月
 
 

mcelog が失敗した場合に fmd を再起動する

さまざまな理由で、通常の動作中に mcelog デーモンが起動しなかったり失敗したりすることがあります。これが発生した場合は、ホストからの CPU とメモリーエラーの受信と診断を停止します。

  1. mcelog デーモンが実行中かどうかを判別します。

    例:

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32435) is running... 

    ステータスは「running」です。そうではない場合は、停止または失敗した可能性があります。

    mcelog が実行中ではないか失敗した場合、Oracle Linux FMA mce モジュールが機能するためには mcelog デーモンが正しく機能している必要があるため、このモジュールは失敗します。

  2. mcelog デーモンが実行中の場合、Oracle Linux FMA モジュールのステータスを確認します。

    すべての Fault Manager モジュールのステータスを表示するには、次のように入力します。

    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     failed  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    上の例では、mce モジュールのステータスは「failed」です。これは、CPU またはメモリーマシンチェックイベントがホストによってモニターされておらず、その結果障害管理データベースに記録または診断されていないことを意味します。

  3. Oracle Linux FMA mce モジュールが失敗した場合、fmdump を使用して失敗の原因を確認します。

    例:

    [root@testserver16 ~]# fmdump -Ve
    
    
    n 21 2014 09:56:05.930589483 ereport.fm.fmd.module
    nvlist version: 0
    	version = 0x0
    	class = ereport.fm.fmd.module
    	detector = (embedded nvlist)
    	nvlist version: 0
    		version = 0x1
    		scheme = fmd
    		authority = (embedded nvlist)
    		nvlist version: 0
    			version = 0x0
    			system-mfg = unknown
    			system-name = unknown
    			system-part = unknown
    			system-serial = unknown
    			sys-comp-mfg = unknown
    			sys-comp-name = unknown
    			sys-comp-part = unknown
    			sys-comp-serial = unknown
    			server-name = testserver16
    			host-id = ffffffff990a7a4a
    		(end authority)
    
    		mod-name = mce
    		mod-version = 1.0
    	(end detector)
    
    	ena = 0x3631d6cd9f6c0001
    	msg = mcelog not running!: client requested that module execution abort
    	errno = 1072
    	errclass = ereport.fm.fmd.hdl_abort
    	__ttl = 0x1
    	__tod = 0x52de8a85 0x3777ab2b

    上の例では、「msg =」フィールドには、mcelog は実行中ではなく、これが mce モジュールの失敗の原因であることが表示されます。

  4. mcelog デーモンが問題であると判別した場合、このデーモンを再起動します。

    例:

    [root@testserver16 ~]# service mcelogd start
    Starting mcelog daemon
  5. mcelog が実行中であることを確認します。

    例:

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32498) is running... 
  6. Oracle Linux FMA mce モジュールをアンロードします。
    [root@testserver16 ~]# fmadm unload mce

    これを行うことで、障害管理データベースで特定できる障害イベントが生成されます。

  7. mce モジュールのアンロードが障害管理データベースで取得されたことを確認します。

    例:

    [root@ban25ts12uut2 ~]# fmadm faulty
    --------------- ------------------------------------  -------------- ---------
    TIME            EVENT-ID                              MSG-ID         SEVERITY
    --------------- ------------------------------------  -------------- ---------
    Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244  FMD-8000-2K    Minor    
    
    Problem Status    : solved
    Diag Engine       : fmd-self-diagnosis / 1.0
    System
        Manufacturer  : unknown
        Name          : unknown
        Part_Number   : unknown
        Serial_Number : unknown
        Host_ID       : ffffffff990a7a4a
    
    ----------------------------------------
    Suspect 1 of 1 :
       Fault class : defect.sunos.fmd.module
       Certainty   : 100%
       Affects     : fmd:///module/mce
       Status      : faulted and taken out of service
    
    Description : A Linux Fault Manager component has experienced an error that
                  required the module to be disabled.
    
    Response    : The module has been disabled.  Events destined for the module
                  will be saved for manual diagnosis.
    
    Impact      : Automated diagnosis and response for subsequent events associated
                  with this module will not occur.
    
    Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
                  Please refer to the associated reference document at
                  http://support.oracle.com/msg/FMD-8000-2K for the latest service
                  procedures and policies regarding this diagnosis.
  8. Oracle Linux FMA mce モジュールをリロードして、実行中であることを確認します。

    例:

    [root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so
    fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager
    
    
    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     active  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    mce モジュールがアンロードまたはリロードされない場合は、次のようにして Fault Manager を再起動します。

    [root@testserver16 ~]# service fmd.init restart
    Stopping fmd:                                              [  OK  ]
    Starting fmd:                                              [  OK  ]