Go to main content
Oracle® Linux Fault Management Architecture 소프트웨어 사용 설명서

인쇄 보기 종료

업데이트 날짜: 2015년 10월
 
 

mcelog가 실패할 경우 다시 시작

다양한 이유로, 정상 작동 중에 mcelog 데몬이 시작되지 않거나 실패할 수 있습니다. 이 문제가 발생하면 호스트에서 CPU 및 메모리 오류 수신과 진단을 중지합니다.

  1. mcelog 데몬이 실행 중인지 확인합니다.

    예를 들면 다음과 같습니다.

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32435) is running... 

    상태가 "running"이어야 합니다. 그렇지 않으면 중지되거나 실패할 수 있습니다.

    mcelog가 실행 중이 아니거나 실패한 경우 Oracle Linux FMA mce 모듈이 실패합니다. 올바르게 기능하려면 mcelog 데몬이 제대로 작동해야 합니다.

  2. mcelog 데몬이 실행 중인 경우 Oracle Linux FMA 모듈의 상태를 확인합니다.

    모든 Fault Manager 모듈의 상태를 나열하려면 다음과 같이 입력합니다.

    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     failed  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    위의 예에서 mce 모듈은 "failed" 상태입니다. 이는 CPU 또는 메모리 기계 검사 이벤트가 호스트에서 모니터되지 않음을 의미하며, 결과적으로 결함 관리 데이터베이스에 이벤트가 기록되거나 진단할 수 없습니다.

  3. Oracle Linux FMA mce 모듈이 실패한 경우 fmdump를 사용하여 실패 원인을 확인합니다.

    예를 들면 다음과 같습니다.

    [root@testserver16 ~]# fmdump -Ve
    
    
    n 21 2014 09:56:05.930589483 ereport.fm.fmd.module
    nvlist version: 0
    	version = 0x0
    	class = ereport.fm.fmd.module
    	detector = (embedded nvlist)
    	nvlist version: 0
    		version = 0x1
    		scheme = fmd
    		authority = (embedded nvlist)
    		nvlist version: 0
    			version = 0x0
    			system-mfg = unknown
    			system-name = unknown
    			system-part = unknown
    			system-serial = unknown
    			sys-comp-mfg = unknown
    			sys-comp-name = unknown
    			sys-comp-part = unknown
    			sys-comp-serial = unknown
    			server-name = testserver16
    			host-id = ffffffff990a7a4a
    		(end authority)
    
    		mod-name = mce
    		mod-version = 1.0
    	(end detector)
    
    	ena = 0x3631d6cd9f6c0001
    	msg = mcelog not running!: client requested that module execution abort
    	errno = 1072
    	errclass = ereport.fm.fmd.hdl_abort
    	__ttl = 0x1
    	__tod = 0x52de8a85 0x3777ab2b

    위의 예에서 "msg =" 필드에 mcelog가 실행 중이 아니라고 표시되며, 이것이 mce 모듈 실패의 원인입니다.

  4. mcelog 데몬에 문제가 있음을 확인했으면 데몬을 다시 시작합니다.

    예를 들면 다음과 같습니다.

    [root@testserver16 ~]# service mcelogd start
    Starting mcelog daemon
  5. mcelog가 실행 중인지 확인합니다.

    예를 들면 다음과 같습니다.

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32498) is running... 
  6. Oracle Linux FMA mce 모듈을 언로드합니다.
    [root@testserver16 ~]# fmadm unload mce

    이렇게 하면 결함 관리 데이터베이스에서 식별할 수 있는 결함 이벤트가 생성됩니다.

  7. mce 모듈 언로드가 결함 관리 데이터베이스에 캡처되는지 확인합니다.

    예를 들면 다음과 같습니다.

    [root@ban25ts12uut2 ~]# fmadm faulty
    --------------- ------------------------------------  -------------- ---------
    TIME            EVENT-ID                              MSG-ID         SEVERITY
    --------------- ------------------------------------  -------------- ---------
    Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244  FMD-8000-2K    Minor    
    
    Problem Status    : solved
    Diag Engine       : fmd-self-diagnosis / 1.0
    System
        Manufacturer  : unknown
        Name          : unknown
        Part_Number   : unknown
        Serial_Number : unknown
        Host_ID       : ffffffff990a7a4a
    
    ----------------------------------------
    Suspect 1 of 1 :
       Fault class : defect.sunos.fmd.module
       Certainty   : 100%
       Affects     : fmd:///module/mce
       Status      : faulted and taken out of service
    
    Description : A Linux Fault Manager component has experienced an error that
                  required the module to be disabled.
    
    Response    : The module has been disabled.  Events destined for the module
                  will be saved for manual diagnosis.
    
    Impact      : Automated diagnosis and response for subsequent events associated
                  with this module will not occur.
    
    Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
                  Please refer to the associated reference document at
                  http://support.oracle.com/msg/FMD-8000-2K for the latest service
                  procedures and policies regarding this diagnosis.
  8. Oracle Linux FMA mce 모듈을 다시 로드하고 실행 중인지 확인합니다.

    예를 들면 다음과 같습니다.

    [root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so
    fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager
    
    
    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     active  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    mce 모듈이 언로드 또는 다시 로드되지 않으면 다음과 같이 Fault Manager를 다시 시작합니다.

    [root@testserver16 ~]# service fmd.init restart
    Stopping fmd:                                              [  OK  ]
    Starting fmd:                                              [  OK  ]