다양한 이유로, 정상 작동 중에 mcelog 데몬이 시작되지 않거나 실패할 수 있습니다. 이 문제가 발생하면 호스트에서 CPU 및 메모리 오류 수신과 진단을 중지합니다.
예를 들면 다음과 같습니다.
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32435) is running...
상태가 "running"이어야 합니다. 그렇지 않으면 중지되거나 실패할 수 있습니다.
mcelog가 실행 중이 아니거나 실패한 경우 Oracle Linux FMA mce 모듈이 실패합니다. 올바르게 기능하려면 mcelog 데몬이 제대로 작동해야 합니다.
모든 Fault Manager 모듈의 상태를 나열하려면 다음과 같이 입력합니다.
[root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 failed Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
위의 예에서 mce 모듈은 "failed" 상태입니다. 이는 CPU 또는 메모리 기계 검사 이벤트가 호스트에서 모니터되지 않음을 의미하며, 결과적으로 결함 관리 데이터베이스에 이벤트가 기록되거나 진단할 수 없습니다.
예를 들면 다음과 같습니다.
[root@testserver16 ~]# fmdump -Ve n 21 2014 09:56:05.930589483 ereport.fm.fmd.module nvlist version: 0 version = 0x0 class = ereport.fm.fmd.module detector = (embedded nvlist) nvlist version: 0 version = 0x1 scheme = fmd authority = (embedded nvlist) nvlist version: 0 version = 0x0 system-mfg = unknown system-name = unknown system-part = unknown system-serial = unknown sys-comp-mfg = unknown sys-comp-name = unknown sys-comp-part = unknown sys-comp-serial = unknown server-name = testserver16 host-id = ffffffff990a7a4a (end authority) mod-name = mce mod-version = 1.0 (end detector) ena = 0x3631d6cd9f6c0001 msg = mcelog not running!: client requested that module execution abort errno = 1072 errclass = ereport.fm.fmd.hdl_abort __ttl = 0x1 __tod = 0x52de8a85 0x3777ab2b
위의 예에서 "msg =" 필드에 mcelog가 실행 중이 아니라고 표시되며, 이것이 mce 모듈 실패의 원인입니다.
예를 들면 다음과 같습니다.
[root@testserver16 ~]# service mcelogd start Starting mcelog daemon
예를 들면 다음과 같습니다.
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32498) is running...
[root@testserver16 ~]# fmadm unload mce
이렇게 하면 결함 관리 데이터베이스에서 식별할 수 있는 결함 이벤트가 생성됩니다.
예를 들면 다음과 같습니다.
[root@ban25ts12uut2 ~]# fmadm faulty --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244 FMD-8000-2K Minor Problem Status : solved Diag Engine : fmd-self-diagnosis / 1.0 System Manufacturer : unknown Name : unknown Part_Number : unknown Serial_Number : unknown Host_ID : ffffffff990a7a4a ---------------------------------------- Suspect 1 of 1 : Fault class : defect.sunos.fmd.module Certainty : 100% Affects : fmd:///module/mce Status : faulted and taken out of service Description : A Linux Fault Manager component has experienced an error that required the module to be disabled. Response : The module has been disabled. Events destined for the module will be saved for manual diagnosis. Impact : Automated diagnosis and response for subsequent events associated with this module will not occur. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/FMD-8000-2K for the latest service procedures and policies regarding this diagnosis.
예를 들면 다음과 같습니다.
[root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager [root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 active Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
mce 모듈이 언로드 또는 다시 로드되지 않으면 다음과 같이 Fault Manager를 다시 시작합니다.
[root@testserver16 ~]# service fmd.init restart Stopping fmd: [ OK ] Starting fmd: [ OK ]