mcelog 데몬에서 오류가 발생하면 구성 가능한 응답을 트리거하고 mcelog 파일에 정보를 기록합니다. 예를 들어, 물리적 주소 위치 0x45a3b50c0에 수정 가능한 메모리 로드 오류가 발생한다고 가정해 보겠습니다. 이 문제가 발생하면 mcelog 데몬은 /var/log/mcelog에 항목을 추가합니다. 예를 들면 다음과 같습니다.
CPU 8 BANK 3 TSC 0 RIP 00:0 MISC 0x85 ADDR 0x45a3b50c0 <------ address that had the correctable read error STATUS 0x9c000000f00c009f MCGSTATUS 0x7 PROCESSOR 0:0x306f1 TIME 1389814624 SOCKETID 0 APICID 18 MCGCAP 0x7000c16
다음과 같이 문제 원인(오류 개수가 임계값을 초과함)과 수행 조치(페이지 오프라인 전환)를 설명하는 메시지가 시스템 로그(/var/log/messages)로 전송됩니다.
1 Jan 15 14:37:04 testserver16 kernel: Machine check poll done on CPU 8 2 Jan 15 14:37:04 testserver16 mcelog: Family 6 Model 3f CPU: only decoding architectural errors 3 Jan 15 14:37:04 testserver16 mcelog: corrected Socket memory error count exceeded threshold: 1 in 24h 4 Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? [] 5 Jan 15 14:37:04 testserver16 mcelog: Corrected memory errors on page 45a3b5000 exceed threshold 1 in 24h: 1 in 24h 6 Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? [] 7 Jan 15 14:37:04 testserver16 mcelog: Running trigger `page-error-trigger' 8 Jan 15 14:37:04 testserver16 mcelog: Offlining page 45a3b5000
5행의 메시지는 수정 가능한 오류 임계값이 24시간 동안 오류 1개로 설정되었음을 나타냅니다. 이 임계값을 초과했으므로 수행 조치는 0x45a3b5000 페이지를 서비스에서 제거하는 것입니다. 이는 시스템 로그에 "Offlining page" 메시지(8행)로 나타납니다. mcelog.conf 파일에 있는 "page" 섹션의 "memory-ce-action" 값에 따라 수정 가능 오류가 발생한 프로세스에 새 페이지가 지정되거나 해당 프로세스가 중단됩니다.
페이지 오프라인 전환 외에도, 실패한 주소에 해당하는 DIMM이 공장에서 프로그래밍한 DIMM 임계값을 초과한 경우 SP가 결함을 생성하면 호스트에 전달되어 결함 관리 데이터베이스의 일부로 기록됩니다.
대개 Fault Manager 데몬과의 첫번째 상호 작용은 고장 또는 결함이 진단되었다는 것을 나타내는 시스템 메시지입니다. 메시지는 콘솔 및 /var/log/messages 파일 모두에 보내집니다. Fault Manager 데몬의 모든 메시지에는 다음 형식이 사용됩니다.
1 SUNW-MSG-ID: SPX86A-8002-30, TYPE: Fault, VER: 1, SEVERITY: Minor 2 EVENT-TIME: Wed Nov 27 10:36:30 PST 2013 3 PLATFORM: SUN SERVER X4-4, CSN: -, HOSTNAME: testserver16 4 SOURCE: fdd, REV: 1.0 5 EVENT-ID: eed2208e-2dcf-40c9-9bab-ab3a13e94182 6 DESC: A processor has detected multiple memory controller correctable errors. 8 AUTO-RESPONSE: The affected processor will be disabled at the next system boot 9 and remain unavailable until repaired. 10 The chassis wide and processor service-required LED's are illuminated. 11 IMPACT: The system will continue to operate in the presence of this 12 fault. 13 System performance may be impacted due to disabled processor. 14 REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this 15 event. Please refer to the associated reference document at 16 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service procedures and 17 policies regarding this diagnosis.
진단된 문제에 대한 통지가 전송된 경우 항상 권장되는 Oracle 기술 자료 문서에서 자세한 내용을 확인해야 합니다. 예는 위의 16행을 참조하십시오. 기술 자료 문서에는 14행에 나열된 것 외에 사용자 또는 서비스 공급자가 수행해야 하는 추가 작업이 포함될 수 있습니다.
SNMP(Simple Network Management Protocol) 또는 SMTP(Simple Mail Transfer Protocol)를 사용하여 Oracle ILOM에서도 이벤트 알림을 구성할 수 있습니다. Oracle ILOM 설명서를 http://www.oracle.com/goto/ILOM/docs에서 참조하십시오.
또한 Oracle ILOM과 같이 지원되는 원격 측정 리소스에서 특정 하드웨어 문제가 발생한 경우 Oracle 서비스를 자동으로 요청하도록 Oracle Auto Service Request를 구성할 수 있습니다. 이 기능에 대한 자세한 내용은 Oracle Auto Service Request 제품 페이지를 참조하십시오. 이 페이지의 설명서 링크에는 Oracle ASR Quick Installation Guide 및 Oracle ASR Installation and Operations Guide에 대한 링크가 제공됩니다.