Cuando el daemon de mcelog detecta un error, activa una respuesta que el usuario puede configurar y registra información en el archivo mcelog. Por ejemplo, suponga que la ubicación de la dirección física 0x45a3b50c0 genera un error de lectura de memoria que se puede corregir. Cuando ocurre esto, el daemon de mcelog agrega una entrada a /var/log/mcelog. Por ejemplo:
CPU 8 BANK 3 TSC 0 RIP 00:0 MISC 0x85 ADDR 0x45a3b50c0 <------ address that had the correctable read error STATUS 0x9c000000f00c009f MCGSTATUS 0x7 PROCESSOR 0:0x306f1 TIME 1389814624 SOCKETID 0 APICID 18 MCGCAP 0x7000c16
También se envía un mensaje al log del sistema (/var/log/messages), donde se describe el problema (el recuento de errores superó el umbral) y la acción realizada (desconexión de la página), por ejemplo:
1 Jan 15 14:37:04 testserver16 kernel: Machine check poll done on CPU 8 2 Jan 15 14:37:04 testserver16 mcelog: Family 6 Model 3f CPU: only decoding architectural errors 3 Jan 15 14:37:04 testserver16 mcelog: corrected Socket memory error count exceeded threshold: 1 in 24h 4 Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? [] 5 Jan 15 14:37:04 testserver16 mcelog: Corrected memory errors on page 45a3b5000 exceed threshold 1 in 24h: 1 in 24h 6 Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? [] 7 Jan 15 14:37:04 testserver16 mcelog: Running trigger `page-error-trigger' 8 Jan 15 14:37:04 testserver16 mcelog: Offlining page 45a3b5000
El mensaje de la línea 5 indica que el umbral de errores que se pueden corregir se estableció en 1 cada 24 horas. Dado que se superó el umbral, la acción realizada fue retirar de servicio la página 0x45a3b5000. Esto se indica mediante el mensaje "Offlining page" (Desconexión de página) de la línea 8 del log del sistema. Se asigna una nueva página al proceso que encontró el error corregible o se detiene el proceso, según el valor de "memory-ce-action" de la sección "page" del archivo mcelog.conf.
Además de la desconexión de la página, si la DIMM correspondiente a la dirección con errores supera el umbral programado de fábrica para la DIMM, el SP genera un fallo que se reenvía al host y se registra como parte de la base de datos de gestión de fallos.
A menudo, la primera interacción con el daemon del gestor de fallos es un mensaje del sistema que indica que se ha diagnosticado un fallo o defecto. Los mensajes se envían tanto a la consola como al archivo /var/log/messages. Todos los mensajes del daemon del gestor de fallos utilizan el siguiente formato:
1 SUNW-MSG-ID: SPX86A-8002-30, TYPE: Fault, VER: 1, SEVERITY: Minor 2 EVENT-TIME: Wed Nov 27 10:36:30 PST 2013 3 PLATFORM: SUN SERVER X4-4, CSN: -, HOSTNAME: testserver16 4 SOURCE: fdd, REV: 1.0 5 EVENT-ID: eed2208e-2dcf-40c9-9bab-ab3a13e94182 6 DESC: A processor has detected multiple memory controller correctable errors. 8 AUTO-RESPONSE: The affected processor will be disabled at the next system boot 9 and remain unavailable until repaired. 10 The chassis wide and processor service-required LED's are illuminated. 11 IMPACT: The system will continue to operate in the presence of this 12 fault. 13 System performance may be impacted due to disabled processor. 14 REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this 15 event. Please refer to the associated reference document at 16 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service procedures and 17 policies regarding this diagnosis.
Cuando se le notifica de un problema diagnosticado, siempre consulte el artículo informativo de Oracle para obtener detalles adicionales. Consulte la línea 16 que se muestra más arriba para ver un ejemplo. El artículo informativo puede contener acciones adicionales que usted o un proveedor de servicios deben realizar aparte de las mencionadas en la línea 14.
La notificación de eventos también se puede configurar en Oracle ILOM mediante el protocolo simple de gestión de red (SNMP) o el protocolo simple de transferencia de correo (SMTP). Consulte la documentación de Oracle ILOM en: http://www.oracle.com/goto/ILOM/docs.
Además, Auto Service Request de Oracle se puede configurar para solicitar automáticamente a Oracle servicios de recursos de telemetría admitidos (como Oracle ILOM) cuando se producen problemas de hardware específicos. Consulte la Oracle Auto Service Request product page para obtener información sobre esta función. El enlace de documentación en esta página proporciona enlaces a la Guía de instalación rápida de ASR de Oracle y a la Guía de operaciones e instalación de ASR de Oracle.