Por diferentes motivos, es posible que el daemon de mcelog no se inicie o falle durante el funcionamiento normal. Si ocurre esto, dejará de recibir y de diagnosticar los errores de CPU y de memoria desde el host.
Por ejemplo:
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32435) is running...
El estado debe ser "running" (En ejecución). De lo contrario, es posible que se haya detenido o haya fallado.
Si mcelog no se está ejecutando o ha fallado, el módulo mce de la FMA de Oracle Linux fallará, porque necesita que el daemon de mcelog se ejecute correctamente para funcionar.
Para mostrar el estado de todos los módulos del gestor de fallos:
[root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 failed Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
En el ejemplo anterior, el módulo mce tiene el estado "failed" (Error). Esto significa que el host no está supervisando los eventos de comprobación de máquina relacionados con la CPU y la memoria y, por lo tanto, estos no se están registrando ni diagnosticando en la base de datos de gestión de fallos.
Por ejemplo:
[root@testserver16 ~]# fmdump -Ve n 21 2014 09:56:05.930589483 ereport.fm.fmd.module nvlist version: 0 version = 0x0 class = ereport.fm.fmd.module detector = (embedded nvlist) nvlist version: 0 version = 0x1 scheme = fmd authority = (embedded nvlist) nvlist version: 0 version = 0x0 system-mfg = unknown system-name = unknown system-part = unknown system-serial = unknown sys-comp-mfg = unknown sys-comp-name = unknown sys-comp-part = unknown sys-comp-serial = unknown server-name = testserver16 host-id = ffffffff990a7a4a (end authority) mod-name = mce mod-version = 1.0 (end detector) ena = 0x3631d6cd9f6c0001 msg = mcelog not running!: client requested that module execution abort errno = 1072 errclass = ereport.fm.fmd.hdl_abort __ttl = 0x1 __tod = 0x52de8a85 0x3777ab2b
En el ejemplo anterior, el campo "msg =" muestra que mcelog no está en ejecución y es la causa del error en el módulo mce.
Por ejemplo:
[root@testserver16 ~]# service mcelogd start Starting mcelog daemon
Por ejemplo:
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32498) is running...
[root@testserver16 ~]# fmadm unload mce
Esto generará un evento de fallo que podrá identificar en la base de datos de gestión de fallos.
Por ejemplo:
[root@ban25ts12uut2 ~]# fmadm faulty --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244 FMD-8000-2K Minor Problem Status : solved Diag Engine : fmd-self-diagnosis / 1.0 System Manufacturer : unknown Name : unknown Part_Number : unknown Serial_Number : unknown Host_ID : ffffffff990a7a4a ---------------------------------------- Suspect 1 of 1 : Fault class : defect.sunos.fmd.module Certainty : 100% Affects : fmd:///module/mce Status : faulted and taken out of service Description : A Linux Fault Manager component has experienced an error that required the module to be disabled. Response : The module has been disabled. Events destined for the module will be saved for manual diagnosis. Impact : Automated diagnosis and response for subsequent events associated with this module will not occur. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/FMD-8000-2K for the latest service procedures and policies regarding this diagnosis.
Por ejemplo:
[root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager [root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 active Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
Si el módulo mce no se descarga o no se vuelve a cargar, reinicie el gestor de fallos de la siguiente manera:
[root@testserver16 ~]# service fmd.init restart Stopping fmd: [ OK ] Starting fmd: [ OK ]