Go to main content
Guía del usuario del software de la arquitectura de gestión de fallos de Oracle® Linux

Salir de la Vista de impresión

Actualización: Octubre de 2015
 
 

Reinicio de fmd si falla mcelog

Por diferentes motivos, es posible que el daemon de mcelog no se inicie o falle durante el funcionamiento normal. Si ocurre esto, dejará de recibir y de diagnosticar los errores de CPU y de memoria desde el host.

  1. Determine si el daemon de mcelog se está ejecutando.

    Por ejemplo:

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32435) is running... 

    El estado debe ser "running" (En ejecución). De lo contrario, es posible que se haya detenido o haya fallado.

    Si mcelog no se está ejecutando o ha fallado, el módulo mce de la FMA de Oracle Linux fallará, porque necesita que el daemon de mcelog se ejecute correctamente para funcionar.

  2. Si el daemon de mcelog se está ejecutando, compruebe el estado de los módulos de la FMA de Oracle Linux.

    Para mostrar el estado de todos los módulos del gestor de fallos:

    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     failed  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    En el ejemplo anterior, el módulo mce tiene el estado "failed" (Error). Esto significa que el host no está supervisando los eventos de comprobación de máquina relacionados con la CPU y la memoria y, por lo tanto, estos no se están registrando ni diagnosticando en la base de datos de gestión de fallos.

  3. Si el módulo mce de la FMA de Oracle Linux ha fallado, confirme la causa del error mediante fmdump.

    Por ejemplo:

    [root@testserver16 ~]# fmdump -Ve
    
    
    n 21 2014 09:56:05.930589483 ereport.fm.fmd.module
    nvlist version: 0
    	version = 0x0
    	class = ereport.fm.fmd.module
    	detector = (embedded nvlist)
    	nvlist version: 0
    		version = 0x1
    		scheme = fmd
    		authority = (embedded nvlist)
    		nvlist version: 0
    			version = 0x0
    			system-mfg = unknown
    			system-name = unknown
    			system-part = unknown
    			system-serial = unknown
    			sys-comp-mfg = unknown
    			sys-comp-name = unknown
    			sys-comp-part = unknown
    			sys-comp-serial = unknown
    			server-name = testserver16
    			host-id = ffffffff990a7a4a
    		(end authority)
    
    		mod-name = mce
    		mod-version = 1.0
    	(end detector)
    
    	ena = 0x3631d6cd9f6c0001
    	msg = mcelog not running!: client requested that module execution abort
    	errno = 1072
    	errclass = ereport.fm.fmd.hdl_abort
    	__ttl = 0x1
    	__tod = 0x52de8a85 0x3777ab2b

    En el ejemplo anterior, el campo "msg =" muestra que mcelog no está en ejecución y es la causa del error en el módulo mce.

  4. Una vez que haya determinado que el daemon de mcelog es el problema, reinícielo.

    Por ejemplo:

    [root@testserver16 ~]# service mcelogd start
    Starting mcelog daemon
  5. Compruebe que mcelog esté en ejecución.

    Por ejemplo:

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32498) is running... 
  6. Descargue el módulo mce de la FMA de Oracle Linux.
    [root@testserver16 ~]# fmadm unload mce

    Esto generará un evento de fallo que podrá identificar en la base de datos de gestión de fallos.

  7. Confirme que la descarga del módulo mce se ha capturado en la base de datos de gestión de fallos.

    Por ejemplo:

    [root@ban25ts12uut2 ~]# fmadm faulty
    --------------- ------------------------------------  -------------- ---------
    TIME            EVENT-ID                              MSG-ID         SEVERITY
    --------------- ------------------------------------  -------------- ---------
    Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244  FMD-8000-2K    Minor    
    
    Problem Status    : solved
    Diag Engine       : fmd-self-diagnosis / 1.0
    System
        Manufacturer  : unknown
        Name          : unknown
        Part_Number   : unknown
        Serial_Number : unknown
        Host_ID       : ffffffff990a7a4a
    
    ----------------------------------------
    Suspect 1 of 1 :
       Fault class : defect.sunos.fmd.module
       Certainty   : 100%
       Affects     : fmd:///module/mce
       Status      : faulted and taken out of service
    
    Description : A Linux Fault Manager component has experienced an error that
                  required the module to be disabled.
    
    Response    : The module has been disabled.  Events destined for the module
                  will be saved for manual diagnosis.
    
    Impact      : Automated diagnosis and response for subsequent events associated
                  with this module will not occur.
    
    Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
                  Please refer to the associated reference document at
                  http://support.oracle.com/msg/FMD-8000-2K for the latest service
                  procedures and policies regarding this diagnosis.
  8. Vuelva a cargar el módulo mce de la FMA de Oracle Linux y confirme que se esté ejecutando.

    Por ejemplo:

    [root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so
    fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager
    
    
    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     active  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    Si el módulo mce no se descarga o no se vuelve a cargar, reinicie el gestor de fallos de la siguiente manera:

    [root@testserver16 ~]# service fmd.init restart
    Stopping fmd:                                              [  OK  ]
    Starting fmd:                                              [  OK  ]