Go to main content
Guide de l'utilisateur du logiciel Oracle® Linux Fault Management Architecture

Quitter la vue de l'impression

Mis à jour : Octobre 2015
 
 

Redémarrage de fmd en cas d'échec du démon mcelog

Pour différentes raisons, le démon mcelog peut ne pas démarrer ou échouer en fonctionnement normal. Dans ce cas, vous cesserez de recevoir et de diagnostiquer les erreurs de CPU et de mémoire depuis l'hôte.

  1. Assurez-vous que le démon mcelog est en cours d'exécution.

    Par exemple :

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32435) is running... 

    Le statut doit être "en cours d'exécution". Si ce n'est pas le cas, c'est qu'il est arrêté ou défaillant.

    Si le démon mcelog est arrêté ou en échec, le module mce Oracle Linux FMA sera en échec, car il a besoin que le démon mcelog fonctionne correctement pour fonctionner lui-même.

  2. Si le démon mcelog est en cours d'exécution, vérifiez le statut des modules Oracle Linux FMA.

    Pour répertorier le statut de tous les modules du gestionnaire de pannes :

    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     failed  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    Dans l'exemple ci-dessus, le module mce est en statut "défaillant". Cela signifie que les événements de CPU ou de mémoire vérifiés par le matériel ne sont pas surveillés par l'hôte, et par conséquent ne sont pas journalisés ni diagnostiqués dans la base de données de la gestion des pannes.

  3. Si le module mce Oracle Linux FMA est en échec, utilisez la commande fmdump pour confirmer la cause de cet échec.

    Par exemple :

    [root@testserver16 ~]# fmdump -Ve
    
    
    n 21 2014 09:56:05.930589483 ereport.fm.fmd.module
    nvlist version: 0
    	version = 0x0
    	class = ereport.fm.fmd.module
    	detector = (embedded nvlist)
    	nvlist version: 0
    		version = 0x1
    		scheme = fmd
    		authority = (embedded nvlist)
    		nvlist version: 0
    			version = 0x0
    			system-mfg = unknown
    			system-name = unknown
    			system-part = unknown
    			system-serial = unknown
    			sys-comp-mfg = unknown
    			sys-comp-name = unknown
    			sys-comp-part = unknown
    			sys-comp-serial = unknown
    			server-name = testserver16
    			host-id = ffffffff990a7a4a
    		(end authority)
    
    		mod-name = mce
    		mod-version = 1.0
    	(end detector)
    
    	ena = 0x3631d6cd9f6c0001
    	msg = mcelog not running!: client requested that module execution abort
    	errno = 1072
    	errclass = ereport.fm.fmd.hdl_abort
    	__ttl = 0x1
    	__tod = 0x52de8a85 0x3777ab2b

    Dans l'exemple ci-dessus, le champ "msg =" indique que le démon mcelog n'est pas en cours d'exécution et qu'il est la cause de l'échec du module mce.

  4. Une fois que vous avez déterminé que le démon mcelog est la cause du problème, redémarrez-le.

    Par exemple :

    [root@testserver16 ~]# service mcelogd start
    Starting mcelog daemon
  5. Vérifiez que le démon mcelog est en cours d'exécution.

    Par exemple :

    [root@testserver16 ~]# service mcelogd status
    Checking for mcelog
    mcelog (pid  32498) is running... 
  6. Déchargez le module mce Oracle Linux FMA
    [root@testserver16 ~]# fmadm unload mce

    Un événement de panne sera ainsi généré, et vous pourrez l'identifier dans la base de données de gestion des pannes.

  7. Confirmez la capture du déchargement du module mce dans la base de données de gestion des pannes.

    Par exemple :

    [root@ban25ts12uut2 ~]# fmadm faulty
    --------------- ------------------------------------  -------------- ---------
    TIME            EVENT-ID                              MSG-ID         SEVERITY
    --------------- ------------------------------------  -------------- ---------
    Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244  FMD-8000-2K    Minor    
    
    Problem Status    : solved
    Diag Engine       : fmd-self-diagnosis / 1.0
    System
        Manufacturer  : unknown
        Name          : unknown
        Part_Number   : unknown
        Serial_Number : unknown
        Host_ID       : ffffffff990a7a4a
    
    ----------------------------------------
    Suspect 1 of 1 :
       Fault class : defect.sunos.fmd.module
       Certainty   : 100%
       Affects     : fmd:///module/mce
       Status      : faulted and taken out of service
    
    Description : A Linux Fault Manager component has experienced an error that
                  required the module to be disabled.
    
    Response    : The module has been disabled.  Events destined for the module
                  will be saved for manual diagnosis.
    
    Impact      : Automated diagnosis and response for subsequent events associated
                  with this module will not occur.
    
    Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
                  Please refer to the associated reference document at
                  http://support.oracle.com/msg/FMD-8000-2K for the latest service
                  procedures and policies regarding this diagnosis.
  8. Rechargez le module mce Oracle Linux FMA et confirmez qu'il est en cours d'exécution.

    Par exemple :

    [root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so
    fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager
    
    
    [root@testserver16 ~]# fmadm config
    MODULE                   VERSION STATUS  DESCRIPTION
    ext-event-transport      0.2     active  External FM event transport
    fmd-self-diagnosis       1.0     active  Fault Manager Self-Diagnosis
    ip-transport             1.1     active  IP Transport Agent
    mce                      1.0     active  Machine Check Translator
    sysevent-transport       1.0     active  SysEvent Transport Agent
    syslog-msgs              1.1     active  Syslog Messaging Agent

    Si le module mce n'est ni déchargé ni rechargé, redémarrez le gestionnaire de pannes de la façon suivante :

    [root@testserver16 ~]# service fmd.init restart
    Stopping fmd:                                              [  OK  ]
    Starting fmd:                                              [  OK  ]