Pour différentes raisons, le démon mcelog peut ne pas démarrer ou échouer en fonctionnement normal. Dans ce cas, vous cesserez de recevoir et de diagnostiquer les erreurs de CPU et de mémoire depuis l'hôte.
Par exemple :
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32435) is running...
Le statut doit être "en cours d'exécution". Si ce n'est pas le cas, c'est qu'il est arrêté ou défaillant.
Si le démon mcelog est arrêté ou en échec, le module mce Oracle Linux FMA sera en échec, car il a besoin que le démon mcelog fonctionne correctement pour fonctionner lui-même.
Pour répertorier le statut de tous les modules du gestionnaire de pannes :
[root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 failed Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
Dans l'exemple ci-dessus, le module mce est en statut "défaillant". Cela signifie que les événements de CPU ou de mémoire vérifiés par le matériel ne sont pas surveillés par l'hôte, et par conséquent ne sont pas journalisés ni diagnostiqués dans la base de données de la gestion des pannes.
Par exemple :
[root@testserver16 ~]# fmdump -Ve n 21 2014 09:56:05.930589483 ereport.fm.fmd.module nvlist version: 0 version = 0x0 class = ereport.fm.fmd.module detector = (embedded nvlist) nvlist version: 0 version = 0x1 scheme = fmd authority = (embedded nvlist) nvlist version: 0 version = 0x0 system-mfg = unknown system-name = unknown system-part = unknown system-serial = unknown sys-comp-mfg = unknown sys-comp-name = unknown sys-comp-part = unknown sys-comp-serial = unknown server-name = testserver16 host-id = ffffffff990a7a4a (end authority) mod-name = mce mod-version = 1.0 (end detector) ena = 0x3631d6cd9f6c0001 msg = mcelog not running!: client requested that module execution abort errno = 1072 errclass = ereport.fm.fmd.hdl_abort __ttl = 0x1 __tod = 0x52de8a85 0x3777ab2b
Dans l'exemple ci-dessus, le champ "msg =" indique que le démon mcelog n'est pas en cours d'exécution et qu'il est la cause de l'échec du module mce.
Par exemple :
[root@testserver16 ~]# service mcelogd start Starting mcelog daemon
Par exemple :
[root@testserver16 ~]# service mcelogd status Checking for mcelog mcelog (pid 32498) is running...
[root@testserver16 ~]# fmadm unload mce
Un événement de panne sera ainsi généré, et vous pourrez l'identifier dans la base de données de gestion des pannes.
Par exemple :
[root@ban25ts12uut2 ~]# fmadm faulty --------------- ------------------------------------ -------------- --------- TIME EVENT-ID MSG-ID SEVERITY --------------- ------------------------------------ -------------- --------- Jan 21 11:35:07 528fbbb9-92d4-cd7f-ef81-e2fddfd3c244 FMD-8000-2K Minor Problem Status : solved Diag Engine : fmd-self-diagnosis / 1.0 System Manufacturer : unknown Name : unknown Part_Number : unknown Serial_Number : unknown Host_ID : ffffffff990a7a4a ---------------------------------------- Suspect 1 of 1 : Fault class : defect.sunos.fmd.module Certainty : 100% Affects : fmd:///module/mce Status : faulted and taken out of service Description : A Linux Fault Manager component has experienced an error that required the module to be disabled. Response : The module has been disabled. Events destined for the module will be saved for manual diagnosis. Impact : Automated diagnosis and response for subsequent events associated with this module will not occur. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/FMD-8000-2K for the latest service procedures and policies regarding this diagnosis.
Par exemple :
[root@testserver16 ~]# fmadm load /opt/fma/fm/lib/fmd/plugins/mce.so fmadm: module '/opt/fma/fm/lib/fmd/plugins/mce.so' loaded into fault manager [root@testserver16 ~]# fmadm config MODULE VERSION STATUS DESCRIPTION ext-event-transport 0.2 active External FM event transport fmd-self-diagnosis 1.0 active Fault Manager Self-Diagnosis ip-transport 1.1 active IP Transport Agent mce 1.0 active Machine Check Translator sysevent-transport 1.0 active SysEvent Transport Agent syslog-msgs 1.1 active Syslog Messaging Agent
Si le module mce n'est ni déchargé ni rechargé, redémarrez le gestionnaire de pannes de la façon suivante :
[root@testserver16 ~]# service fmd.init restart Stopping fmd: [ OK ] Starting fmd: [ OK ]