Go to main content
Guide de l'utilisateur du logiciel Oracle® Linux Fault Management Architecture

Quitter la vue de l'impression

Mis à jour : Octobre 2015
 
 

Notification de pannes et de défauts

Lorsque le démon mcelog rencontre une erreur, il déclenche une réponse configurable et journalise les informations dans le fichier mcelog. Ainsi, imaginez que l'emplacement de l'adresse physique 0x45a3b50c0 génère une erreur de lecture de mémoire qui peut être corrigée. Dans ce cas, le démon mcelog ajoute une entrée dans /var/log/mcelog. Par exemple :

CPU 8
BANK 3
TSC 0
RIP 00:0
MISC 0x85
ADDR 0x45a3b50c0    <------ address that had the correctable read error
STATUS 0x9c000000f00c009f
MCGSTATUS 0x7
PROCESSOR 0:0x306f1
TIME 1389814624
SOCKETID 0
APICID 18
MCGCAP 0x7000c16

Un message est également envoyé au journal système (/var/log/messages) décrivant le problème (seuil de décompte d'erreurs dépassé) et l'action générée (mise hors ligne de la page), tel que :

1  Jan 15 14:37:04 testserver16 kernel: Machine check poll done on CPU 8
2  Jan 15 14:37:04 testserver16 mcelog: Family 6 Model 3f CPU: only decoding 
architectural errors
3  Jan 15 14:37:04 testserver16 mcelog: corrected Socket memory error count 
exceeded threshold: 1 in 24h
4  Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? []
5  Jan 15 14:37:04 testserver16 mcelog: Corrected memory errors on page 45a3b5000 
exceed threshold 1 in 24h: 1 in 24h
6  Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? []
7  Jan 15 14:37:04 testserver16 mcelog: Running trigger `page-error-trigger'
8  Jan 15 14:37:04 testserver16 mcelog: Offlining page 45a3b5000

Le message de la ligne 5 indique que le seuil d'erreurs pouvant être corrigées a été réglé sur 1 erreur en 24 heures. Le seuil ayant été dépassé, l'action de suppression de la page 0x45a3b5000 du service a été prise. C'est ce qu'indique le message "Mise hors ligne de la page" (ligne 8) dans le journal système. Soit le processus ayant rencontré la page pouvant être corrigée se voit affecté une nouvelle page, soit il est tué, selon la valeur "memory-ce-action" de la section "page" du fichier mcelog.conf.

En plus de la page mise hors ligne, si le module DIMM correspondant à l'adresse défectueuse dépasse le seuil DIMM programmé en usine, le processeur de service génère une panne qui est transmise à l'hôte et journalisée comme une partie de la base de données de gestion des pannes.

Bien souvent, la première interaction avec le démon du gestionnaire de pannes est un message système indiquant qu'une panne ou un défaut a été diagnostiqué. Les messages sont envoyés à la console et au fichier /var/log/messages. Tous les messages envoyés par le démon du gestionnaire de pannes utilisent le format suivant :

1    SUNW-MSG-ID: SPX86A-8002-30, TYPE: Fault, VER: 1, SEVERITY: Minor
2    EVENT-TIME: Wed Nov 27 10:36:30 PST 2013
3    PLATFORM: SUN SERVER X4-4, CSN: -, HOSTNAME: testserver16
4    SOURCE: fdd, REV: 1.0
5    EVENT-ID: eed2208e-2dcf-40c9-9bab-ab3a13e94182
6    DESC: A processor has detected multiple memory controller correctable
     errors.
8    AUTO-RESPONSE: The affected processor will be disabled at the next system boot
9    and remain unavailable until repaired.  
10   The chassis wide and processor service-required LED's are illuminated.
11   IMPACT: The system will continue to operate in the presence of this
12   fault.
13   System performance may be impacted due to disabled processor.
14   REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this 
15   event. Please refer to the associated reference document at 
16   http://support.oracle.com/msg/SUN4V-8001-8H for the latest service procedures and 
17   policies regarding this diagnosis.

Lorsque vous êtes notifié qu'un problème a été diagnostiqué, pensez toujours à consulter l'article de la base de connaissances Oracle recommandé afin d'obtenir des informations supplémentaires. Pour un exemple, reportez-vous à la ligne 16 ci-dessus. Outre les mesures indiquées à la ligne 14, l'article concerné peut mentionner des mesures supplémentaires pouvant être prises par vous ou par un prestataire de services.

La notification des événements peut également être configurée en utilisant le protocole SNMP (Simple Network Management Protocol) ou le protocole SMTP (Simple Mail Transfer Protocol). Reportez-vous à la documentation Oracle ILOM à l'adresse suivante : http://www.oracle.com/goto/ILOM/docs.

De plus, Oracle Auto Service Request peut être configuré de manière à demander automatiquement l'assistance d'Oracle lorsque des problèmes matériels spécifiques surviennent depuis les ressources télémétriques prises en charge (telles que Oracle ILOM). Pour plus d'informations sur cette fonction, reportez-vous à la page Oracle Auto Service Request product page. Le lien vers la documentation sur cette page fournit des liens vers le Guide d'installation rapide d'Oracle ASR et le Guide d'installation et d'utilisation d'Oracle ASR.