Lorsque le démon mcelog rencontre une erreur, il déclenche une réponse configurable et journalise les informations dans le fichier mcelog. Ainsi, imaginez que l'emplacement de l'adresse physique 0x45a3b50c0 génère une erreur de lecture de mémoire qui peut être corrigée. Dans ce cas, le démon mcelog ajoute une entrée dans /var/log/mcelog. Par exemple :
CPU 8 BANK 3 TSC 0 RIP 00:0 MISC 0x85 ADDR 0x45a3b50c0 <------ address that had the correctable read error STATUS 0x9c000000f00c009f MCGSTATUS 0x7 PROCESSOR 0:0x306f1 TIME 1389814624 SOCKETID 0 APICID 18 MCGCAP 0x7000c16
Un message est également envoyé au journal système (/var/log/messages) décrivant le problème (seuil de décompte d'erreurs dépassé) et l'action générée (mise hors ligne de la page), tel que :
1 Jan 15 14:37:04 testserver16 kernel: Machine check poll done on CPU 8 2 Jan 15 14:37:04 testserver16 mcelog: Family 6 Model 3f CPU: only decoding architectural errors 3 Jan 15 14:37:04 testserver16 mcelog: corrected Socket memory error count exceeded threshold: 1 in 24h 4 Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? [] 5 Jan 15 14:37:04 testserver16 mcelog: Corrected memory errors on page 45a3b5000 exceed threshold 1 in 24h: 1 in 24h 6 Jan 15 14:37:04 testserver16 mcelog: Location SOCKET:0 CHANNEL:? DIMM:? [] 7 Jan 15 14:37:04 testserver16 mcelog: Running trigger `page-error-trigger' 8 Jan 15 14:37:04 testserver16 mcelog: Offlining page 45a3b5000
Le message de la ligne 5 indique que le seuil d'erreurs pouvant être corrigées a été réglé sur 1 erreur en 24 heures. Le seuil ayant été dépassé, l'action de suppression de la page 0x45a3b5000 du service a été prise. C'est ce qu'indique le message "Mise hors ligne de la page" (ligne 8) dans le journal système. Soit le processus ayant rencontré la page pouvant être corrigée se voit affecté une nouvelle page, soit il est tué, selon la valeur "memory-ce-action" de la section "page" du fichier mcelog.conf.
En plus de la page mise hors ligne, si le module DIMM correspondant à l'adresse défectueuse dépasse le seuil DIMM programmé en usine, le processeur de service génère une panne qui est transmise à l'hôte et journalisée comme une partie de la base de données de gestion des pannes.
Bien souvent, la première interaction avec le démon du gestionnaire de pannes est un message système indiquant qu'une panne ou un défaut a été diagnostiqué. Les messages sont envoyés à la console et au fichier /var/log/messages. Tous les messages envoyés par le démon du gestionnaire de pannes utilisent le format suivant :
1 SUNW-MSG-ID: SPX86A-8002-30, TYPE: Fault, VER: 1, SEVERITY: Minor 2 EVENT-TIME: Wed Nov 27 10:36:30 PST 2013 3 PLATFORM: SUN SERVER X4-4, CSN: -, HOSTNAME: testserver16 4 SOURCE: fdd, REV: 1.0 5 EVENT-ID: eed2208e-2dcf-40c9-9bab-ab3a13e94182 6 DESC: A processor has detected multiple memory controller correctable errors. 8 AUTO-RESPONSE: The affected processor will be disabled at the next system boot 9 and remain unavailable until repaired. 10 The chassis wide and processor service-required LED's are illuminated. 11 IMPACT: The system will continue to operate in the presence of this 12 fault. 13 System performance may be impacted due to disabled processor. 14 REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this 15 event. Please refer to the associated reference document at 16 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service procedures and 17 policies regarding this diagnosis.
Lorsque vous êtes notifié qu'un problème a été diagnostiqué, pensez toujours à consulter l'article de la base de connaissances Oracle recommandé afin d'obtenir des informations supplémentaires. Pour un exemple, reportez-vous à la ligne 16 ci-dessus. Outre les mesures indiquées à la ligne 14, l'article concerné peut mentionner des mesures supplémentaires pouvant être prises par vous ou par un prestataire de services.
La notification des événements peut également être configurée en utilisant le protocole SNMP (Simple Network Management Protocol) ou le protocole SMTP (Simple Mail Transfer Protocol). Reportez-vous à la documentation Oracle ILOM à l'adresse suivante : http://www.oracle.com/goto/ILOM/docs.
De plus, Oracle Auto Service Request peut être configuré de manière à demander automatiquement l'assistance d'Oracle lorsque des problèmes matériels spécifiques surviennent depuis les ressources télémétriques prises en charge (telles que Oracle ILOM). Pour plus d'informations sur cette fonction, reportez-vous à la page Oracle Auto Service Request product page. Le lien vers la documentation sur cette page fournit des liens vers le Guide d'installation rapide d'Oracle ASR et le Guide d'installation et d'utilisation d'Oracle ASR.