Go to main content
Guide de l'utilisateur du logiciel Oracle® Linux Fault Management Architecture

Quitter la vue de l'impression

Mis à jour : Octobre 2015
 
 

Termes utilisés dans l'architecture de gestion des pannes (FMA)

Le tableau suivant contient les descriptions des termes de l'architecture de gestion des pannes utilisés dans ce document.

Terme
Description
CRU
Une CRU est une unité remplaçable par le client (telle qu'un module DIMM de mémoire).
Moteurs de diagnostic
Oracle Linux FMA utilise les moteurs de diagnostic résidant sur le processeur de service pour adresser les ereports d'événements matériels, comprenant ceux générés par le service mcelog. Pour obtenir une liste des moteurs de diagnostic pris en charge dans l'architecture de gestion des pannes pour Oracle ILOM, reportez-vous à la documentation Oracle ILOM.
Rapport d'erreur (Ereport)
Les rapports d'erreur décrivent les événements d'erreur. Ils présentent des informations sur le type d'erreur et le périphérique brut pour que le gestionnaire de pannes puisse diagnostiquer l'erreur et créer un message de diagnostic de panne approprié.
Panne
Une panne indique qu'un composant matériel est présent, mais qu'il est inutilisable ou dégradé car au moins un problème a été diagnostiqué par le gestionnaire de pannes. Le composant a été désactivé pour éviter d'occasionner des dommages supplémentaires au système.
Cas de panne
Lorsque les problèmes sont diagnostiqués, le gestionnaire de pannes journalise un message de diagnostic de la panne qui comporte un numéro de cas (représenté par un UUID) référençant le problème.
FRU
Une FRU est une unité remplaçable sur site (telle qu'un processeur).
Libellé
Chaîne d'emplacement (également appelée libellé de FRU), telle que "/SYS/MB/P1", qui représente le processeur numéro 1, situé sur la carte mère du système. La valeur entre guillemets est censée correspondre à l'étiquette placée sur le matériel physique ou au libellé affiché dans Oracle ILOM.
Evénements vérifiés par le matériel
Erreur(s) de plateforme détectée(s) par le matériel et transmise(s) au SE. L'erreur signalée peut être corrigée ou non, récupérable ou fatale. Sous Linux, le service cmelog capture ces erreurs.
Service mcelog
Sur les systèmes Linux x86, le service mcelog adresse les erreurs et fournit une analyse prédictive des défaillances. Le démon mcelog traite les événements vérifiés par le matériel relatifs au CPU et à la mémoire, puis exécute les actions selon des seuils d'erreur configurables. Une série d'actions peuvent être configurées, telles que la suppression d'une page de mémoire, la mise hors ligne d'un coeur de CPU et la gestion automatique des erreurs de cache. Il est également possible de configurer des actions définies par l'utilisateur.
Oracle Linux FMA capture des erreurs adressées par mcelog et stockées dans le fichier journal de mcelog, les convertit au format de panne Oracle standard puis les ajoute à une base de données de pannes synchronisée, disponible à la fois sur l'hôte et sur Oracle ILOM.
Suppression d'une page
Utilitaire de noyau sur les SE Linux les plus récents, où une page de mémoire correspondant à un emplacement mémoire physique défectueux est supprimé du service, si possible. Cette fonctionnalité contribue à améliorer la disponibilité du système.
Autorétablissement proactif
Architecture et méthodologie de gestion des pannes pour le diagnostic, le compte-rendu et la gestion automatiques des conditions des pannes logicielles et matérielles. L'autorétablissement proactif réduit le temps requis pour déboguer un problème matériel ou logiciel et fournit à l'administrateur système ou au personnel Oracle Services des données détaillées relatives à chaque panne. L'architecture se compose d'un protocole de gestion d'événements mcelog Linux, de Fault Manager, et des moteurs de diagnostic basés sur le processeur qui convertissent les erreurs reçues du SE hôte en un cas de panne FMA standard.
Processeur de service (SP)
La plupart des serveurs Oracle sont livrés avec un processeur de service qui contrôle les fonctions de châssis, telles que le bilan et le contrôle de puissance, la surveillance de l'intégrité du système, et les activités FMA telles que le génération de rapports d'erreurs et le diagnostic de pannes.
Identifiant universel unique (UUID)
Un identifiant unique universel sert à identifier de manière unique un problème dans un ensemble de systèmes.