Go to main content
Guide de l'utilisateur du logiciel Oracle® Linux Fault Management Architecture

Quitter la vue de l'impression

Mis à jour : Octobre 2015
 
 

Réparation de pannes ou de défauts

Une fois que la gestion des pannes a identifié un composant défectueux dans votre système, vous devez le réparer. Une réparation peut s'effectuer de l'une des deux manières suivantes : de manière implicite ou de manière explicite.

  • Une réparation implicite peut se produire lorsque le composant défectueux est remplacé ou supprimé, à condition que le composant comporte des informations de numéro de série identifiables par le démon du gestionnaire de pannes. Les informations sur le numéro de série du système sont incluses, si bien que le démon du gestionnaire de pannes peut déterminer quand des composants ont été retirés du service, soit par remplacement, soit par un autre moyen (mise sur liste noire par exemple). Lors de telles détections, le démon du gestionnaire de pannes n'affiche plus la ressource affectée dans la sortie de commande fmadm faulty. La ressource est conservée dans le cache de ressources interne du démon jusqu'à écoulement d'un délai de 30 jours après la détection de l'événement de panne ; passé ce délai, la ressource est purgée.

  • Une réparation explicite est nécessaire si aucun numéro de série de FRU n'est disponible. Par exemple, les CPU n'ont pas de numéro de série. Dans ce cas, le démon du gestionnaire de pannes ne peut pas détecter de remplacement de FRU.

    La commande fmadm permet de marquer explicitement une panne comme réparée. Les options sont les suivantes :

    • fmadm replaced label

    • fmadm repaired label

    • fmadm acquit label

    • fmadm acquit uuid [label]

    Bien que ces quatre commandes acceptent des UUID ou des libellés en tant qu'arguments, il est préférable d'utiliser le libellé. Ainsi, le libellé /SYS/MB/P0 représente la CPU étiquetée "P0" sur la carte mère.

    Si une FRU présente plusieurs pannes et que vous ne souhaitez remplacer qu'une seule fois la FRU, exécutez la commande fmadm replaced pour la FRU.

Commande fmadm replaced

Utilisez la commande fmadm replaced pour indiquer que la FRU suspecte a été remplacée ou supprimée.

Si le système détecte automatiquement qu'une FRU a été remplacée (le numéro de série a été modifié), cette détection est traitée de la même manière que si la commande fmadm replaced avait été saisie sur la ligne de commande. La commande fmadm replaced n'est pas autorisée si fmd peut confirmer automatiquement que la FRU n'a pas été remplacée (le numéro de série n'a pas été modifié).

Si le système détecte automatiquement qu'une FRU a été supprimée et non remplacée, le comportement actuel n'est pas modifié : le suspect est affiché comme not present, mais n'est considéré comme définitivement supprimé qu'après un délai de 30 jours après la détection de l'événement de panne ; passé ce délai, le suspect est purgé.

Commande fmadm repaired

Pour résoudre le problème, vous pouvez utiliser la commande fmadm required lorsqu'une réparation physique autre que le remplacement d'une FRU a été réalisée. Il peut s'agir par exemple de la réinsertion d'une carte ou du redressement d'une broche tordue.

Commande fmadm acquit

L'option acquit est souvent utilisée lorsqu'il a été déterminé que la ressource concernée n'était pas à l'origine du problème. Un acquittement peut également se produire implicitement lorsque des événements d'erreur supplémentaires se produisent et que le diagnostic s'affine.

Le remplacement est prioritaire par rapport à la réparation, et tous deux sont prioritaires par rapport à l'acquittement. Par conséquent, vous pouvez acquitter un composant puis le réparer, mais vous ne pouvez pas acquitter un composant qui a déjà été réparé.

Un cas est considéré comme réparé (il passe à l'état FMD_CASE_REPAIRED et un événement list.repaired est généré), lorsque l'UUID est acquitté ou que tous les suspects ont été réparés, remplacés, supprimés ou acquittés.

Généralement, fmd acquitte automatiquement un suspect dans une liste comportant plusieurs suspects, ou le service d'assistance vous apporte les instructions pour effectuer un acquittement manuel. Il est recommandé de n'acquitter via le libellé que si vous avez déterminé que la ressource n'est coupable dans aucun des cas en cours dans lesquels elle est suspectée. Toutefois, pour permettre à une FRU d'être acquittée manuellement dans un cas tout en restant suspecte dans tous les autres cas, utilisez l'option suivante qui vous permet de spécifier à la fois l'UUID et le libellé :

fmadm acquit uuid [label]