JavaScript is required to for searching.
Ignorer les liens de navigation
Quitter l'aperu
Gestion des services et pannes dans Oracle Solaris 11.1     Oracle Solaris 11.1 Information Library (Français)
search filter icon
search icon

Informations document

Préface

1.  Gestion des services (présentation)

2.  Gestion des services (tâches)

3.  Utilisation du gestionnaire de pannes

Présentation de la gestion des pannes

Notification de pannes et de défauts

Affichage d'informations sur les pannes ou les défauts

Procédure d'affichage d'informations relatives aux composants défectueux

Procédure d'identification des CPU hors ligne

Procédure d'affichage d'informations relatives aux services défectueux

Réparation de pannes ou de défauts

Commande fmadm replaced

Commande fmadm repaired

Commande fmadm acquit

Fichiers journaux de gestion des pannes

Statistiques sur les pannes

Index

Présentation de la gestion des pannes

La fonctionnalité de gestion des pannes d'Oracle Solaris fournit une architecture permettant la construction de gestionnaires d'erreur robustes, d'une télémétrie d'erreur structurée, de logiciels de diagnostic automatisés, d'agents de réponse et d'une messagerie structurée. De nombreux éléments de la pile de logiciels participent à la gestion des pannes, y compris la CPU, des sous-systèmes de mémoire et d'E/S, Oracle Solaris ZFS, un nombre croissant de pilotes de périphérique et d'autres piles de gestion.

FMA est destiné à vous aider à résoudre les problèmes qui peuvent se produire sur un système Oracle Solaris. Le problème peut être une panne, c'est-à-dire que quelque chose qui fonctionnait ne fonctionne plus. Le problème peut également être un défaut, c'est-à-dire que l'élément concerné n'a jamais fonctionné correctement. En général, le matériel peut aussi bien subir des pannes que présenter des défauts. En revanche, la plupart des problèmes logiciels sont des défauts ou sont provoqués par des problèmes de configuration.

A un niveau élevé, la pile de gestion des pannes contient des détecteurs d'erreur, des moteurs de diagnostic et des agents de réponse. Comme leur nom l'indique, les détecteurs d'erreur détectent les erreurs dans le système et les gèrent immédiatement et de manière appropriée. Les détecteurs d'erreur émettent des rapports d'erreur bien définis, ou ereports, qu'ils transmettent à un moteur de diagnostic. Un moteur de diagnostic interprète les ereports et détermine si une panne ou un défaut est présent dans le système. Si tel est le cas, le moteur de diagnostic émet une liste de suspects décrivant la ressource ou l'ensemble de ressources qui peuvent être à l'origine du problème. Une unité remplaçable sur site (FRU), une étiquette ou une unité de reconfiguration système automatique (ASRU) peut éventuellement être associée à cette ressource. L'utilisation d'une ASRU peut être immédiatement suspendue pour limiter le problème jusqu'à ce que la FRU soit remplacée.

Si la liste de suspects contient plusieurs suspects, par exemple parce que le moteur de diagnostic n'est pas en mesure d'identifier un suspect unique, une probabilité d'être le suspect principal est affectée à chaque suspect. Le total des probabilités de cette liste se monte à 100 pour cent. Les listes de suspects sont interprétées par les agents de réponse. Un agent de réponse tente de prendre certaines mesures en fonction de la liste de suspects. Ces mesures peuvent consister notamment en la consignation de messages, la mise hors ligne d'éléments de la CPU, la cession de pages de mémoire et la cession de périphériques E/S.

Les détecteurs d'erreur, les moteurs de diagnostic et les agents de réponse sont connectés par le démon du gestionnaire de pannes, fmd, qui agit comme un multiplexeur entre les différents composants, comme indiqué dans la figure suivante.

image:La figure montre la relation entre le démon du gestionnaire de pannes, les détecteurs d'erreur, les agents de réponse et les moteurs de diagnostic.

Le démon du gestionnaire de pannes lui-même est un service contrôlé par SMF. Le service est activé par défaut et contrôlé de la même manière que n'importe quel autre service SMF. Pour plus d'informations, reportez-vous à la page de manuel smf(5).

Les services FMA et SMF interagissent en cas de besoin. Certains problèmes matériels peuvent provoquer l'arrêt ou le redémarrage de services par SMF. En outre, certaines erreurs SMF entraînent le signalement d'un défaut par FMA.