Ignorer les liens de navigation | |
Quitter l'aperu | |
Gestion des services et pannes dans Oracle Solaris 11.1 Oracle Solaris 11.1 Information Library (Français) |
1. Gestion des services (présentation)
2. Gestion des services (tâches)
3. Utilisation du gestionnaire de pannes
Notification de pannes et de défauts
Affichage d'informations sur les pannes ou les défauts
Procédure d'affichage d'informations relatives aux composants défectueux
Procédure d'identification des CPU hors ligne
Procédure d'affichage d'informations relatives aux services défectueux
Réparation de pannes ou de défauts
La fonctionnalité de gestion des pannes d'Oracle Solaris fournit une architecture permettant la construction de gestionnaires d'erreur robustes, d'une télémétrie d'erreur structurée, de logiciels de diagnostic automatisés, d'agents de réponse et d'une messagerie structurée. De nombreux éléments de la pile de logiciels participent à la gestion des pannes, y compris la CPU, des sous-systèmes de mémoire et d'E/S, Oracle Solaris ZFS, un nombre croissant de pilotes de périphérique et d'autres piles de gestion.
FMA est destiné à vous aider à résoudre les problèmes qui peuvent se produire sur un système Oracle Solaris. Le problème peut être une panne, c'est-à-dire que quelque chose qui fonctionnait ne fonctionne plus. Le problème peut également être un défaut, c'est-à-dire que l'élément concerné n'a jamais fonctionné correctement. En général, le matériel peut aussi bien subir des pannes que présenter des défauts. En revanche, la plupart des problèmes logiciels sont des défauts ou sont provoqués par des problèmes de configuration.
A un niveau élevé, la pile de gestion des pannes contient des détecteurs d'erreur, des moteurs de diagnostic et des agents de réponse. Comme leur nom l'indique, les détecteurs d'erreur détectent les erreurs dans le système et les gèrent immédiatement et de manière appropriée. Les détecteurs d'erreur émettent des rapports d'erreur bien définis, ou ereports, qu'ils transmettent à un moteur de diagnostic. Un moteur de diagnostic interprète les ereports et détermine si une panne ou un défaut est présent dans le système. Si tel est le cas, le moteur de diagnostic émet une liste de suspects décrivant la ressource ou l'ensemble de ressources qui peuvent être à l'origine du problème. Une unité remplaçable sur site (FRU), une étiquette ou une unité de reconfiguration système automatique (ASRU) peut éventuellement être associée à cette ressource. L'utilisation d'une ASRU peut être immédiatement suspendue pour limiter le problème jusqu'à ce que la FRU soit remplacée.
Si la liste de suspects contient plusieurs suspects, par exemple parce que le moteur de diagnostic n'est pas en mesure d'identifier un suspect unique, une probabilité d'être le suspect principal est affectée à chaque suspect. Le total des probabilités de cette liste se monte à 100 pour cent. Les listes de suspects sont interprétées par les agents de réponse. Un agent de réponse tente de prendre certaines mesures en fonction de la liste de suspects. Ces mesures peuvent consister notamment en la consignation de messages, la mise hors ligne d'éléments de la CPU, la cession de pages de mémoire et la cession de périphériques E/S.
Les détecteurs d'erreur, les moteurs de diagnostic et les agents de réponse sont connectés par le démon du gestionnaire de pannes, fmd, qui agit comme un multiplexeur entre les différents composants, comme indiqué dans la figure suivante.
Le démon du gestionnaire de pannes lui-même est un service contrôlé par SMF. Le service est activé par défaut et contrôlé de la même manière que n'importe quel autre service SMF. Pour plus d'informations, reportez-vous à la page de manuel smf(5).
Les services FMA et SMF interagissent en cas de besoin. Certains problèmes matériels peuvent provoquer l'arrêt ou le redémarrage de services par SMF. En outre, certaines erreurs SMF entraînent le signalement d'un défaut par FMA.