Gestion des pannes dans Oracle® Solaris 11.2

Quitter la vue de l'impression

Mis à jour : Juillet 2014
 
 

Présentation de la gestion des pannes

La fonctionnalité de gestion des pannes d'Oracle Solaris comprend les composants suivants :

  • Architecture permettant de générer des gestionnaires d'erreur robustes

  • Télémesures d'erreur structurées

  • Logiciel de diagnostic automatisé

  • Agents de réponse

  • Messagerie structurée

De nombreux éléments de la pile de logiciels interviennent dans la gestion des pannes, notamment la CPU, les sous-systèmes de mémoire et d'E/S, Oracle Solaris ZFS et de nombreux pilotes de périphériques.

FMA vous aide à éliminer les pannes et les défauts :

  • Pannes : un composant défaillant est un composant qui ne fonctionne plus.

  • Défauts : un composant défectueux est un composant qui n'a jamais fonctionné correctement.

Un matériel peut tomber en panne et être défectueux. La plupart des problèmes logiciels sont des défauts ou ils sont provoqués par des problèmes de configuration. Généralement, la gestion des pannes et les services système interagissent. Par exemple, un problème matériel peut entraîner l'arrêt ou le redémarrage des services. Une erreur de service SMF peut amener FMA a signaler un défaut.

La pile de gestion des pannes inclut des détecteurs d'erreurs, un moteur de diagnostic et des agents de réponse.

Détecteurs d'erreurs

Les détecteurs d'erreurs détectent les erreurs dans le système et les gèrent immédiatement de manière appropriée. Les détecteurs d'erreur émettent des rapports d'erreur bien définis, ou ereports, qu'ils transmettent à un moteur de diagnostic.

Moteur de diagnostic

Le moteur de diagnostic interprète les ereports et détermine si une panne ou un défaut existe dans le système. Si tel est le cas, le moteur de diagnostic émet une liste de suspects décrivant la ressource ou l'ensemble de ressources qui peuvent être à l'origine du problème. La ressource peut être associée à une unité remplaçable sur site (FRU), un libellé ou une unité de reconfiguration système automatique (ASRU). Une unité ASRU peut être immédiatement suspendue pour limiter le problème jusqu'à ce que la FRU soit remplacée.

Lorsque la liste d'éléments suspects contient plusieurs éléments suspects (par exemple parce que le moteur de diagnostic n'est pas en mesure d'identifier un élément suspect), chaque élément suspect est considéré comme le probable suspect principal. Le total des probabilités de cette liste est de 100 pour cent. Les listes de suspects sont interprétées par les agents de réponse.

Agents de réponse

Les agents de réponse tentent de prendre des mesures en fonction de la liste des suspects. Ces mesures peuvent consister notamment en la consignation de messages, la mise hors ligne d'éléments de la CPU, la cession de pages de mémoire et la cession de périphériques E/S.

Les détecteurs d'erreur, les moteurs de diagnostic et les agents de réponse sont connectés par le démon du gestionnaire de pannes, fmd, qui agit comme un multiplexeur entre les différents composants, comme indiqué dans la figure suivante.

Figure 1-1  Composants de l'architecture de gestion des pannes

image:Indique les relations entre le démon Gestionnaire des pannes, les détecteurs d'erreurs, les moteurs de diagnostic et les agents de réponse.

Le cycle de vie d'un problème géré par le Gestionnaire de pannes peut comporter les étapes suivantes :

Diagnostic

Un nouveau problème a été diagnostiqué par le Gestionnaire de pannes. Le diagnostic inclut une liste contenant un ou plusieurs suspects. Un suspect peut avoir été isolé automatiquement afin d'empêcher l'occurrence de nouvelles erreurs. Le problème est identifié par un UUID dans la charge utile d'événement, et d'autres événements décrivant le cycle de vie de résolution du problème indiquent le même UUID.

Mise à jour

Une ou plusieurs des ressources suspectent dans un diagnostic de problème ont été réparées, remplacées ou acquittées, ou la ressource est de nouveau défectueuse. La liste des éléments suspects contient encore au moins une ressource défectueuse. Une réparation a peut-être été effectuée en exécutant une commande fmadm ou bien le système a peut-être détecté une réparation, telle que le changement d'un numéro de série de pièce. La commande fmadm est décrite dans le Chapter 3, Résolution des pannes.

Réparation

Toutes les ressources suspectes dans un diagnostic de problème ont été réparées, résolues ou acquittées. Certaines ou toutes les ressources peuvent toujours être isolées.

Résolution

Toutes les ressources suspectent dans un diagnostic de problème ont été réparées, résolues ou acquittées et elles ne sont plus isolées. Par exemple, une CPU qui était suspecte et hors ligne est de nouveau en ligne. La mise hors ligne et en ligne des ressources s'effectue généralement automatiquement.

Le démon Gestionnaire de pannes est un service SMF (Service Management Facility). Le service svc:/system/fmd est activé par défaut. Reportez-vous à la Gestion des services système dans Oracle Solaris 11.2 pour plus d'informations sur les services SMF. Reportez-vous à la page de manuel fmd(1M) pour plus d'informations sur le démon Gestionnaire de pannes.

La commande fmadm config indique le nom, la description et le statut de chaque module dans le Gestionnaire de pannes. Ces modules diagnostiquent et résolvent les problèmes sur le système. La commande fmstat affiche des informations supplémentaires sur ces modules, comme indiqué dans les Statistiques des pannes.