C H A P I T R E  5

Utilisation de Hardware Diagnostic Suite avec les alarmes de Sun Management Center

Ce chapitre décrit comment afficher et personnaliser les alarmes de Sun Management Center pour les utiliser avec Hardware Diagnostic Suite :



Remarque - On assume dans les procédures décrites dans ce chapitre que Hardware Diagnostic Suite fonctionne déjà comme décrit au Chapter 3.



Pour plus d'informations sur les alarmes de Sun Management Center, consultez le Guide de l'utilisateur de Sun Management Center 3.5.


Présentation des alarmes de Sun Management Center

Le logiciel Sun Management Center surveille votre système et vous informe, au moyen d'alarmes, de toute condition anormale. Ces alarmes se déclenchent lorsque certaines conditions sortent des plages prédéfinies.

Hardware Diagnostic Suite utilise la fonctionnalité de Sun Management Center pour déclencher et afficher les conditions d'alarme relatives à l'hôte que vous êtes en train de tester. Par défaut, tout message d'erreur de session de test Hardware Diagnostic Suite déclenche une alarme Sun Management Center critique. Les alarmes s'affichent dans la console de Sun Management Center. En sus, vous pouvez définir quels événements Hardware Diagnostic déclenchent des alarmes Sun Management Center et définir les actions qui ont lieu quand une alarme survient.

Sun Management Center peut être configuré pour envoyer un courrier électronique lorsque certaines alarmes sont déclenchées et pour exécuter des scripts qui effectuent une action sur le système. Par exemple, supposons que Hardware Diagnostic Suite détecte une erreur sur une FPU dans un système multiprocesseur : cet événement peut déclencher une alarme qui déclenchera automatiquement l'exécution d'un script qui mettra hors ligne l'UC suspecte. Pendant ce temps, une notification par courrier électronique sera immédiatement envoyée à l'administrateur du système. Pour l'organigramme des actions en cas d'alarme, consultez la FIGURE 5-7.

Sun Management Center utilise des indicateurs d'alarme (TABLEAU 5-1) pour vous avertir lorsqu'une condition d'alarme survient.

TABLEAU 5-1 Indicateurs d'alarme

Indicateur

Gravité

Description

 

Black alarm symbol

1 HS

Indique qu'une condition qui a des conséquences au niveau du fonctionnement s'est produite et qu'une action corrective immédiate est requise. Par exemple, un objet géré par Sun Management Center est devenu hors service et est requis.

 

Red alarm symbol

 

2 Critique

Indique qu'une condition qui a des conséquences au niveau du fonctionnement s'est produite et qu'une action corrective est requise. Ce type d'erreur est généré lorsqu'une panne machine est détectée par une session de test Hardware Diagnostic Suite.

 

Yellow alarm symbol

 

3 Majeure

Indique qu'une condition qui n'a pas de conséquences au niveau du fonctionnement s'est produite et qu'il est conseillé d'entreprendre une action corrective afin d'éviter une panne plus grave.

 

Blue alarm symbol

 

4 Mineure

Une défaillance potentielle ou imminente ayant des conséquences au niveau du fonctionnement a été détectée avant la survenance de tout effet significatif.

 

Gray alarm symbol

 

5 Désactivée

Une ressource a été désactivée.


Le TABLEAU 5-2 décrit la fenêtre de Sun Management Center dans laquelle s'affichent les indicateurs d'alarme.

TABLEAU 5-2 Emplacement des indicateurs d'alarme

Emplacement

Description

Fenêtre principale de Sun Management Center

Des indicateurs d'alarme colorés s'affichent en regard de l'hôte dans les vues hiérarchique et topologique.

 

Par ailleurs, le nombre des alarmes de chaque catégorie s'affiche dans le Récapitulatif des statuts du domaine (le groupe d'indicateurs d'alarme colorés et circulaires situé dans la partie supérieure droite de la fenêtre). Consultez la FIGURE 3-2.

Fenêtre Détails

 

Un petit indicateur d'alarme coloré apparaît en regard du nom de l'hôte tout en haut de la fenêtre Détails.

Fenêtre Détails
(onglet Explorateur module)

Des indicateurs d'alarme colorés s'affichent en regard du module de Sun Management Center qui a généré l'alarme. Les alarmes générées par Hardware Diagnostic Suite apparaissent à proximité de l'indicateur Applications locales dans les vues hiérarchique et topologique.

Fenêtre Détails
(onglet Alarmes)

Toutes les indications d'alarmes (reconnues et non) sont répertoriées dans un tableau.


Informations sur les alarmes

L'onglet Alarmes affiche les alarmes de l'hôte avec les informations suivantes :

TABLEAU 5-3 Description de la table Alarmes

Catégorie

Description

Gravité

Indicateur graphique dont la couleur indique la gravité de l'alarme tel que décrit dans TABLEAU 5-1.

Une coche verte à proximité de l'indicateur indique que l'alarme en question est reconnue. S'il n'y a pas de coche, l'alarme n'a pas été reconnue.

Heure de début

Heure à laquelle l'alarme s'est déclenchée pour la première fois.

Etat

Un indicateur qui « sonne » signifie que la condition qui est à l'origine de l'alarme existe encore.

Un indicateur « silencieux » signifie que cette condition n'existe plus.

Action

Indique l'action affectée à l'alarme.

Message

Message abrégé qui indique le type de l'alarme.



procedure icon  Affichage et reconnaissance d'une alarme

1. Dans la fenêtre principale de Sun Management Center, examinez l'hôte dans la vue hiérarchique ou topologique.

Si un indicateur d'alarme (TABLEAU 5-1) s'affiche, cela indique une condition d'alarme non-reconnue nécessitant des recherches supplémentaires.

Un seul indicateur d'alarme peut être affiché pour un hôte à un moment donné. S'il y a des alarmes de deux types ou plus pour un hôte donné, l'alarme non-reconnue la plus grave l'emporte et se retrouve aux différents niveaux de l'arborescence. Toutes les alarmes sont listées dans la fenêtre Alarmes de Sun Management Center.



Remarque - Sun Management Center affiche les alarmes relatives à de nombreux types d'événements. Toutes les alarmes affichées ne sont pas générées par une session de test Hardware Diagnostic Suite.





Remarque - L'agent de Sun Management Center est configuré de façon à ce qu'un seul serveur reçoive les informations d'alarme provenant de cet agent.



2. Si une alarme existe, suivez les étapes ci-après pour l'afficher et connaître la condition qui en est à l'origine :

a. Double-cliquez sur l'hôte dans la fenêtre principale de Sun Management Center pour ouvrir la fenêtre Détails.

b. Sélectionnez l'onglet Alarmes.

La fenêtre Détails - Alarmes s'affiche (FIGURE 5-1). Toutes les alarmes relatives à l'hôte en question s'affichent.

 FIGURE 5-1 L'onglet Alarmes

Screen shot showing the alarms tab and alarm data.

3. Pour reconnaître une alarme, sélectionnez-la puis cliquez sur le bouton Checkmark button symbol.

L'alarme est alors marquée comme reconnue dans la liste de l'onglet Alarmes. Les alarmes reconnues ne s'affichent pas dans d'autres fenêtres de Sun Management Center.

Vous trouverez des informations supplémentaires sur les alarmes de Sun Management Center dans le Guide de l'utilisateur de Sun Management Center 3.5.


procedure icon  Edition des seuils d'alarme pour Hardware Diagnostic Suite

Par défaut, les fichiers journaux qui contiennent les erreurs et les informations relatives à Hardware Diagnostic Suite sont balayés par Sun Management Center qui recherche tout texte répondant au modèle ERROR ou FATAL. Si l'un de ces modèles est détecté, une alarme est générée. Vous pouvez modifier les critères de ces conditions d'erreur ou créer votre propre modèle qui, une fois enregistré, générera une alarme.

1. Dans la fenêtre principale de Sun Management Center, ouvrez la fenêtre Détails relative à l'hôte pour lequel vous envisagez de définir ou de modifier une condition d'alarme (consultez la FIGURE 3-3).

2. Sélectionnez l'onglet Explorateur module de la fenêtre Détails.

3. Double-cliquez sur l'icône Applications locales dans la vue topologique.

4. Double-cliquez sur l'icône Hardware Diagnostic Suite dans la vue topologique.

5. Double-cliquez sur l'icône Agent Hardware Diagnostic Suite dans la vue topologique.

Les propriétés de l'agent de Hardware Diagnostic Suite s'affichent (FIGURE 5-2).

 FIGURE 5-2 Propriétés de l'agent de Hardware Diagnostic Suite

Screen shot showing the Hardware Diag Agent window. One table shows agent properties; the other, error pattern names and descriptions.

Le TABLEAU 5-4 décrit ces propriétés.

TABLEAU 5-4 Propriétés de l'agent de Hardware Diagnostic Suite

Nom de la table

Ligne/colonne

Description

Agent Hardware Diagnostic Suite

Port UDP HWDS

Utilisé pour la communication entre l'agent et le serveur de Hardware Diagnostics.

Erreurs Hardware Diagnostic

 

Nom du modèle

Spécifie la propriété Nom du modèle. Le Nom du modèle sert d'indice dans cette table et doit être unique. Les noms des modèles Hardware Diagnostic Suite par défaut sont les suivants :

  • diag_error--Nom du modèle qui recherche les messages d'erreur des sessions de test Hardware Diagnostic Suite.
  • diag_fatal--Nom du modèle qui recherche les messages d'erreur bloquante des sessions de test Hardware Diagnostic Suite.

Description du modèle

Spécifie une description pour les modèles regexp. Les descriptions de Hardware Diagnostic Suite sont les suivantes :

Hardware Error Detected
Hardware Failure

Modèle Regexp

Définit le modèle qui génère l'alarme.

Les modèles Hardware Diagnostic Suite par défaut sont les suivants :

ERROR--Lorsque ce modèle figure dans le fichier journal Hardware Diagnostic Suite, il indique la présence d'une erreur machine nécessitant une intervention. Il peut s'agir d'un support manquant, d'un câble détaché ou d'une connexion défectueuse.

FATAL--Lorsque ce modèle figure dans le fichier journal Hardware Diagnostic Suite, il indique la présence d'une erreur irréparable. Le test Hardware Diagnostic Suite peut avoir détecté une erreur de comparaison des données ou une erreur machine.

Consultez le TABLEAU 4-3 pour la description des types d'erreur de Hardware Diagnostic Suite.

Correspondances

Affiche le nombre de correspondances trouvées du modèle recherché. Lorsque ce nombre atteint le seuil d'alarme, une alarme est déclenchée. Cette case du tableau est également utilisée pour définir les seuils d'alarme comme décrit de l'Step 6 à l'Step 9.


6. Sélectionnez au choix la propriété de données ERROR ou FATAL en cliquant sur la case Modèle Regexp dans le tableau (pour la description des types d'erreurs, consultez le TABLEAU 4-1).

7. Ouvrez l'Editeur d'attributs en procédant de l'une des façons suivantes :

Le panneau Editeur d'attributs initial contient des informations sur les attributs. Vous ne pouvez pas éditer les propriétés relatives aux alarmes dans ce panneau.

8. Sélectionnez l'onglet Alarmes dans l'Editeur d'attributs.

Le panneau Alarmes s'affiche (FIGURE 5-3). Ce panneau vous permet de définir les seuils d'alarme.

 FIGURE 5-3 L'éditeur d'attributs, panneau Alarmes

Screen shot of the Attribute Editor's Alarms panel.[ D ]

9. Définissez les seuils d'alarme de votre choix en entrant le ou les chiffres appropriés dans les champs relatifs aux seuils d'alarme.

Le seuil d'alarme détermine le type d'alarme à générer en fonction du nombre de correspondances trouvées (TABLEAU 5-5).

TABLEAU 5-5 Seuils d'alarme

Champs pour nouvelles valeurs

Description

Seuil critique

Spécifiez un entier. Si le nombre d'occurrences du modèle est supérieur à cette valeur, une alarme critique (rouge) est générée.

Seuil majeur

Spécifiez un entier. Si le nombre d'occurrences du modèle est supérieur à cette valeur, une alarme majeure (jaune) est générée.

Seuil mineur

Spécifiez un entier. Si le nombre d'occurrences du modèle est supérieur à cette valeur, une alarme mineure (bleue) est générée.

Fenêtre Alarme

Indique la période durant laquelle il peut y avoir des alarmes. Par exemple, si vous tapez day_of_week=fri (jour de la semaine=vendredi) une alarme ne surviendra que si la condition qui en est à l'origine se produit un vendredi. Si la condition se produit un jeudi, aucune alarme ne sera enregistrée.


Par exemple, si vous sélectionnez l'Editeur d'attributs pour la colonne Modèle Regexp FATAL. Entrez, dans l'ordre, les valeurs 3, 2 et 1 pour, respectivement, les seuils critique, majeur et mineur.

Quand une session de test Hardware Diagnostic Suite enregistre des erreurs bloquantes, le type d'alarme affiché devrait être :

Les seuils par défaut pour les deux modèles diag_error et diag_fatal sont les suivants :

Si vous voulez ramener les seuils aux valeurs par défaut de Hardware Diagnostic Suite, entrez des espaces dans les champs.


procedure icon  Création d'un déclencheur d'alarme

La fonctionnalité de balayage des fichiers de Sun Management Center vous permet de créer votre propre modèle de déclenchement d'alarme. Une alarme sera déclenchée lorsque le modèle défini apparaîtra dans le fichier journal des erreurs de Hardware Diagnostic Suite.

1. Ouvrez le dossier Hardware Diagnostic Suite.

Pour savoir comment procéder, consultez Edition des seuils d'alarme pour Hardware Diagnostic Suite, de l'Step 1 à l'Step 5.

2. Pour ajouter un nouveau modèle Hardware Diagnostic Suite en mesure de générer une condition d'alarme, procédez comme suit:

a. Cliquez-droit n'importe où sur la Table Erreurs Hardware Diagnostic et sélectionnez Nouvelle ligne dans le menu contextuel.

La boîte de dialogue Ajouter d'une ligne s'affiche (FIGURE 5-4).

 FIGURE 5-4 La boîte de dialogue Ajouter d'une ligne de Sun Management Center

Screen shot of the Add Row dialog box. Fields are Pattern Name, Regexp Pattern, and Pattern Description. Buttons are OK, Apply, Reset, and Cancel.

b. Entrez des informations dans les champs comme décrit dans le TABLEAU 5-6.

Pour des explications détaillées sur ces champs, consultez le TABLEAU 5-4.

TABLEAU 5-6 Description des champs de la boîte de dialogue Ajout d'une ligne

Champ Nom

Description

Nom du modèle

Spécifie le nom de la condition d'alarme que vous êtes sur le point de créer.

Modèle Regexp

Spécifie l'expression régulière (modèle) qui générera la condition d'alarme.

Description du modèle

Spécifie une description pour les modèles regexp.


c. Terminez cette procédure par l'une, au choix, des actions suivantes :

d. Créez les seuils d'alarme qui définissent le type de l'alarme qui est déclenchée.

Pour savoir comment procéder, consultez Edition des seuils d'alarme pour Hardware Diagnostic Suite.

Une fois les changements appliqués, une nouvelle ligne est insérée dans la table. Si une session de test Hardware Diagnostic Suite enregistre un message qui contient le modèle que vous venez de spécifier, une alarme sera générée pour cet hôte.


procedure icon  Création d'une condition d'alarme

Par défaut, Hardware Diagnostic Suite envoie un courrier électronique au super-utilisateur lorsqu'une erreur (Error) ou une erreur bloquante (Fatal error) est détectée. Vous pouvez cependant personnaliser les actions entreprises en cas d'alarme afin d'effectuer d'autres opérations, par exemple exécuter un script.



Remarque - Ces scripts s'exécutent avec des permissions de super-utilisateur.



1. Ouvrez le dossier Hardware Diagnostic Suite.

Pour savoir comment procéder, consultez Edition des seuils d'alarme pour Hardware Diagnostic Suite, de l'Step 1 à l'Step 5.

2. Ouvrez l'Editeur d'attributs pour la cellule Modèle Regexp dans la table Erreurs Hardware Diagnostic.

Pour savoir comment procéder, consultez Edition des seuils d'alarme pour Hardware Diagnostic Suite, de l'Step 6 à l'Step 7.

3. Sélectionnez l'onglet Actions dans l'Editeur d'attributs.

Le menu Actions s'affiche comme illustré à la FIGURE 5-5. Le TABLEAU 5-7 décrit les champs.

 FIGURE 5-5 L'Editeur d'attributs, onglet Actions

Screen shot of the Attribute Editor's Actions panel.[ D ]

 

TABLEAU 5-7 Description des champs de l'onglet Actions

Champ

Description

Action alarme critique

Spécifie l'action à entreprendre lorsqu'une alarme critique (rouge) est générée.

Action alarme majeure

Spécifie l'action à entreprendre lorsqu'une alarme majeure (jaune) est générée.

Action alarme mineure

Spécifie l'action à entreprendre lorsqu'une alarme mineure (bleue) est générée.

Action alarme indéterminée

Spécifie l'action à entreprendre quand un indicateur « indeterminate » survient. Un objet dont l'état est indéterminé est signalé par la présence d'une étoile noire (tache d'encre noire). Cela est moins grave qu'une alarme.

Action Fermer

Spécifie l'action lorsque l'alarme est fermée.

Action générale

Spécifie l'action qui est exécutée pour tout changement de variable, qu'une alarme soit ou non générée.


4. Ajoutez une action dans les champs relatifs aux actions.



Remarque - L'action consistant à envoyer un courrier électronique au super-utilisateur pour toute alarme Hardware Diagnostic Suite critique correspond à la configuration par défaut. Vous ne devez ajouter une action à un champ d'action que si vous désirez modifier des actions ou en créer d'autres.



Vous ne pouvez spécifier qu'une action par champ. Pour définir plusieurs actions (par exemple pour envoyer un courrier électronique et exécuter un script) vous devez spécifier ces actions dans des champs séparés. L'exemple qui suit explique comment procéder.

a. Cliquez sur le bouton Actions qui se trouve à côté du niveau (critique, majeure, etc.) de votre choix.

La fenêtre Sélection d'une action s'affiche (FIGURE 5-6).

b. Spécifiez le destinataire du courrier électronique.

 FIGURE 5-6 Le champ Action alarme critique spécifiant une adresse e-mail

Screen shot showing the Action Selection panel. Options are send email, take other action such as a script, or clear actions..
Un destinataire de courrier électronique (dans ce cas admin1@shift1) est ajouté au champ Action alarme majeure.
Dans cet exemple, l'entrée Action critique : email root est l'action par défaut définie en usine. Par la suite, l'action à entreprendre en cas d'alarme critique sera redéfinie pour exécuter un script. En ajoutant un destinataire de courrier électronique au champ Action alarme majeure, une alarme générera un courrier électronique et entraînera l'exécution d'un script.
Par défaut, Hardware Diagnostic Suite ne génère pas d'alarmes « majeures ». Pour que cet exemple fonctionne, vous devez donc définir un seuil d'alarme pour la condition d'alarme majeure. Consultez la Edition des seuils d'alarme pour Hardware Diagnostic Suite.
Dans cet exemple, le courrier électronique suivant est envoyé au destinataire à chaque fois qu'une alarme majeure survient pour quelque erreur bloquante que ce soit :
Date: Tue, 12 Oct 1999 15:25:39 -0800
From: root@Payrool2 (0000-Admin(0000))
Mime-Version:1.0
 
Sun Management Center alarm action notification ... {Alert:
Payroll2 File Scanning Hardware Error Detected Matches > 1}

c. Pour créer une action qui exécute un script lorsqu'une alarme Hardware Diagnostic Suite critique est déclenchée, procédez comme suit :

i. Mettez le script dans le répertoire /var/opt/SUNWsymon/bin en vous assurant d'y associer des permissions d'exécution.



Remarque - Le script doit résider dans le répertoire /var/opt/SUNWsymon/bin pour que vous puissiez le sélectionner dans le menu déroulant Sélection d'une action. Il s'exécute avec des privilèges de super-utilisateur.



ii. Sélectionnez le script dans le menu déroulant Scripts disponibles.

iii. Cliquez sur OK dans le menu.

Dans cet exemple, l'administrateur a écrit un script (/var/opt/SUNWsymon/bin/edproc.sh) qui exécute un programme qui utilise l'appel système p_online() pour désactiver un processeur sur un système multiprocesseur. L'administrateur a également créé un nouveau déclencheur d'alarme qui génère une alarme lorsqu'une erreur FPU bloquante est détectée au cours d'une session de test Hardware Diagnostic Suite.
Ensemble, ces paramètres d'alarme personnalisés auront le résultat décrit dans l'organigramme de la FIGURE 5-7 :

 FIGURE 5-7 Organigramme d'une action en cas d'alarme

Flow chart showing custom alarm process.[ D ]

5. Terminez cette procédure par l'une, au choix, des actions suivantes dans l'Editeur d'attributs :

  • Cliquez sur OK pour accepter les changements effectués et fermer cette fenêtre.
  • Cliquez sur Appliquer pour appliquer vos changements sans fermer la fenêtre.
  • Cliquez sur Réinitialiser pour restaurer les paramètres par défaut de l'Editeur d'attributs.
  • Cliquez sur Annuler pour annuler votre requête.