C H A P I T R E  2

Bogues identifiés dans SMS 1.5

Ce chapitre présente des informations sur les bogues connus de SMS 1.5 et sur ceux qui ont été corrigés dans les patchs SMS prenant en charge le processeur UltraSPARC IV+. Il aborde les sujets suivants :


Bogues corrigés dans cette mise à jour

Cette section répertorie les bogues du logiciel SMS 1.5 et les bogues associés qui ont été corrigés dans les patchs SMS prenant en charge le processeur UltraSPARC IV+.



Remarque - Le patch 120648-02 est requis pour assurer la prise en charge du processeur UltraSPARC IV+.



Amélioration du traitement des erreurs de CPU UltraSPARC IV+ (CR ID 6257778)

Le patch 120843-01 améliore le traitement des erreurs et les capacités de récupération d'OpenBoottrademark PROM en vue d'inclure les processeurs UltraSPARC IV+.

Affichage erroné de la fréquence de bus pour les emplacements C5 par prtdiag (CR ID 6286277)

Après l'enfichage à chaud d'une carte dans l'emplacement 1 (c5v0) et le redémarrage du système, prtdiag indiquait la bonne fréquence de bus pour l'emplacement rempli, mais pas pour les emplacements vides. Ce bogue a été corrigé dans le patch n° 120843-01.

Échec des tests « PCI IOC ECC » à -l64 ou plus sur Starcat avec des cartes UltraSPARC IV+ à double noyau (CR ID 6255743)

Sur les systèmes Sun Fire E25K/E20K sur lesquels sont installées des cartes UltraSPARC IV+ à double noyau, la commande lpost risque d'échouer aux niveaux de diagnostic 64, 96 ou 127. Si ce problème survient, lpost renvoie le message d'erreur suivant :


{SB03/P0/C1} ERROR: TEST=PCI IOC Ecc Tests,SUBTEST=PCI IOC ECC 

 

Le patch 120648-02 corrige ce problème.

Modification de hpost afin de prendre en charge les cartes UltraSPARC IV+ GA de 1 500 MHz (CR ID 6270911)

La commande hpost du logiciel SMS 1.5 doit être modifiée afin d'assurer la prise en charge des cartes UltraSPARC IV+. Le patch 120648-02 effectue cette modification.

Échec de la commande hpost -q suite à l'expiration du délai d'attente (« Out Of Config on Timeout ») lors de la réinitialisation de Solaris (CR ID 6324035)

Il se peut que le délai d'attente d'un système Sun Fire E25K/E20K exécutant le SE Solaris 9 4/04 sur une carte UltraSPARC IV+ arrive à expiration suite à la réinitialisation d'un domaine situé sur cette carte. Le système renvoie alors le message d'erreur suivant :


Proccore SB0/P0/C0 timed out on test Domain Advanced Tests id=0x6F. Test Failed.FAIL Proccore SB0/P0/C0: test_seq_cwd(): failed out of config on timeout
 
(Timeout Secs Given: 30)

 

Le patch 120648-02 corrige ce problème.

Premières moutures de la version 2.1 des processeurs UltraSPARC IV+ réservées à un usage interne (CR ID 6292571)

Les premiers processeurs UltraSPARC IV+ conçus pour la clientèle correspondent à la version 2.1.1. Le patch 120648-02 modifie la fonction POST de sorte qu'elle détecte les processeurs antérieurs à la version 2.1, non adaptés à une utilisation commerciale, et les fait échouer au test de configuration.

Sachez qu'il est impossible de différencier les versions 2.1 et 2.1.1 à l'aide de MaskID, qui les interprète toutes deux comme étant classées sous le numéro 2.1. Quant à la fonction POST, elle est capable de différencier les deux versions à partir d'autres informations à caractère électrique.

UltraSPARC IV+ : tension de marge incorrecte affichée pour les cartes UltraSPARC IV+ par marginvoltage avec vcore minus sur les modèles à 1 500 MHz (CR ID 6288445)

Ce bogue s'applique uniquement aux cartes UltraSPARC IV+ cadencées à 1 500 MHz. De temps à autre, il peut arriver que la commande marginvoltage exécutée avec l'option -m-1 renvoie une valeur erronée. Si vous exécutez à nouveau cette commande quelques secondes plus tard, elle renvoie alors la valeur correcte. Ce bogue a été corrigé dans le patch n° 120789-01.

UltraSPARC IV+ : indication du mauvais format de sortie par marginvoltage pour les cartes UltraSPARC IV+ vcore (CR ID 6290143)

Ce bogue s'applique uniquement aux cartes UltraSPARC IV+ cadencées à 1 500 MHz. Lorsque vous utilisez les options -m-1 ou -m+1 avec la commande marginvoltage, le système renvoie un format de sortie incorrect. Par exemple, l'utilisation de la commande -m+1 renvoie une valeur modifiée de Nom (tension) au lieu de Nom+3% (tension) pour les cartes UltraSPARC IV+. Cette commande renvoie toutefois la sortie correcte pour les cartes UltraSPARC IV et UltraSPARC III. Le patch 120789-01 corrige ce problème.

RFE : AVL-FS2 (Starcat) : diagnostic de nouvelles erreurs par les CPU UltraSPARC IV+ (CR ID 6277467)

Les processeurs UltraSPARC IV+ comprennent des fonctions de fiabilité, disponibilité et entretien (RAS) et de détection des erreurs supplémentaires par rapport aux modèles UltraSPARC IV et III+. Ce CR a pour objet de décrire une amélioration de la fonctionnalité de disponibilité en vue de diagnostiquer les nouvelles erreurs pouvant être signalées par un processeur UltraSPARC IV+. Grâce à cette amélioration, la fonction de disponibilité est en mesure de diagnostiquer toutes les erreurs fatales relatives à l'ensemble des types de processeurs, de même que les erreurs non fatales survenues sur des domaines Solaris 9. Le patch 120827-01 inclut cette amélioration.

CPU du SC devant traiter les erreurs de cache L3/L2 sur les domaines non FMA afin d'éviter d'accuser faussement un processeur (CR ID 6302265)

Les puces UltraSPARC IV+ disposent de trois niveaux de cache. Les niveaux 2 et 3 renvoient aux caches de données ; le premier niveau est interne au processeur tandis que le second est externe.

Il arrive qu'une erreur en entraîne une autre, sorte d'effet secondaire. Lorsqu'une erreur survient sur l'un ou l'autre niveau du cache de données, le logiciel de disponibilité diagnostique la cause originelle de l'erreur et écarte l'erreur ou les erreurs secondaires. Cela permet non seulement de favoriser la fiabilité du diagnostic, mais également de garantir qu'un composant victime de l'erreur ne se trouve pas indûment accusé suite à une erreur secondaire. Le patch 120827-01 corrige cette condition.

L'envoi par hwad d'événements dstop consécutifs entraîne du retard et une reprise automatique du système (ASR) dsmd incorrecte (CR ID 6302843)

Sur un système exécutant plusieurs domaines, la commande hwad doit émettre un événement dstop (arrêt de domaine) pour tous les domaines exécutés avant que dsmd puisse récupérer les domaines suite à une condition d'erreur. Étant donné que ces arrêts de domaines sont émis de manière consécutive, un délai sépare le moment de l'émission de l'arrêt de domaine initial du moment où tous les domaines sont récupérés.

Le patch 120789-01 corrige ce problème de manière à émettre les arrêts de domaines en parallèle à l'aide de threads distincts, éliminant ainsi tout délai.

Les réglages SERD pour événements CPU ne sont pas cohérents entre S9U8, S10U1/FMA et SMS 1.5 (CR ID 6309365)

Pour tenir compte du niveau de cache supplémentaire disponible sur les processeurs UltraSPARC IV+, le SERD (Soft Error Rate Discriminator) du SC nécessitait des valeurs de seuil différentes à des fins d'alignement sur les seuils existants sur le domaine Solaris 9. Sans cet ajustement, le domaine met le processeur hors ligne avant l'exécution du diagnostic portant sur le SC et l'état de viabilité du processeur n'est pas mis à jour correctement.

Le patch 120827-01 corrige ce problème en harmonisant les diagnostics entre les deux versions du système d'exploitation et le logiciel SMS 1.5 pour tous les types de processeurs pris en charge.


Bogues connus du logiciel SMS 1.5

Cette section recense les principaux bogues affectant le fonctionnement de SMS 1.5.

Modifications de numéros de série de châssis non relevées dans les rapports d'événements FMA envoyés à NetConnect (CR ID 5052078)

Si un serveur haut de gamme Sun Fire est exécuté alors que son numéro de série de châssis (CSN, Chassis Serial Number) n'est pas défini sur les contrôleurs système (SC) à l'aide de la commande setcsn, les rapports d'événements FMA (Fault Management Architecture, architecture de gestion des pannes) envoyés à NetConnect suite à l'arrêt d'un domaine (dstop) indiqueront un numéro de série de châssis vide.

Palliatif : exécutez la commande setcsn pour définir le numéro de série du châssis, puis redémarrez SMS. Le numéro de série du châssis ne figure pas dans les rapports d'événements tant que vous ne redémarrez pas SMS.

Pour plus d'informations sur la définition du numéro de série de châssis sur le SC, reportez-vous au Guide d'installation de System Management Services (SMS) 1.5.

Clarifications requises pour la sortie de ndd/dev/scman man_pathgroups_report (CR ID 6252771)

Vous pouvez exécuter la commande ndd(1M) en tant que root afin de lire et d'écrire certains paramètres de pilotes de périphérique. scman(7D) (ndd/dev/scman) gère la partie SC des systèmes Sun Fire E25K/E20K du réseau MAN (Management Area Network) et prend en charge la commande ndd(1M).

Si le paramètre man_pathgroups_report de scman(7D) est mal interprété, une erreur d'origine logicielle peut apparaître comme une erreur matérielle grave. De ce fait, on peut faussement conclure qu'il est nécessaire de remplacer le matériel pour corriger ce problème root.

Lorsque le paramètre man_pathgroups_report est spécifié, vous pouvez obtenir une sortie de ce type :


# ndd /dev/scman man_pathgroups_report
MAN Pathgroup report: (* == error)
Interface       Destination             Active Path     Alternate Paths
----------------------------------------------------------------
scman1          Other SSC               eri0 eri0 exp 0, hme1 exp 0 *

 

L'astérisque (*) figurant à la dernière ligne indique que « la dernière fois qu'une interface physique hme1 a été utilisée, une erreur a été détectée ». Or, par expérience, nous savons que la majorité des occurrences sont dues à un problème logiciel, pas matériel.

Le logiciel produit une erreur lorsque le pair du réseau MAN ne répond plus aux messages de « pulsation » ou en présence d'une transition d'état dlpi(7P) incorrecte. Il est possible de reproduire à volonté le premier scénario en exécutant la commande suivante en tant que root (en supposant que la sortie exacte présentée ci-dessus a été générée) :


# ndd -set /dev/scman man_set_active_path '1 0 1'

 

Pour le SC qui exécute la commande (SC0, par exemple), son chemin actif passe de eri0 à hme1. Pendant quelques temps, le contrôleur système SC1 continue à envoyer les paquets à l'interface physique eri0 et le contrôleur système SC0 les transmet à hme1. Après un laps de temps relativement court, les deux contrôleurs sont synchronisés et communiquent alors au moyen de la même interface. Toutefois, un astérisque sera visible (sur chaque SC) pour signaler la dernière interface sur laquelle une erreur est survenue. Dans ce cas, l'erreur est effectivement due à un problème logiciel (autrement dit, l'erreur correspond réellement à une absence de réponse à une séquence de messages de « pulsation »). Il ne s'agit donc pas d'une erreur matérielle fatale.

Un astérisque sera effectivement visible dans la sortie en présence d'une erreur matérielle fatale persistante. Vous ne devez cependant pas supposer que le matériel est la seule origine possible à la présence de cet astérisque.


Erreurs identifiées dans la documentation de SMS 1.5

Cette section résume les erreurs qui figurent dans les pages de manuel et la documentation relatives à SMS 1.5.

marginvoltage(1M)

Dans la page de manuel marginvoltage, il est écrit :

Les paramètres de marge ne sont pas persistants après les mises sous tension progressives.

Cette affirmation s'applique uniquement aux tensions des noyaux. Tous les autres paramètres sont persistants.

rcfgadm(1M)

CR ID 4945049

La remarque de la page de manuel rcfgadm(1M) devrait être rectifiée ainsi :

Si la commande rcfgadm échoue, l'état initial d'une carte n'est pas restauré. Un message d'erreur dxs ou dcs est consigné sur le domaine. Si l'erreur est récupérable, vous pouvez tenter à nouveau d'exécuter la commande.

single-step bulletSi le SE Solaris 8 ou Solaris 9 est exécuté sur le domaine, procédez à la vérification suivante :

1. Avant cela, assurez-vous que les entrées dcs suivantes se trouvent dans le fichier de configuration /etc/inetd.conf situé sur le domaine et qu'elles n'ont pas été désactivées.


sun-dr stream tcp wait root /usr/lib/dcs dcs
sun-dr stream tcp6 wait root /usr/lib/dcs dcs

 

2. S'il s'agit d'une erreur irrécupérable, redémarrez le domaine pour pouvoir utiliser la carte.

single-step bulletSi le SE Solaris 10 est exécuté sur le domaine, le dcs fait désormais partie du dispositif SMF (Service Management Facility). Effectuez les opérations suivantes :

1. Assurez-vous d'être connecté en tant que superutilisateur (root).

2. Sur le domaine, saisissez la commande suivante à l'invite du système :


# inetadm | grep dcs
 
disabled disabled svc: /platform/sun4u/dcs: default

 

3. Si le dcs est désactivé comme illustré dans l'exemple ci-dessus, activez-le en saisissant la commande suivante :


# svcadm enable svc:/platform/sun4u/dcs:tcp 

 

testemail(1M)

CR ID 5047803

La description de l'option -c figurant dans la page de manuel testemail(1M) devrait être rectifiée ainsi :

Classe de pannes ou liste de classes de pannes séparée par des virgules qu'utilise testemail pour générer un événement.

-c fault_class, fault_class, fault_class

Des exemples de classes de pannes valables sont disponibles dans le fichier intitulé /etc/opt/SUNWSMS/config/SF15000.dict.

CR ID 6221370

La remarque de la section « Description » devrait être rectifiée ainsi :

Lors de l'appel de testemail à l'aide d'une ressource de cache externe, assurez-vous que la carte système comprenant le cache externe est sous tension. À défaut, l'appel de testemail échouera et aucun e-mail ne sera généré.

System Management Services (SMS) 1.5 Administrator Guide

Chapitre 1, page 5 :

La description de VCMON devrait être rectifiée ainsi :

Un paramètre de détection des défauts du noyau au niveau de la tension (VCMON) a été ajouté au logiciel SMS. Lorsque VCMON est activé, il contrôle toute modification au niveau de la tension ou de dérives relatives aux processeurs. Si VCMON détecte une hausse de tension (qui indique généralement un problème de connexion de socket), il informe l'utilisateur de ce changement par un événement FMA et signale le statut CHS (Component Health Status, viabilité du composant) du processeur comme étant défaillant.

Chapitre 10, page 190 :

Dans la description de la commande showboards, l'option -a devrait s'appeler -v.

Dans la description de la commande showenvironment, la catégorie « Device » (Périphérique) aurait dû être supprimée.

Chapitre 11, page 201 :

Le premier exemple devrait être rectifié ainsi :

showlogs -d indicateur_domaine -p s

Le second exemple devrait être corrigé ainsi :

showlogs -d indicateur_domaine -p c

Annexe A, page 247 :

Les commandes suivantes devraient être ajoutées :

smsinstall : installe le logiciel SMS.

smsupgrade : met à niveau le logiciel SMS existant installé sur un système.

Annexe B (CR 6227544 et 4943474)

Les catégories de messages d'erreur suivantes devraient être ajoutées entre les codes d'erreur 11300 et 50000 :

11500-11699 : Réservés aux messages EFHD

11700-11899 : Réservés aux messages ELAD

11900-12099 : Réservés aux messages ERD

12100-12299 : Réservés aux messages Event Utilities

12300-12499 : Réservés aux messages Wcapp

12500-12699 : Réservés aux messages liés aux ID de FRU

12700-12799 : Réservés aux messages EBD

Guide d'installation de System Management Services 1.5 (SMS)

page 5 :

Le tableau Compatibilité matérielle (Tableau 2-1) devrait recenser Solaris 8 2/02 comme première version du logiciel Solaris 8 prise en charge à la fois par les domaines et les contrôleurs système (SC).

Ce tableau contient une erreur typographique ; il fait référence à un processeur UltraSPARC cadencé à 1,65 MHz. La vitesse correcte est de 1,5 MHz.

Le logiciel SMS 1.5 prend en charge une taille de partition /swap de 2 Go en plus de la taille de 4 Go mentionnée dans le Guide d'installation. Les tailles de partition recommandées pour SMS 1.5 sont les suivantes :


0

/ (root)

8 Go

1

swap

4 Go

4

base de données OLDS/LVM (metadb)

32 Mo

5

base de données OLDS/LVM (metadb)

32 Mo

7

/export/install

Restant disponible


 

page 16 :

Assurez-vous que SMS est en cours d'exécution avant de désactiver la fonction de basculement.

Page 18 :

Pour vérifier que la version 1.2.2 de Java a été installée, exécutez la commande java -version à l'invite du système.

L'étape 3 devrait être rectifiée ainsi :

Exécutez la commande smsupgrade afin de réinstaller SMS.

page 30 :

Assurez-vous que SMS est en cours d'exécution avant d'enregistrer le numéro de série du châssis (CSN).

page 39 :

L'exemple devrait indiquer sc0, pas sc1.

page 40 :

L'exemple de la commande flashupdate ne mentionne pas l'option -f. Il devrait être rectifié ainsi :

-f /opt/SUNWsms/hostobjs/sgcpu.flash

page 44 :

Après l'étape 2, la procédure devrait comprendre une troisième étape. L'étape 3 devrait être rectifiée ainsi :

Mettez à niveau le SE Solaris. Reportez-vous à la section « Installation du SE Solaris sur le SC », page 18 ou « Mise à niveau du SE Solaris sur le SC », page 35.

Une étape 4 devrait figurer après l'étape 3 :

Exécutez smsupgrade afin de réinstaller SMS après une mise à niveau importante du SE (voir page 36). Si tel n'est pas le cas, passez à l'étape suivante et restaurez la configuration SMS.

L'en-tête « Réinstallation du logiciel SMS » devrait être remplacé par « Restauration de la configuration SMS ».