C H A P I T R E 2 |
Bogues relatifs à SMS 1.4.1 |
Ce chapitre fournit des informations sur les bogues connus de SMS 1.4.1. Il comprend les sections suivantes :
Cette section répertorie les principaux bogues et RFE qui affectent SMS 1.4.1.
Les systèmes haut de gamme Sun Fire enregistrent les événements présentant de l'intérêt dans les SEEPROM de leurs cartes d'E/S via un bus i2c. Les cartes remplaçables à chaud sont équipées de commutateurs CBT permettant d'isoler la carte du point de vue électrique. Lors d'une opération de remplacement à chaud, les commutateurs CBT ne sont pas « ouverts » et les SEEPROM ne sont donc pas accessibles.
Lorsque la commande hpost est exécutée juste après un remplacement à chaud, elle réinitialise les cartes d'E/S, mais ne réactive les commutateurs CBT qu'après avoir testé entièrement les cartes. Si le système tente d'enregistrer un événement dans la SEEPROM pendant ce laps de temps, il ne pourra pas établir de connexion et signalera une erreur de temporisation i2c. Le système continue à fonctionner normalement, mais l'événement n'est pas consigné dans la SEEPROM de la carte d'E/S.
Solution : ne tenez pas compte du message d'erreur.
En de rares occasions, la commande hwad ne parvient pas à détecter la récupération d'un domaine et, de ce fait, n'efface pas l'indicateur dstop du domaine. Par conséquent, dstop est à nouveau exécuté. hwad présuppose que la commande dsmd a déjà pris en compte la commande dstop préalable (ce qui n'est pas le cas) et ne signale pas cet événement à dsmd. De ce fait, le domaine reste bloqué. Il échoue eventuellement lors d'un deuxième test de statut et la commande dsmd tente d'effectuer une récupération par le biais d'une panique forcée.
Le temps nécessaire pour qu'un système haut de gamme Sun Fire se mette sous tension et que ses domaines affichent une invite Solaris a augmenté de près de 15 %.
Lorsque les deux processeurs d'une carte système à deux processeurs sont suspectés de causer des problèmes suite à des erreurs corrigeables ECC Solaris et que le domaine est réinitialisé, le statut d'alimentation de la carte système devient inconnu (UNKNOWN) au lieu de rester actif (ON). Cette situation entraîne l'ÉCHEC de la commande showchs.
Ce problème ne survient pas avec les cartes système à quatre processeurs.
Solution : mettez progressivement sous tension la carte système.
Si une carte système est insérée dans une carte d'extension mise hors tension, aucun enregistrement d'installation n'est effectué.
Solution : retirez la carte système, mettez sous tension la carte d'extension et réinsérez la carte système.
Si vous mettez hors tension une carte d'extension dans un domaine en cours d'exécution, dsmd n'assure pas la récupération du domaine.
Solution : ne mettez pas hors tension une carte d'extension lorsque les composants de l'emplacement 0 ou 1 sont utilisés par un domaine en cours d'exécution.
Il arrive que des systèmes exécutant des opérations setkeyswitch en parallèle rencontrent une erreur CHS 4 (CHS : pas un conteneur) lors de l'utilisation de la commande post. Si la ressource demandée est défaillante, l'erreur CHS 4 entraîne la configuration de la ressource dans le domaine au lieu de l'exclure de ce dernier.
1. Évitez d'appliquer la commande post à des domaines fonctionnant en parallèle.
2. Mettez sous tension les cartes (ou appliquez setkeyswitch standby au domaine) avant d'exécuter setkeyswitch on.
3. Exécutez à nouveau setkeyswitch on en cas d'échec.
Si, après avoir installé SMS 1.4.1 sur votre système, vous tentez d'utiliser smsversion pour basculer entre SMS 1.3 et SMS 1.4.1, SMS 1.4.1 ne sera pas répertorié dans le menu des versions disponibles :
# /opt/SUNWSMS/bin/smsversion smsversion: SMS version 1.3 installed smsversion: SMS version 1.4.1 installed Please select from one of the following installed SMS versions: 1) 1.3 3) Exit |
Si vous tentez de changer de version en spécifiant directement le numéro de version 1.4.1, la mise à niveau aboutit à un échec et affiche le message suivant :
Solution : installez le patch n° 115955-03 sur SMS 1.3.
Si plusieurs domaines sont configurés avec des cartes d'extension divisées et que la commande setkeyswitch est exécutée en parallèle dessus, cela risque de générer une erreur de type « SEEPROM jamais prête », excluant ainsi un composant valable du domaine. Une erreur CHS 4 est également susceptible de se produire, qui permet de configurer dans le domaine un composant doté d'un mauvais résultat CHS.
1. Évitez d'appliquer la commande post à des domaines fonctionnant en parallèle.
2. Mettez sous tension les cartes (ou appliquez setkeyswitch standby au domaine) avant d'exécuter setkeyswitch on.
3. Exécutez à nouveau setkeyswitch on en cas d'échec.
La commande testemail requiert un nombre de classes défaillantes (la liste de paramètres -c) supérieur ou égal au nombre de composants suspects (liste de paramètres -i). Pour certains messages, cela signifie qu'il n'est possible d'entrer qu'un seul composant suspect au maximum. Or, l'utilisateur n'est pas averti que les composants supplémentaires ne seront pas pris en compte.
En de rares occasions, un matériel défaillant peut inciter dstop à tenter un vidage xir après le vidage dstop. Le domaine étant déjà arrêté via d-stop, la commande dsmd ne peut pas obtenir la liste des processeurs actifs et une erreur est générée.
Solution : ne tenez pas compte des messages d'erreur.
La commande dsmd peut parfois créer des vidages XIR et de matériel superflus au cours d'opérations de reconfiguration dynamique. L'opération de reconfiguration dynamique réussit, mais des messages de notification (NOTICE) s'affichent à l'écran.
Solution : ne tenez pas compte des messages d'erreur NOTICE.
En de rares occasions, l'exécution d'opérations setkeyswitch en parallèle sur un domaine doté d'une configuration à cartes d'extension divisées entraîne le blocage du système avec post. Les opérations setkeyswitch ne sont pas menées à terme et ne peuvent être interrompues à l'aide de la combinaison de touches Ctrl+C. Pour éviter ce problème, procédez comme suit :
1. Évitez d'exécuter en parallèle des opérations setkeyswitch sur plusieurs domaines.
2. Évitez d'exécuter en parallèle des opérations setkeyswitch sur des domaines à cartes d'extension divisées.
3. Mettez sous tension les cartes faisant partie du domaine à l'aide de la commande SMS poweron ou de la commande setkeyswitch standby avant d'exécuter setkeyswitch on.
Solution : arrêtez puis redémarrez SMS. Reportez-vous au manuel System Management Services (SMS) 1.4.1 Administrator Guide.
Si vous exécutez setkeyswitch off dans un domaine configuré à l'aide d'une carte d'extension divisée, l'autre domaine peut recevoir un message rstop, même en l'absence de véritable erreur.
Solution : ne tenez pas compte du message rstop.
Lorsqu'une nouvelle carte est insérée dans un domaine de système haut de gamme Sun Fire, elle prend quelques minutes avant de se stabiliser. Le démon esmd sonde le système à la recherche de nouvelles cartes toutes les 30 secondes. Si la carte est en train de se stabiliser au moment de l'émission du sondage, hwad détecte une erreur de temporisation et affiche un message d'erreur. De plus, le voyant de panne jaune s'allume pendant près d'une minute.
Lorsque la commande esmd procède à un nouveau sondage de cartes 30 secondes plus tard, la nouvelle carte est stabilisée et esmd ne détecte aucune erreur de temporisation.
Solution : ne tenez pas compte du message d'erreur.
Si vous retirez une carte des emplacements IO3 et IO4 d'un domaine de système haut de gamme Sun Fire, il se peut que plusieurs messages d'erreur inutiles s'affichent à l'écran. Par exemple :
Les seuls messages qui devraient s'afficher concernent le retrait des deux cartes : « IO3 removed » et « IO4 removed ».
Ce comportement survient lorsque la commande esmd exécute la vérification de tension après le retrait de la carte et avant que la vérification de la configuration ne soit terminée.
Solution : ne tenez pas compte des messages d'erreur.
Si vous tentez de configurer dans un domaine une carte système utilisée dans un autre domaine, la configuration échoue, à moins que vous ne mettiez hors tension la carte au préalable.
Solution : mettez hors tension la carte avant de tenter de la configurer dans le nouveau domaine.
Si picld échoue et redémarre, efhd ne sera pas en mesure de définir le statut du composant d'unités interchangeables sur site FRU (de l'anglais Field Replacable Unit) défaillantes suite à un identificateur erroné. Vous pouvez identifier ce problème en consultant le journal des messages de la plate-forme :
Feb 1 00:42:00 2004 xc10p13-sc1 frad[14699]: [9912 713967991973909 ERR SeepromInfoPro.cc 483] Bad section header on CDCDIMM at EX12/CDCDIMM0, bad |
Si un message de ce type s'affiche, utilisez la commande ps afin de vérifier si picld a été redémarré :
> ps ef | grep picld root 8495 26846 0 11:53:36 pts/25 0:00 grep picld root 27535 1 0 11:57:20 ? 3:06 /usr/lib/picl/picld |
Si la date et l'heure indiquent que picld a redémarré après le dernier lancement de efhd, redémarrez le démon efhd.
Solution : redémarrez le démon efhd.
Si vous tentez d'ajouter de nouveaux utilisateurs à un système au cours d'une mise à niveau du logiciel SMS et avant la restauration de la configuration du système (comme cela peut arriver si vous exécutez la mise à niveau à partir d'un serveur jumpstart), l'installation risque d'échouer suite à des problèmes de mots de passe générés par l'introduction des nouveaux utilisateurs.
Solution : ne configurez pas de nouveaux utilisateurs avant d'y être invité conformément aux instructions du Guide d'installation de System Management Services (SMS) 1.4.1.
Il est possible qu'une erreur d'E/S FRU de type 2 soit renvoyée lorsque le statut de santé du composant (CHS, de l'anglais Component Health Status) est défini sur lecture ou sur écriture si le SC est occupé à traiter d'autres récupérations de domaines. Ce problème peut entraîner la reconfiguration de composants défaillants dans un domaine (si le statut CHS n'est pas défini sur écriture lorsqu'un composant est suspecté de causer des problèmes).
Solution : appliquez manuellement la commande setchs au composant défaillant afin de définir celui-ci sur l'état approprié ou placez-le sur la liste noire ASR.
Il peut arriver qu'une opération poweron se bloque et affiche des messages d'erreur de ce type :
Ces erreurs sont générées par un verrou placé entre la commande poweron et le mécanisme de bascule.
Solution : désactivez failover pendant l'exécution de poweron.
La commande flashupdate ne parvient pas toujours à identifier le numéro du contrôleur système (SC) sur une carte CP2140 et, dans ce cas, affiche le message d'erreur suivant :
flashupdate -f /opt/SUNWSMS/firmware/oSSCPOST.di SC1/FP1 Unable to determine local SC number. Only the local System Control Fproms can be updated. Do you wish to continue? (yes/no)? y |
Solution : répondez y (oui) afin de poursuivre l'opération de mise à jour classique.
Cette section répertorie les bogues les plus importants susceptibles d'affecter le système SMS 1.4.1. Il ne s'agit toutefois pas d'une liste exhaustive de tous les bogues pouvant avoir un impact sur le système SMS 1.4.1.
Si des domaines sont déjà installés et que vous changez la configuration du réseau MAN I1 à l'aide de la commande smsconfig -m, vous devez configurer manuellement les informations du réseau MAN sur ces domaines installés.
Solution : consultez les informations relatives aux domaines déconfigurés fournies dans le Guide d'installation de System Management Services (SMS) 1.4.1.
La mise à jour 7 de l'environnement d'exploitation Solaris 8 n'inclut pas la prise en charge des cartes hsPCI+. Dans les domaines comportant uniquement des cartes hsPCI+, l'installation peut se bloquer après le démarrage des scripts Begin/Finish.
Solution : appuyez sur les touches Ctrl+C afin d'interrompre les scripts Begin/Finish. Cela vous permettra de poursuivre l'installation normalement.
Des délay d'attente intermittents d'I2C sont signalés par dxs et frad à la réception du statut d'une cassette Hpc3130 hsPCI. Les conséquences sont minimes et limitées à la consignation de messages d'erreur dans les fichiers journaux de la plate-forme, du domaine et de la console de domaine.
Si deux domaines partagent une carte d'extension et un pilote de périphérique (ou extension de SE) sur un domaine, une adresse incorrecte est envoyée à l'espace d'E/S programmé et les deux domaines peuvent dstop. Cela se produit uniquement avec les extensions SE défectueuses exécutées en mode privilégié, à l'instar des pilotes de périphériques.
Solution : ne partagez en aucun cas une carte d'extension entre un domaine de production et un domaine contenant des logiciels en mode privilégié non testés ou problématiques comme les pilotes de périphériques.
Si une interruption de type arrêt de domaine (dstop) est détectée par hwad mais pas par dsmd, dsmd signale une panne de pulsation. Seules les informations de configuration du matériel sont vidées et ni les données relatives aux registres du CPU ni celles relatives au domaine (dsmd.dump) ne sont enregistrées. Les fichiers de configuration du matériel signalent une condition dstop.
Solution : vous pouvez poster à nouveau le domaine à un niveau supérieur afin de révéler la source du problème matériel.
Lorsqu'une opération de bascule d'un système Sun Fire ÉCHOUE au démarrage, l'affichage du système PCR dans l'interface utilisateur de SunMC affiche parfois le statut du système comme étant en cours d'activation.
Solution : exécutez la commande d'ILC (interface de ligne de commande) showfailover afin de vérifier le statut du système.
Cette section résume les erreurs qui figurent dans les pages de manuel et la documentation relatives à SMS 1.4.1.
Dans le cadre de la correction appliquée à RFE 4974025, le comportement de la commande poweron a subi des modifications. Auparavant, lorsque SMS détectait un manque d'alimentation pour une carte donnée, la commande échouait tout simplement. À présent, la commande affiche une invite demandant à l'utilisateur s'il souhaite poursuivre ou non.
Les options -y-q répondent automatiquement « no » (non) à cette invite, reproduisant le comportement antérieur. L'option -y ne répond pas automatiquement à cette question.
Copyright © 2004, Sun Microsystems, Inc. Tous droits réservés.