Notes de version de Solaris 10 6/06

Chapitre 3 Problèmes système

Ce chapitre décrit les problèmes spécifiques aux serveurs Sun milieu de gamme et haut de gamme. Les serveurs Sun actuels appartiennent à la gamme système Sun Fire. Les serveurs plus anciens appartiennent à la gamme système Sun Enterprise.


Remarque –

Les notes de version de Sun Validation Test Suite constituent désormais un document distinct et sont disponibles sur le site http://sun.com.



Remarque –

Certains des problèmes et bogues répertoriés dans ce chapitre ont été corrigés dans les versions suivantes de Solaris\~10. Si vous avez mis à niveau votre logiciel Solaris, certains problèmes et bogues présentés dans ce chapitre ne s'appliquent peut-être plus. Pour savoir quels bogues et problèmes ne s'appliquent plus à votre logiciel Solaris\~10 spécifique, reportez-vous à l'Annexe A, Tableau des bogues intégrés au système d'exploitation Solaris 10.


Reconfiguration dynamique sur les systèmes haut de gamme Sun Fire

Cette section décrit les principaux bogues DR côté domaine sur les systèmes haut de gamme Sun Fire qui exécutent le logiciel Solaris\~10. Ces systèmes sont les suivants :

Pour plus d'informations sur les bogues de reconfiguration dynamique sur les services de Sun Management Services, reportez-vous aux SMS Release Notes de la version SMS en cours d'exécution sur votre système.

Bogues logiciels et matériels connus

Les bogues logiciels et matériels suivants concernent les systèmes haut de gamme Sun Fire.

Échec de la suppression d'un périphérique réseau lorsqu'un programme maintient ouvert ce périphérique (5054195)

Si un processus maintient ouvert un périphérique réseau, toute opération de reconfiguration dynamique impliquant ce périphérique échoue. Les démons et les processus qui conservent des comptes de référence empêchent l'exécution des opérations de reconfiguration dynamique.

Solution : en tant que superutilisateur, procédez comme suit :

  1. Supprimez ou renommez le répertoire /rplboot.

  2. Fermez les services NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Fermez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server stop
    
  4. Exécutez l'opération de reconfiguration dynamique de séparation.

  5. Redémarrez les services NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Redémarrez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server start
    

Deleteboard affiche une erreur de fuite (4730142)

Des avertissements peuvent s'afficher lorsqu'une commande de reconfiguration dynamique est exécutée sur un système configuré avec la carte SunSwift PCI, Option 1032. Ces avertissements se produisent sur des domaines qui exécutent le logiciel Solaris 8, Solaris 9 ou Solaris\~10. L'avertissement suivant est un exemple :


Aug 12 12:27:41 machine genunix: WARNING:
 vmem_destroy('pcisch2_dvma'): leaked

Ces avertissements sont bénins. L'espace d'accès direct à la mémoire virtuelle est correctement rafraîchi au cours de l'opération de reconfiguration dynamique. Aucune véritable fuite de la mémoire du noyau ne se produit.

Solution : pour empêcher l'affichage de ces avertissements, ajoutez la ligne suivante au fichier /etc/system :


set pcisch:pci_preserve_iommu_tsb=0

Échec de la liaison de la carte réseau GigaSwift Ethernet MMF avec le commutateur CISCO 4003 après connexion de reconfiguration dynamique

La liaison entre un système avec une carte réseau Sun GigaSwift Ethernet MMF Option X1151A et certains commutateurs CISCO échoue. Ce problème se produit lorsque vous essayez d'exécuter une opération de reconfiguration dynamique sur un système connecté à l'un des commutateurs suivants :

Ce problème ne se produit pas sur un commutateur CISCO 6509.

Solution : utilisez un autre commutateur. Vous pouvez également vous procurer, auprès de Cisco, un patch pour les commutateurs dans la liste.

Reconfiguration dynamique sur les systèmes Sun Fire milieu de gamme

Cette section décrit les problèmes principaux liés à la reconfiguration dynamique sur les systèmes Sun Fire milieu de gamme suivants :

Microprogramme du contrôleur système minimum

Le Tableau 3–1 montre les combinaisons possibles du logiciel Solaris avec le microprogramme du CS (contrôleur système) pour chaque système Sun Fire milieu de gamme devant exécuter la reconfiguration dynamique.


Remarque –

Pour tirer le meilleur parti des dernières fonctionnalités du microprogramme et des corrections des bogues, exécutez le microprogramme CS le plus récent sur votre système Sun Fire milieu de gamme. Les dernières informations concernant les patchs sont disponibles sur le site http://sunsolve.sun.com.


Tableau 3–1 Microprogramme CS minimum pour chaque plate-forme et version de Solaris

Plate-forme 

Version de Solaris 

Microprogramme CS minimum 

Sun Fire E6900/E4900 avec UltraSPARC IV+ 

Solaris 10 3/05 HW1 (une version limitée) ou Solaris 10 1/06 

5.19.0 

E6900/E4900 sans UltraSPARC IV+ 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 

5.13.0 

Vous pouvez mettre à niveau le microprogramme système pour votre système Sun Fire milieu de gamme en vous connectant au serveur FTP ou HTTP sur lequel les images du microprogramme sont stockées. Pour plus d'informations, consultez les fichiers README et Install.info. Ces fichiers sont inclus dans les versions du microprogramme exécutées sur les domaines. Vous pouvez télécharger des patchs Sun sur le site http://sunsolve.sun.com.

Bogues logiciels de reconfiguration dynamique

Cette section répertorie les bogues de reconfiguration dynamique importants.

Échec de la suppression d'un périphérique réseau lorsqu'un programme maintient ouvert ce périphérique (5054195)

Si un processus maintient ouvert un périphérique réseau, toute opération de reconfiguration dynamique impliquant ce périphérique échoue. Les démons et les processus qui conservent des comptes de référence empêchent l'exécution des opérations de reconfiguration dynamique.

Solution : en tant que superutilisateur, procédez comme suit :

  1. Supprimez ou renommez le répertoire /rplboot.

  2. Fermez les services NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Fermez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server stop
    
  4. Exécutez l'opération de reconfiguration dynamique de séparation.

  5. Redémarrez les services NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Redémarrez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server start
    

Impossible d'annuler la configuration de la carte cPCI avec un port désactivé 0 (4798990)

Sur les systèmes Sun Fire milieu de gamme, il n'est pas possible d'annuler la configuration d'une carte E/S CompactPCI (cPCI) lorsque le port 0 (P0) de cette carte est désactivé. Ce problème existe dans le logiciel Solaris\~10 et Solaris 9. Il existe également dans le logiciel Solaris 8 sur lequel les patchs suivants sont installés :

En outre, ce problème se produit uniquement au cours d'opérations de reconfiguration dynamique impliquant des cartes cPCI. Un message similaire s'affiche :


# cfgadm -c unconfigure NO.IB7
cfgadm: Hardware specific failure: unconfigure N0.IB7: Device
busy:/ssm@0,0/pci@1b,700000/pci@1

NO.IB7 est une carte E/S CompactPCI dont le port 0 (P0) est désactivé.

Solution : désactivez les emplacements des cartes à la place du port 0.

Notes de version de Sun Enterprise 10000

Cette section décrit les problèmes qui impliquent les fonctions suivantes sur le serveur Sun Enterprise 10000 :


Remarque –

Vous pouvez exécuter le logiciel Solaris\~10 sur des domaines particuliers au sein d'un système Sun Enterprise 10000. Cependant, Sun Enterprise 10000 System Service Processor n'est pas pris en charge par cette version.


Conditions relatives au SSP (System Service Processor)

Le logiciel SSP 3.5 est requis sur le SSP pour prendre en charge le logiciel Solaris\~10. Installez d'abord SSP 3.5 sur le SSP. Vous pouvez ensuite installer ou effectuer la mise à niveau vers le système d'exploitation Solaris\~10 sur un domaine Sun Enterprise 10000.

Le logiciel SSP 3.5 est également requis de manière à configurer correctement le domaine pour DR Model 3.0.

Problèmes liés la reconfiguration dynamique

Cette section décrit les différents problèmes liés à la reconfiguration dynamique sur les domaines Sun Enterprise 10000.

DR Model 3.0

Vous devez utiliser DR 3.0 sur les domaines Sun Enterprise 10000 fonctionnant avec le système d'exploitation Solaris version 9 12/03 et versions ultérieures. DR model 3.0 fait référence à la fonctionnalité qui utilise les commandes suivantes sur le SSP pour effectuer des opérations de reconfiguration dynamique sur les domaines :

Vous pouvez exécuter la commande cfgadm sur les domaines pour obtenir des informations sur l'état de la carte. DR model 3.0 communique également avec Reconfiguration Coordination Manager (RCM) pour coordonner les opérations de reconfiguration dynamique avec d'autres applications fonctionnant sur un domaine.

Pour des détails sur le modèle 3.0 de la reconfiguration dynamique, reportez-vous à la rubrique Sun Enterprise 10000 Dynamic Reconfiguration User Guide.

Reconfiguration dynamique et processus utilisateur liés

Pour cette version de Solaris, la reconfiguration dynamique ne délie plus automatiquement les processus utilisateur des CPU en cours de séparation. Vous devez exécuter cette opération avant d'initialiser une séquence de séparation. L'opération de vidange échoue si les CPU traitent des processus liés.

Échec de la suppression d'un périphérique réseau lorsqu'un programme maintient ouvert ce périphérique (5054195)

Si un processus maintient ouvert un périphérique réseau, toute opération de reconfiguration dynamique impliquant ce périphérique échoue. Les démons et les processus qui conservent des comptes de référence empêchent l'exécution des opérations de reconfiguration dynamique.

Solution : en tant que superutilisateur, procédez comme suit :

  1. Supprimez ou renommez le répertoire /rplboot.

  2. Fermez les services NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Fermez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server stop
    
  4. Exécutez l'opération de reconfiguration dynamique de séparation.

  5. Redémarrez les services NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Redémarrez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server start
    

L'activation de DR 3.0 nécessite une étape supplémentaire dans certaines situations (4507010)

Le logiciel SSP 3.5 est nécessaire pour qu'un domaine soit correctement configuré pour DR 3.0. Une fois que vous avez procédé à la mise à niveau du SSP vers SSP 3.5 et que DR 3.0 est activé sur le domaine, exécutez la commande suivante :


# devfsadm -i ngdr

Réseaux interdomaines

Pour qu'un domaine fasse partie d'un réseau interdomaine, toutes les cartes dont la mémoire est active dans ce domaine doivent être dotées d'au moins une CPU active.

Variables OpenBoot PROM

Avant d'exécuter la commande boot net à partir de l'invite OpenBoot PROM (OK), vérifiez que la variable local-mac-address? a pour valeur false. Il s'agit du paramètre par défaut. Si la variable a la valeur true, vous devez vérifier que cette valeur est appropriée à la configuration locale.


Attention – Attention –

Une variable local-mac-address? définie sur true peut empêcher l'initialisation du domaine sur le réseau.


La fenêtre netcon vous permet d'utiliser la commande suivante à l'invite OpenBoot PROM pour afficher les valeurs des variables OpenBoot PROM :


OK printenv

Pour rétablir la valeur par défaut de la variable adresse-mac-locale?, utilisez la commande setenv :


OK setenv local-mac-address? false

Reconfiguration dynamique sur les systèmes Sun Enterprise milieu de gamme

Cette section contient les dernières informations concernant la fonctionnalité de reconfiguration dynamique pour les serveurs milieu de gamme suivants exécutant le logiciel Solaris\~10 :

Pour plus d'informations sur la reconfiguration dynamique de Sun Enterprise Server, reportez-vous à la rubrique Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. La version Solaris\~10 prend en charge les cartes mémoire/CPU et la plupart des cartes E/S dans les systèmes figurant dans la liste précédente.

Matériel compatible

Avant de continuer, assurez-vous que le système prend en charge la reconfiguration dynamique. Si votre système est ancien, le message suivant s'affiche sur votre console ou dans les journaux de votre console. Ce système n'est pas compatible avec la reconfiguration dynamique.


Hot Plug not supported in this system

Les cartes E/S suivantes ne sont actuellement pas prises en charge :

Notes logicielles

Cette section fournit des informations logicielles d'ordre général sur la reconfiguration dynamique.

Activation de la reconfiguration dynamique

Pour activer la reconfiguration dynamique, vous devez définir deux variables dans le fichier /etc/system. Vous devez également définir une variable supplémentaire pour activer la suppression des cartes mémoire/CPU. Procédez comme suit :

  1. Connectez-vous en tant que superutilisateur.

  2. Modifiez le fichier /etc/system en ajoutant les lignes suivantes :


    set pln:pln_enable_detach_suspend=1
    set soc:soc_enable_detach_suspend=1
    
  3. Pour activer la suppression d'une carte mémoire/CPU, ajoutez cette ligne au fichier :


    set kernel_cage_enable=1
    

    La définition de cette variable active l'opération d'annulation de la configuration de la mémoire.

  4. Réinitialisez le système pour appliquer les modifications.

Test de quiescence

Exécutez la commande suivante pour lancer le test de quiescence :


 # cfgadm -x quiesce-test sysctr10:slot number

Sur un système de grande taille, le test de quiescence peut durer une minute. Pendant la durée du test aucun messages n'est affiché si la commande cfgadm ne trouve aucun pilote non compatible.

Liste des cartes désactivées

Une tentative de connexion à une carte qui figure dans la liste des cartes désactivées peut produire un message d'erreur :


# cfgadm -c connect sysctrl0:slotnumber







cfgadm: Hardware specific failure: connect failed:
board is disabled: must override with [-f][-o enable-at-boot]

Vous disposez de deux options pour annuler la condition désactivée :

Pour supprimer toutes les cartes dans la liste des cartes désactivées, choisissez l'une des deux options en fonction de l'invite à partir de laquelle vous exécutez la commande :

Pour plus d'informations sur le paramètre disabled-board-list, reportez-vous à la section sur les “variables NVRAM spécifiques” du manuel Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Ce manuel fait partie de la documentation utilisée dans cette version.

Liste des mémoires désactivées

Des informations concernant le paramètre OpenBoot PROM disabled-memory-list sont disponibles dans cette version. Consultez la section “Specific NVRAM Variables” du manuel Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems dans la documentation Solaris concernant le matériel Sun.

Déchargement des pilotes mal séparés

Si vous devez décharger des pilotes mal séparés, utilisez la commande de ligne modinfo pour rechercher les ID de module des pilotes. Vous pouvez ensuite utiliser les ID de module dans la commande modunload pour décharger les pilotes mal séparés.

Échec du test automatique au cours d'une séquence de connexion

Retirez la carte du système le plus vite possible si le message d'erreur suivant s'affiche au cours d'une séquence de connexion de reconfiguration dynamique :


cfgadm: Hardware specific failure: connect failed: firmware operation error

La carte est tombée en panne au cours du test automatique, par conséquent le retrait de la carte permet d'éviter les erreurs de reconfiguration possibles pouvant se produire lors de la prochaine initialisation.

L'état du test automatique indiquant un échec, il n'est pas possible d'effectuer d'autres opérations. Par conséquent, si vous voulez retenter immédiatement l'opération qui a échoué, vous devez d'abord retirer et réinsérer la carte.

Bogues connus

La liste suivantes peut être modifiée à tout moment.

Échec de la suppression d'un périphérique réseau lorsqu'un programme maintient ouvert ce périphérique (5054195)

Si un processus maintient ouvert un périphérique réseau, toute opération de reconfiguration dynamique impliquant ce périphérique échoue. Les démons et les processus qui conservent des comptes de référence empêchent l'exécution des opérations de reconfiguration dynamique.

Solution : en tant que superutilisateur, procédez comme suit :

  1. Supprimez ou renommez le répertoire /rplboot.

  2. Fermez les services NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Fermez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server stop
    
  4. Exécutez l'opération de reconfiguration dynamique de séparation.

  5. Redémarrez les services NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Redémarrez les services de serveur d'initialisation.


    # sh /etc/init.d/boot.server start
    

L'entrelacement de la mémoire est incorrectement défini à la suite d'une réinitialisation fatale (4156075)

L'entrelacement de la mémoire est conservé dans un état incorrect lorsqu'un serveur Sun Enterprise5 x500 est réinitialisé suite à une réinitialisation fatale. Les opérations de reconfiguration dynamique suivantes échouent. Le problème se produit uniquement sur les systèmes où l'entrelacement de la mémoire est défini sur min.

Solution : Sélectionnez l'une des options suivantes :

Impossible d'annuler la configuration d'une carte mémoire/CPU comportant de la mémoire entrelacée (4210234)

Pour annuler la configuration d'une carte CPU avec de la mémoire ou d'une carte mémoire seulement et la déconnecter, vous devez d'abord configurer la mémoire. Cependant, si la mémoire sur la carte est entrelacée avec la mémoire d'autres cartes, il n'est actuellement pas possible d'annuler dynamiquement sa configuration.

Pour afficher l'entrelacement de la mémoire, utilisez la commande prtdiag ou cfgadm.

Solution : éteignez le système avant de manipuler la carte, puis réinitialisez-le une fois que vous avez terminé. Pour permettre l'exécution d'autres opérations de reconfiguration dynamique sur la carte mémoire/CPU, attribuez la valeur min à la propriété NVRAM memory-interleave. Reportez-vous également à la rubrique L'entrelacement de la mémoire est incorrectement défini à la suite d'une réinitialisation fatale (4156075) pour une discussion relative à l'entrelacement de la mémoire.

Impossible d'annuler la configuration d'une carte mémoire /CPU comportant de la mémoire permanente (4210280)

Pour annuler la configuration d'une carte CPU avec de la mémoire ou d'une carte mémoire seulement et la déconnecter, vous devez d'abord configurer la mémoire. Cependant, il existe un certain type de mémoire qui ne peut actuellement pas être relocalisée. Cette mémoire est considérée comme permanente.

Sur une carte, une mémoire permanente est signalée par la mention “permanente” dans l'affichage du statut cfgadm :


# cfgadm -s cols=ap_id:type:info
Ap_Id Type Information
ac0:bank0 memory slot3 64Mb base 0x0 permanent
ac0:bank1 memory slot3 empty
ac1:bank0 memory slot5 empty
ac1:bank1 memory slot5 64Mb base 0x40000000

Dans cet exemple, la carte de l'emplacement 3 (slot3) comporte de la mémoire permanente ; par conséquent , elle ne peut pas être retirée.

Solution : éteignez le système avant de manipuler la carte, puis réinitialisez-le une fois que vous avez terminé.

cfgadm Échec de la déconnexion lorsque des commandes cfgadm sont simultanément exécutées (4220105)

Si un processus de commande cfgadm est exécuté sur une carte, une tentative simultanée de déconnexion d'une seconde carte échoue. Le message d'erreur suivant apparaît :


cfgadm: Hardware specific failure: 
disconnect failed: nexus error during detach:address

Solution : exécutez une seule commande cfgadm à la fois. Permettez à l'opération cfgadm qui est exécutée sur une carte de se terminer avant de lancer une opération de déconnexion cfgadm sur une seconde carte.