C H A P I T R E 3 |
Dépannage |
Ce chapitre traite des types de pannes courants :
Les exemples suivants illustrent des messages de diagnostic cfgadm. (Les messages d'erreur de syntaxe ne sont pas compris dans cette section).
Consultez les pages de manuel suivantes pour des détails supplémentaires sur les messages d'erreur : cfgadm(1M), cfgadm_sbd(1M), cfgadm_pci(1M) et config_admin(3CFGADM).
Une opération de déconfiguration portant sur une carte CPU/mémoire ou une carte d'E/S peut échouer si le système n'est pas dans un état adéquat au début de l'opération.
Si vous essayez de déconfigurer une carte système dont la mémoire est entrelacée sur plusieurs cartes système, le système affiche un message d'erreur tel que :
cfgadm: Hardware specific failure: unconfigure N0.SB2::memory: Memory is interleaved across boards: /ssm@0,0/memory-controller@b,400000 |
Si vous essayez de déconfigurer un CPU auquel un processus est lié, le système affiche un message d'erreur similaire au suivant :
cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu3: Failed to off-line: /ssm@0,0/SUNW,UltraSPARC-III |
Détachez le processus du CPU et réessayez l'opération de déconfiguration.
L'ensemble de la mémoire d'une carte système doit être déconfiguré avant d'essayer de déconfigurer un CPU. Si vous essayez de déconfigurer un CPU sans que toute la mémoire de la carte soit déconfigurée, le système affiche un message d'erreur tel que :
cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu0: Can't unconfig cpu if mem online: /ssm@0,0/memory-controller |
Déconfigurez toute la mémoire de la carte puis déconfigurez le CPU.
Pour déconfigurer la mémoire d'une carte comportant de la mémoire permanente, vous devez transférer les pages de mémoire permanente sur une autre carte qui ait suffisamment de mémoire pour les contenir. Cette carte supplémentaire doit être disponible au début de l'opération de déconfiguration.
Si l'opération de déconfiguration échoue avec un message tel que le suivant, cela indique qu'il n'a pas été possible de déconfigurer la mémoire de la carte :
cfgadm: Hardware specific failure: unconfigure N0.SB0: No available memory target: /ssm@0,0/memory-controller@3,400000 |
Ajoutez à une autre carte suffisamment de mémoire pour contenir les pages de mémoire permanente, puis réessayez l'opération de déconfiguration.
Pour vérifier qu'une page de mémoire ne peut pas être déplacée, utilisez l'option verbose avec la commande cfgadm et recherchez le mot « permanent » dans la liste obtenue :
Si la déconfiguration échoue avec l'un des messages ci-dessous, ceci indique qu'il n'y aurait plus suffisamment de mémoire disponible dans le système si la carte était retirée :
Réduisez la charge de mémoire sur le système puis réessayez. Si vous en êtes capable, installez de la mémoire supplémentaire dans un autre emplacement de carte.
Si la déconfiguration échoue et que le message suivant s'affiche, ceci indique que la demande de mémoire a augmenté pendant l'exécution de l'opération de déconfiguration :
Réduisez la charge de mémoire sur le système puis réessayez.
La déconfiguration d'un CPU fait partie de l'opération de déconfiguration d'une
carte CPU/mémoire. Si au cours d'une telle opération le CPU n'est pas mis hors ligne, le message suivant est enregistré sur la console :
Ce problème survient dans les cas suivants :
Il est possible de déconfigurer une carte puis de découvrir qu'elle ne peut pas être déconnectée. Dans l'écran d'état cfgadm la carte apparaît comme non détachable. Ce problème survient lorsque la carte en question fournit un service matériel essentiel qui ne peut pas être basculé sur une carte de remplacement.
Un périphérique ne peut être ni déconfiguré ni déconnecté alors qu'il est en cours d'utilisation. L'échec de nombreuses opérations de déconfiguration de cartes d'E/S est dû au fait que les cartes sont encore en activité ou qu'un périphérique d'E/S est redevenu actif après avoir été arrêté.
Les disques rattachés à une carte d'E/S doivent être inactifs avant toute tentative visant à déconfigurer ou déconnecter cette carte. Toute tentative de déconfiguration/déconnexion ayant pour objet une carte dont les périphériques sont encore utilisés sera rejetée.
Si une opération de déconfiguration échoue parce qu'une carte d'E/S a un périphérique occupé ou ouvert, la carte en question reste partiellement déconfigurée. Le déroulement de l'opération est bloqué au niveau du périphérique occupé.
Pour pouvoir accéder de nouveau aux périphériques qui n'étaient pas configurés, la carte doit être complètement déconfigurée puis reconfigurée.
Si un périphérique de la carte est occupé, le système enregistrera des messages similaires au suivant après une tentative de déconfiguration :
cfgadm: Hardware specific failure: unconfigure N0.IB6: Device busy: /ssm@0,0/pci@18,700000/pci@1/SUNW,isptwo@4/sd@6,0 |
Pour poursuivre l'opération de déconfiguration, démontez le périphérique et réessayez l'opération de déconfiguration. La carte doit être à l'état déconfiguré pour que vous puissiez essayer de la reconfigurer.
1. Pour voir quels processus ont des périphériques ouverts, utilisez la commande fuser(1M).
2. Exécutez la commande suivante pour éliminer le démon vold dans les règles :
3. Déconnectez tous les contrôleurs SCSI qui sont associés à la carte que vous essayez de déconfigurer. Pour obtenir la liste de tous les contrôleurs SCSI connectés, utilisez la commande suivante :
4. Si les fonctions de redondance miroir de Solaris Volume Manager (SVM) sont utilisées pour accéder à un périphérique connecté à la carte, reconfigurez ces sous-systèmes de sorte que le périphérique ou réseau soit accessible par le biais des contrôleurs d'autres cartes système.
5. Démontez les systèmes de fichiers, sans oublier les métapériphériques SVM qui ont une partition qui réside sur la carte, (par exemple : umount/partition).
6. Supprimez la base de données SVM des partitions qui résident sur la carte. L'emplacement de la base de données SVM est choisi de manière explicite par l'utilisateur et peut être modifié.
7. Supprimez les zones privées utilisées par Sun Volume Manager ou Veritas Volume Manager.
Le gestionnaire de volumes utilise par défaut une zone privée sur chacun des périphériques qu'il contrôle, ce qui fait que ces périphériques doivent être supprimés du gestionnaire de volumes avant de pouvoir être détachés.
8. Supprimez les partitions de disque de la configuration de swap.
9. Interrompez les processus qui ouvrent directement un périphérique ou une partition brute ou dirigez ces processus pour qu'ils ferment le périphérique ouvert sur la carte.
Remarque - Démonter des systèmes de fichiers peut affecter les systèmes clients NFS. |
Le dépassement du temps imparti survient par défaut au bout de deux minutes. Il se peut que les administrateurs aient besoin d'augmenter la valeur de ce délai pour éviter tout dépassement du temps imparti pendant une quiescence du système d'exploitation induite par la fonctionnalité DR, qui peut prendre plus de deux minutes. La quiescence d'un système rend ce système et les services réseau connexes indisponibles pendant une durée qui peut dépasser deux minutes. Ces changements affectent à la fois les machines client et serveur.
Avant de configurer la mémoire, tous les CPU de la carte système doivent être configurés. Si vous essayez de configurer la mémoire alors qu'un ou plusieurs CPU sont déconfigurés, le système affiche un message d'erreur similaire au suivant :
cfgadm: Hardware specific failure: configure N0.SB2::memory: Can't config memory if not all cpus are online: /ssm@0,0/memory-controller |
Une opération de configuration peut échouer si une carte d'E/S a un périphérique qui ne supporte pas l'enfichage à chaud. Dans cette situation, la carte ne sera que partiellement configurée. L'opération s'arrêtera au niveau du périphérique non pris en charge. Dans ce cas, la carte doit être ramenée à l'état déconfiguré avant de tenter une autre configuration. De plus, le système enregistrera des messages similaires au suivant :
Pour poursuivre l'opération de configuration, supprimez le pilote de périphérique non pris en charge ou remplacez-le par une nouvelle version qui prenne en charge l'enfichage à chaud.
Copyright © 2004, Sun Microsystems, Inc. Tous droits réservés.