A N N E X E  B

Dépannage

Ce chapitre traite des types de pannes courants :

Les exemples suivants illustrent des messages de diagnostic cfgadm. (Les messages d'erreur de syntaxe ne sont pas compris dans cette section.)


cfgadm: Configuration administration not supported on this machine
cfgadm: hardware component is busy, try again
cfgadm: operation: configuration operation not supported on this machine
cfgadm: operation: Data error: error_text
cfgadm: operation: Hardware specific failure: error_text
cfgadm: operation: Insufficient privileges
cfgadm: operation: Operation requires a service interruption
cfgadm: System is busy, try again
WARNING: Processor nombre failed to offline. 

 

Pour de plus amples informations sur les messages d'erreur, reportez-vous aux pages man suivantes : cfgadm(1M), cfgadm_sbd(1M), cfgadm_pci(1M) et config_admin(3CFGADM).


Échec d'une opération de déconfiguration

Une opération de déconfiguration portant sur une carte système ou une carte d'E/S peut échouer si le système n'est pas dans un état adéquat au début de l'opération.

Échecs de la déconfiguration d'une carte système

Impossible de déconfigurer une carte dont la mémoire est entrelacée sur plusieurs cartes

Si vous essayez de déconfigurer une carte système dont la mémoire est entrelacée sur plusieurs cartes système, le système affiche un message d'erreur tel que :


cfgadm: Hardware specific failure: unconfigure N0.SB2::memory: Memory is
interleaved across boards: /ssm@0,0/memory-controller@b,400000

 

Impossible de déconfigurer un CPU auquel un processus est lié

Si vous essayez de déconfigurer un CPU auquel un processus est lié, le système affiche un message d'erreur similaire au suivant :


cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu3: Failed to off-line:
/ssm@0,0/SUNW,UltraSPARC-III

 

single-step bulletDétachez le processus du CPU et recommencez l'opération de déconfiguration.

Impossible de déconfigurer un CPU si toute la mémoire n'est pas déconfigurée (systèmes milieu de gamme uniquement)

L'ensemble de la mémoire d'une carte système doit être déconfiguré avant d'essayer de déconfigurer un CPU. Si vous essayez de déconfigurer un CPU sans que toute la mémoire de la carte soit déconfigurée, le système affiche un message d'erreur tel que :


cfgadm: Hardware specific failure: unconfigure N0.SB2::cpu0: Can't unconfig cpu
if mem online: /ssm@0,0/memory-controller

 

single-step bulletDéconfigurez toute la mémoire de la carte puis déconfigurez le CPU.

Impossible de déconfigurer la mémoire sur une carte comportant de la mémoire permanente

Pour déconfigurer la mémoire d'une carte comportant de la mémoire permanente, vous devez transférer les pages de mémoire permanente sur une autre carte qui ait suffisamment de mémoire pour les contenir. Cette carte supplémentaire doit être disponible au début de l'opération de déconfiguration.

Impossible de reconfigurer la mémoire

Si l'opération de déconfiguration échoue avec un message tel que le suivant, cela indique qu'il n'a pas été possible de déconfigurer la mémoire de la carte :


cfgadm: Hardware specific failure: unconfigure N0.SB0: No available memory
target: /ssm@0,0/memory-controller@3,400000

 

Ajoutez à une autre carte suffisamment de mémoire pour contenir les pages de mémoire permanente, puis recommencez l'opération de déconfiguration.

single-step bulletVérifiez que la page de mémoire ne peut pas être déplacée.

Recherchez le terme « permanent » dans la liste.


# cfgadm -av -s "select=type(memory)"

 
Mémoire disponible insuffisante

Si la déconfiguration échoue et l'un des messages ci-dessous s'affiche, ceci indique qu'il n'y aurait plus suffisamment de mémoire disponible dans le système si la carte était retirée.


cfgadm: Hardware specific failure: unconfigure N0.SB0: Insufficient memory

cfgadm: Hardware specific failure: unconfigure N0.SB0: Memory operation failed

  

single-step bulletRéduisez la charge de la mémoire du système et recommencez. Si cela s'avère pratique, installez davantage de mémoire à un autre emplacement de carte.

Augmentation de la demande de mémoire

Si la déconfiguration échoue et que le message suivant s'affiche, ceci indique que la demande de mémoire a augmenté pendant l'exécution de l'opération de déconfiguration :


cfgadm: Hardware specific failure: unconfigure N0.SB0: Memory operation refused

 

single-step bulletRéduisez la charge de mémoire sur le système, puis recommencez.

Impossible de déconfigurer un CPU

La déconfiguration d'un CPU fait partie de l'opération de déconfiguration d'une carte système. Si au cours d'une telle opération le CPU n'est pas mis hors ligne, le message suivant est enregistré sur la console :


WARNING: Processor nombre failed to offline. 

 

Ce problème survient dans les cas suivants :

Impossible de déconnecter une carte

Il est possible de déconfigurer une carte puis de découvrir qu'elle ne peut pas être déconnectée. Dans l'écran d'état cfgadm, la carte apparaît comme non détachable. Ce problème survient lorsque la carte en question fournit un service matériel essentiel qui ne peut pas être basculé sur une carte de remplacement.

Échec de la déconfiguration d'une carte d'E/S

Un périphérique ne peut être ni déconfiguré ni déconnecté alors qu'il est en cours d'utilisation. L'échec de nombreuses opérations de déconfiguration de cartes d'E/S est dû au fait que les cartes sont encore en activité ou qu'un périphérique d'E/S est redevenu actif après avoir été arrêté.

Périphérique occupé

Les disques rattachés à une carte d'E/S doivent être inactifs avant toute tentative visant à déconfigurer ou à déconnecter cette carte. Toute tentative de déconfiguration/déconnexion ayant pour objet une carte dont les périphériques sont encore utilisés sera rejetée.

Si une opération de déconfiguration échoue parce qu'une carte d'E/S a un périphérique occupé ou ouvert, la carte en question reste partiellement déconfigurée. Le déroulement de l'opération est bloqué au niveau du périphérique occupé.

Pour pouvoir accéder de nouveau aux périphériques qui n'étaient pas configurés, la carte doit être complètement déconfigurée, puis reconfigurée.

Si un périphérique de la carte est occupé, le système enregistre des messages similaires au suivant après une tentative de déconfiguration :


cfgadm: Hardware specific failure: unconfigure N0.IB6: Device busy: /ssm@0,0/pci@18,700000/pci@1/SUNW,isptwo@4/sd@6,0

 

Pour poursuivre l'opération de déconfiguration, démontez le périphérique et recommencez l'opération de déconfiguration. La carte doit être à l'état déconfiguré pour que vous puissiez essayer de la reconfigurer.

Problèmes liés aux périphériques d'E/S

1. Exécutez la commande fuser(1M) pour identifier les processus pour lesquels le périphérique est ouvert.

2. Éliminez le démon vold dans les règles.


 #  /etc/init.d/volmgt stop

 

3. Déconnectez tous les contrôleurs SCSI qui sont associés à la carte que vous essayez de déconfigurer.

Pour obtenir la liste de tous les contrôleurs SCSI connectés, utilisez la commande suivante.


 # cfgadm -l -s "select=class(scsi)"

 

4. Si les fonctions de redondance miroir de Solaris Volume Manager sont utilisées pour accéder à un périphérique connecté à la carte, reconfigurez ces sous-systèmes de sorte que le périphérique ou le réseau soit accessible par le biais des contrôleurs d'autres cartes système.

5. Démontez les systèmes de fichiers, sans oublier les métapériphériques Volume Manager dont la partition réside sur la carte.


# umount/partition

 

6. Supprimez la base de données Volume Manager des partitions qui résident sur la carte.

L'emplacement de la base de données Volume Manager est choisi de manière explicite par l'utilisateur et peut être modifié.

7. Supprimez les zones privées utilisées par Solaris Volume Manager ou Veritas Volume Manager.

Solaris Volume Manager utilise par défaut une zone privée sur chacun des périphériques qu'il contrôle. Ces périphériques doivent donc être supprimés de Solaris Volume Manager avant de pouvoir être détachés.

8. Supprimez les partitions de disque de la configuration de swap.

9. Interrompez les processus qui ouvrent directement un périphérique ou une partition brute, ou dirigez ces processus pour qu'ils ferment le périphérique ouvert sur la carte.



Remarque - Le démontage de systèmes de fichiers peut affecter les systèmes clients NFS.



Dépassement du délai imparti RPC ou TCP ou Perte de connexion

Le dépassement du temps imparti survient par défaut au bout de deux minutes. Il se peut que les administrateurs aient besoin d'augmenter la valeur de ce délai pour éviter tout dépassement du temps imparti pendant une quiescence du système d'exploitation induite par la fonctionnalité DR, qui peut prendre plus de deux minutes. La quiescence d'un système rend ce dernier et les services réseau connexes indisponibles pendant une durée qui peut dépasser deux minutes. Ces changements affectent à la fois les machines client et serveur.


Échec d'une opération de configuration

Échec de la configuration de la mémoire (systèmes milieu de gamme uniquement)

Avant de configurer la mémoire, tous les CPU de la carte système doivent être configurés. Si vous essayez de configurer la mémoire alors qu'un ou plusieurs CPU sont déconfigurés, le système affiche un message d'erreur similaire au suivant :


cfgadm: Hardware specific failure: configure N0.SB2::memory: Can't config memory if not all cpus are online: /ssm@0,0/memory-controller

 

Échec de la configuration d'une carte d'E/S

Une opération de configuration peut échouer si une carte d'E/S a un périphérique qui ne prend pas en charge l'enfichage à chaud. Dans cette situation, la carte n'est que partiellement configurée. L'opération s'arrête au niveau du périphérique non pris en charge. Dans ce cas, la carte doit être ramenée à l'état déconfiguré avant une autre tentative de configuration. De plus, le système enregistre des messages similaires au suivant :


cfgadm: Hardware specific failure: configure N0.IB6: Unsafe driver present: <device path>

 

single-step bulletPour poursuivre l'opération de configuration, supprimez le pilote de périphérique non pris en charge ou remplacez-le par une nouvelle version qui reconnaît l'enfichage à chaud.