Guide d'administration du systéme de Sun Cluster 2.2

Chapitre 14 Administration des disques Sun StorEdge A5000

Ce chapitre décrit les instructions à suivre pour l'administration des disques Sun StorEdge A5000.

Lorsque vous remplacez ou réparez le matériel des unités de disque dans une configuration Sun Cluster, consultez le manuel d'entretien des disques Sun StorEdge A5000 et la documentation accompagnant votre logiciel de gestion des volumes.

Reprise après une panne de courant

Lorsqu'un disque Sun StorEdge A5000 cesse d'être alimenté, les opérations d'E/S génèrent des erreurs que détecte votre gestionnaire de volumes. Les erreurs ne sont pas signalées tant que des transactions d'E/S ne sont pas effectuées sur le disque.

Vous devez surveiller la configuration de ces événements à l'aide des commandes décrites au Chapitre 2.

Comment effectuer une reprise après une panne de courant (Solstice DiskSuite)

La liste qui suit énumère les étapes générales de la récupération suite à une panne de courant d'un boîtier de disque dans un environnement Solstice DiskSuite :

Identification des répliques défectueuses
Remise en service des répliques défectueuses
Identification des périphériques défectueux
Remise en service des périphériques défectueux
Resynchronisation des disques

Les étapes expliquées maintenant décrivent en détails la récupération suite à une panne de courant d'un boîtier de disque dans l'environnement Solstice DiskSuite.

Une fois l'alimentation rétablie, exécutez la commande metadb(1M) pour identifier les répliques contenant des erreurs :
# metadb -s ensemble_disques

Remettez en service les répliques.

Après la panne de courant, toutes les répliques de base de données d'état des métapériphériques qui se trouvent sur le châssis de boîtier du disque affecté affichent un état d'erreur. Etant donné que la récupération d'une réplique de la base de données d'état des métapériphériques n'est pas automatique, il est préférable d'effectuer la récupération immédiatement après la remise en service du boîtier de disque. A défaut, une nouvelle panne risque de mettre hors service la plupart des répliques et de provoquer une panne du noyau. Ce comportement de Solstice DiskSuite se produit en général lorsque le nombre de répliques disponibles n'est pas suffisant.

Bien que ces répliques erronées soient restaurées lors de la relève suivante (commande haswitch(1M) ou reboot(1M)), vous pourriez vouloir les remettre en service manuellement en les supprimant et en les ajoutant de nouveau.

Remarque :
Veillez à rajouter le même nombre de répliques que celui qui a été supprimé sur chaque tranche. Vous pouvez supprimer plusieurs répliques simultanément à l'aide de la commande metadb(1M). Si une tranche doit contenir plusieurs exemplaires des répliques, ajoutez ces dernières en exécutant une seule fois la commande metadb(1M), accompagnée de l'indicateur -c.

Exécutez la commande metastat(1M) pour identifier les métapériphériques contenant des erreurs.
# metastat -s ensemble_disques

Remettez en service les métapériphériques contenant des erreurs au moyen de la commande metareplace(1M), puis resynchronisez les disques.
# metareplace -s ensemble_disques -e miroir composant
L'option -e permet au composant (tranche) de passer à l'état de disponibilité et lance la resynchronisation.

Les composants ayant été remplacés par une réserve dynamique doivent être les derniers périphériques remplacés avec la commande metareplace(1M). Si la réserve dynamique est remplacée en premier, elle pourrait remplacer un autre sous-miroir défectueux dès qu'elle sera disponible.

Vous ne pouvez resynchroniser qu'un seul composant de sous-miroir (métapériphérique) à la fois. Si tous les composants d'un sous-miroir ont été touchés par la panne de courant, chaque composant doit être remplacé séparément. La resynchronisation d'un disque de 1,05 Go demande environ 10 minutes.

Si les deux ensembles de disques d'une configuration symétrique ont été touchés par la panne de courant, vous pouvez resynchroniser en même temps les sous-miroirs touchés de chaque ensemble de disques. Connectez-vous séparément à chaque hôte afin de récupérer l'ensemble de disques de chacun d'eux en lançant la commande metareplace(1M) pour chacun.

Remarque :
Selon le nombre de sous-miroirs et de composants figurant dans ces sous-miroirs, la resynchronisation peut demander beaucoup de temps. Ainsi, pour un seul sous-miroir contenant 30 disques de 1,05 Go, elle peut durer environ cinq heures. Avec une configuration moins complexe composée de cinq sous-miroirs, la resynchronisation est achevée au bout de 50 minutes environ.

Comment effectuer une reprise après une panne de courant (VxVM)

Les pannes de courant peuvent provoquer la déconnexion des unités de disques et donc des périphériques virtuels, qui ne sont alors plus disponibles. Le volume demeure toutefois actif, car les périphériques virtuels qui restent dans un volume mis en miroir sont toujours disponibles. Il est possible de reconnecter les unités de disque et de remédier à la situation sans arrêter les noeuds de la grappe.

La liste qui suit énumère les étapes générales de la récupération suite à une panne de courant d'un boîtier de disque dans une configuration VxVM :

Identification des périphériques virtuels défectueux à l'aide des commandes vxprint et vxdisk.
Correction du problème qui a causé la panne de courant.
Utilisation des commandes drvconfig et disks pour créer les entrées /devices et /dev.
Analyse de la configuration de disque actuelle.
Reconnexion des disques qui contenaient des erreurs temporaires.
Vérification de la présence d'autres erreurs.
(Facultatif) Dans le cas de groupes de disques partagés, exécution de la commande vxdg pour chaque disque dont l'alimentation a été coupée.
Lancement de la récupération de volume.

Les étapes expliquées maintenant décrivent en détails la récupération suite à une panne de courant d'un boîtier de disque dans une configuration VxVM.

Exécutez la commande vxprint pour afficher les périphériques virtuels défectueux.

Au besoin, spécifiez un groupe de disques avec l'option -g groupe_disques.

Exécutez la commande vxdisk pour identifier les disques contenant des erreurs.

# vxdisk list
DEVICE       TYPE      DISK         GROUP        STATUS 
.. 
-            -         c1t5d0       toi          failed was:c1t5d0s2 
...

Corrigez l'erreur qui a causé le problème afin de rétablir l'alimentation électrique de tous les disques en panne.

Vérifiez que les disques tournent avant de poursuivre.

Entrez les commandes suivantes sur tous les noeuds de la grappe.

Dans certains cas, les disques doivent être de nouveau reconnus par les noeuds.
# drvconfig # disks

Entrez les commandes suivantes sur tous les noeuds de la grappe.

Le gestionnaire de volumes doit analyser de nouveau la configuration de disque actuelle.
# vxdctl enable # vxdisk -a online

Entrez la commande suivante tout d'abord sur le noeud maître, et ensuite seulement sur tous les autres noeuds de la grappe.

Les disques contenant des erreurs temporaires sont alors rattachés.
# vxreattach

Vérifiez la sortie de la commande vxdisk pour repérer toute autre erreur éventuelle.
# vxdisk list

Si le support a été remplacé, entrez la commande suivante à partir du noeud maître pour chacun des disques déconnectés.

Le disque physique et le nom d'accès du gestionnaire de volumes de ce disque doivent être reconnectés.

# vxdg -g groupe_disques -k adddisk nom_support=nom_accès

Les valeurs pour nom_support et nom_accès figurent à la fin de la sortie de la commande vxdisk list.

Exemple :

# vxdg -g toi -k adddisk c1t5d0=c1t5d0s2
# vxdg -g toi -k adddisk c1t5d1=c1t5d1s2
# vxdg -g toi -k adddisk c1t5d2=c1t5d2s2
# vxdg -g toi -k adddisk c1t5d3=c1t5d3s2
# vxdg -g toi -k adddisk c1t5d4=c1t5d4s2

Vous pouvez également rattacher les disques à l'aide de la commande vxdiskadm ou de l'interface graphique.

Depuis le noeud, démarrez la récupération du volume.

Si vous utilisez des groupes de disques partagés, spécifiez les options -svc dans la commande vxrecover.
# vxrecover -bv [-g groupe_disques]

(Facultatif) Exécutez la commande vxprint -g pour afficher les modifications.

Administration des disques Sun StorEdge A5000

Ce chapitre décrit les procédures d'administration des composants Sun StorEdge A5000. Utilisez les procédures qui figurent dans le manuel du matériel du serveur pour identifier le composant défectueux.

Réparation d'une connexion Sun StorEdge A5000

L'interruption de la connexionentre un boîtier de disque et l'un des noeuds de grappe est habituellement provoquée par une défaillance d'un câble SCSI-2 ou d'une carte SBus.

Dans tous les cas, le noeud sur lequel la panne s'est produite se met à générer des erreurs lorsque la panne est découverte. Les accès subséquents au boîtier de disque produisent d'autres erreurs. Le noeud présente le même comportement que si l'alimentation du boîtier de disque avait été coupée. Les opérations d'E/S effectuées depuis les autres noeuds de la grappe ne sont pas touchées par ce type de panne.

Pour diagnostiquer la panne, vous pouvez avoir recours aux procédures d'essai du module de carte qui figurent dans le manuel d'entretien du noeud Sun Cluster, afin de déterminer quel composant est défectueux. Vous devez normalement libérer un noeud et le boîtier de disque qui semble être en panne afin de dépanner le matériel.

Comment réparer une connexion Sun StorEdge A5000

Préparez le système Sun Cluster comme pour un remplacement de composants.

Selon la cause de la perte de connexion, préparez le noeud Sun Cluster en effectuant l'une des procédures suivantes.
- Si la défaillance s'est produite sur l'adaptateur d'hôte FC-100 SBus, consultez le Chapitre 7 pour savoir comment préparer le noeud Sun Cluster pour la mise hors tension.
- Si c'est le câble à fibres optiques FC-100 qui est défectueux, le logiciel de gestion de volumes aura déjà détecté le problème et préparé le système en vue du remplacement du câble.

Remplacez le composant défectueux.

Si la défaillance s'est produite sur le câble à fibres optiques FC-100 ou sur l'adaptateur d'hôte FC-100 SBus, consultez le Manuel d'installation et d'entretien Sun StorEdge A5000 pour des instructions détaillées sur leur remplacement.

Corrigez les erreurs du logiciel de gestion de volumes.

Effectuez les procédures décrites à la section "Reprise après une panne de courant".

Ainsi prend fin la procédure de rétablissement d'une connexion.

Administration des disques Sun StorEdge A5000

Cette section explique comment ajouter et remplacer des disques Sun StorEdge A5000 dans une configuration Sun Cluster.

Ajout ou remplacement de disques Sun StorEdge A5000

Lorsque vous ajoutez ou remplacez des disques Sun StorEdge A5000, reportez-vous toujours à la documentation accompagnant votre système.

Remarque :

Pour remplacer un disque A5000 défectueux sous contrôle VxVM, vous ne pouvez pas vous contenter de retirer le disque et de le remplacer par un autre. En effet, chaque disque porte un nom universel unique. Pour de plus amples renseignements sur les noms universels, voir "Remplacement d'un contrôleur du tableau SPARCstorage Array et modification du nom universel".

Comment ajouter un disque Sun StorEdge A5000 (Solstice DiskSuite)

Exécutez la commande luxadm pour insérer le nouveau disque.

Procédez à l'installation physique du ou des nouveau(x) disque(s) lorsque le système vous invite à le faire. Répétez cette procédure pour chaque noeud physiquement connecté au tableau.
# luxadm insert boîtier.emplacement

Insérez le nouveau disque et appuyez sur Entrée.

Au besoin, utilisez la commande Format pour créer une étiquette et repartitionner le disque.

Exécutez la commande scdidadm(1M) pour reconnaître le nouveau disque et créer une instance DID correspondante.

N'exécutez cette commande qu'à partir du noeud 1. Pour plus de détails, consultez la page de manuel scdidadm(1M).
# scdidadm -r -H node2,node3...

Ainsi prend fin la procédure d'ajout de disques.

Comment ajouter un disque Sun StorEdge A5000 (VxVM)

Utilisez la commande luxadm pour préparer la boucle en vue de l'ajout d'un nouveau périphérique.

Procédez à l'installation physique du ou des nouveau(x) disque(s) quand le système vous invite à le faire.
# luxadm insert

Signalez à VxVM la présence du nouveau disque.
# vxdctl enable

Au moyen de la commande vxdiskadm, placez le(s) nouveau(x) disque(s) sous le contrôle de VxVM.

Tapez 1 (Ajout ou initialisation d'un ou plusieurs disques).

Ainsi prend fin la procédure d'ajout de disques.

Comment remplacer un disque Sun StorEdge A5000 (Solstice DiskSuite)

Identifiez tous les métapériphériques ou toutes les applications utilisant le disque défectueux.

Si les métapériphériques ont été mis en miroir ou s'il s'agit de périphériques RAID5, le disque peut être remplacé sans qu'il soit nécessaire d'arrêter les métapériphériques. Sinon, il faut interrompre les E/S sur le disque au moyen des commandes appropriées. Pour démonter un système de fichiers sur une bande ou une concaténation, par exemple, vous devez utiliser la commande umount(1M).

Conservez au besoin l'étiquette de disque.

Exemple :
# prvtoc /dev/rdsk/c1t3d0s2 > /tmp/c1t3d0.vtoc

(Facultatif) Exécutez la commande metareplace pour remplacer des tranches de disque si ce dernier n'a pas fait l'objet d'un remplacement dynamique.

Exemple :
# metareplace d1 c1t3d0s2 c1t2d0s2 d1: device c1t3d0s2 is replaced with c1t2d0s2

Exécutez la commande luxadm -F pour supprimer le disque.

L'option -F doit être spécifiée, car Solstice DiskSuite ne met pas les disques hors ligne. Répétez cette commande pour tous les hôtes, s'il y en a plusieurs. Exemple :

# luxadm remove -F /dev/rdsk/c1t3d0s2
WARNING!!! Please ensure that no filesystems are mounted on these device(s). 
All data on these devices should have been backed up.The list of devices which 
will be removed is: 1: Box Name "macs1" rear slot 1 Please enter `q' to Quit 
or <Return> to Continue: stopping: Drive in "macs1" rear  slot 1....Done 
offlining: Drive in "macs1" rear  slot 1....Done Hit <Return> after removing 
the device(s).

Remarque :

L'icône FPM de l'unité de disque à supprimer doit normalement clignoter, de même que la DEL ambre sous cette unité.

Retirez le disque et appuyez sur Entrée.

La sortie résultante doit normalement se présenter comme suit :

Hit <Return> after removing the device(s). 
Drive in Box Name "macs1" rear slot 1   
Removing Logical Nodes: 
Removing c1t3d0s0 Removing c1t3d0s1 Removing c1t3d0s2 Removing c1t3d0s3 
Removing c1t3d0s4 Removing c1t3d0s5 Removing c1t3d0s6 Removing c1t3d0s7 
Removing c2t3d0s0 Removing c2t3d0s1 Removing c2t3d0s2 Removing c2t3d0s3 
Removing c2t3d0s4 Removing c2t3d0s5 Removing c2t3d0s6 Removing c2t3d0s7 
#

Répétez l'Étape 4 pour tous les noeuds si le tableau de disques est configuré en mode multihôtes.

Exécutez la commande luxadm insert pour insérer le nouveau disque.

Répétez cette procédure pour tous les noeuds. La sortie résultante doit normalement se présenter comme suit :

# luxadm insert macs1,r1
The list of devices which will be inserted is: 
1: Box Name "macs1" rear slot 1 
Please enter `q' to Quit or <Return> to Continue: Hit <Return> after inserting the device(s).

Insérez le disque et appuyez sur Entrée.

La sortie résultante doit normalement se présenter comme suit :

Hit <Return> after inserting the device(s). Drive in Box Name "macs1" rear slot 1  
Logical Nodes under /dev/dsk and /dev/rdsk : c1t3d0s0 c1t3d0s1 c1t3d0s2 c1t3d0s3 c1t3d0s4 c1t3d0s5 
c1t3d0s6 c1t3d0s7 c2t3d0s0 c2t3d0s1 c2t3d0s2 c2t3d0s3 c2t3d0s4 c2t3d0s5 c2t3d0s6 c2t3d0s7
#

Remarque :

L'icône FPM de l'unité de disque remplacée doit normalement clignoter, de même que la DEL verte sous cette unité.

Exécutez la commande scdidadm(1M) pour mettre à jour les informations de pseudo-périphérique DID.

Exécutez la commande suivante sur tous les noeuds connectés au disque pour mettre à jour les informations d'ID du nouveau disque.
# scdidadm -R instance_DID
où instance_DID est le numéro d'instance du disque remplacé. Pour de plus amples informations à ce sujet, voir la page de manuel scdidadm(1M).

Réinitialisez tous les noeuds connectés au nouveau disque.

Pour éviter toute interruption, exécutez la commande haswitch(1M) pour commuter la propriété des hôtes logiques pouvant être sous la maîtrise du noeud à réinitialiser. Exemple :
# haswitch phys-hahost2 hahost1 hahost2

Etiquetez le disque si nécessaire.

Exemple :

# cat /tmp/c1t3d0.vtoc | fmthard -s - /dev/rdsk/c1t3d0s2
fmthard: New volume table of contents now in place.

Au besoin, remplacez metadb.

Exemple :

# metadb -d c1t3d0s0; metadb -a c1t3d0s0

Activez les tranches du nouveau disque au moyen de la commande metareplace -e.

Exemple :
# metareplace -e d0 c1t3d0s0 d0: device c1t3d0s0 is enabled
Ainsi prend fin la procédure de remplacement de disque.

Comment remplacer un disque Sun StorEdge A5000 (VxVM)

Identifiez tous les volumes ou applications utilisant le disque défectueux.

Si les volumes ont été mis en miroir ou s'il s'agit de périphériques RAID5, le disque peut être remplacé sans qu'il soit nécessaire d'arrêter le volume. Sinon, il faut interrompre les E/S sur le disque au moyen des commandes appropriées. Pour démonter un système de fichiers sur une bande ou une concaténation, par exemple, vous devez utiliser la commande umount(1M).

Exécutez la commande vxdiskadm pour remplacer et mettre hors ligne une unité de disque.

Sous VxVM, exécutez ces commandes sur l'ordinateur contrôlant l'hôte logique propriétaire du groupe de disques.

Entrez 4 (Suppression du disque pour remplacement) et ensuite 11 (Désactivation [mise hors ligne] du disque).

Vous pouvez également utiliser l'interface graphique, si vous préférez.

Exécutez la commande luxadm pour supprimer le périphérique et les noeuds de périphérique.

Il s'agit d'une commande interactive qui vous invite à retirer le disque physique. Exécutez cette commande sur chacun des noeuds connectés au tableau. Exemple :
# luxadm remove_device -F /dev/rdsk/c2t20d0s2

Remplacez le disque physique et exécutez ensuite la commande luxadm pour insérer le nouveau disque.

Le nouveau périphérique et les noeuds de périphérique sont alors créés. Exécutez cette commande sur chacun des noeuds connectés au tableau. Exemple :
# luxadm insert_device ratbert,r4

Signalez la présence du nouveau disque au gestionnaire de volumes.
# vxdctl enable

Exécutez la commande vxdiskadm pour placer le nouveau disque sous le contrôle de VxVM.

Tapez 5 (Remplacement d'un disque défectueux ou supprimé).

(Facultatif) Le volume peut à présent être restauré, si nécessaire.

Ainsi prend fin la procédure de remplacement de disque.