Guide d'administration du systéme de Sun Cluster 2.2

Reprise après une panne de courant

Lorsque l'alimentation électrique d'un disque Sun StorEdge MultiPack ou Sun StorEdge D1000 est coupée, les opérations d'E/S produisent des erreurs qui sont détectées par le logiciel de gestion des volumes. Les erreurs ne sont pas signalées tant que des transactions d'E/S ne sont pas effectuées sur le disque.

Vous devez surveiller la configuration de ces événements à l'aide des commandes décrites au Chapitre 2.

Comment effectuer une reprise après une panne de courant (Solstice DiskSuite)

La liste qui suit énumère les étapes générales de la récupération suite à une panne de courant d'un boîtier de disque dans un environnement Solstice DiskSuite:

Identification des répliques défectueuses
Remise en service des répliques défectueuses.
Identification des périphériques défectueux.
Remise en service des périphériques défectueux.
Resynchronisation des disques.

Les étapes expliquées maintenant décrivent en détails la récupération suite à une panne de courant d'un boîtier de disque dans l'environnement Solstice DiskSuite.

Une fois l'alimentation rétablie, exécutez la commande metadb(1M) pour identifier les répliques contenant des erreurs :
# metadb -s ensemble_disques

Remettez en service les répliques.

Après la panne de courant, toutes les répliques de base de données d'état des métapériphériques qui se trouvent sur le châssis de boîtier du disque affecté affichent un état d'erreur. Etant donné que la récupération d'une réplique de la base de données d'état des métapériphériques n'est pas automatique, il est préférable d'effectuer la récupération immédiatement après la remise en service du boîtier de disque. A défaut, une nouvelle panne risque de mettre hors service la plupart des répliques et de provoquer une panne du noyau. Ce comportement de Solstice DiskSuite se produit en général lorsque le nombre de répliques disponibles n'est pas suffisant.

Bien que ces répliques erronées soient restaurées lors de la relève suivante (commande haswitch(1M) ou reboot(1M)), vous pourriez vouloir les remettre en service manuellement en les supprimant et en les ajoutant de nouveau.

Remarque :
Veillez à rajouter le même nombre de répliques que celui qui a été supprimé sur chaque tranche. Vous pouvez supprimer plusieurs répliques simultanément à l'aide de la commande metadb(1M). Si une tranche doit contenir plusieurs exemplaires des répliques, ajoutez ces dernières en exécutant une seule fois la commande metadb(1M), accompagnée de l'indicateur -c.

Exécutez la commande metastat(1M) pour identifier les métapériphériques contenant des erreurs.
# metastat -s ensemble_disques

Remettez en service les métapériphériques contenant des erreurs au moyen de la commande metareplace(1M), puis resynchronisez les disques.
# metareplace -s ensemble_disques-e miroir composant
L'option -e permet au composant (tranche) de passer à l'état de disponibilité et lance la resynchronisation.

Les composants ayant été remplacés par une réserve dynamique doivent être les derniers périphériques remplacés avec la commande metareplace(1M). Si la réserve dynamique est remplacée en premier, elle pourrait remplacer un autre sous-miroir défectueux dès qu'elle sera disponible.

Vous ne pouvez resynchroniser qu'un seul composant de sous-miroir (métapériphérique) à la fois. Si tous les composants d'un sous-miroir ont été touchés par la panne de courant, chaque composant doit être remplacé séparément. La resynchronisation d'un disque de 1,05 Go demande environ 10 minutes.

Si les deux ensembles de disques d'une configuration symétrique ont été touchés par la panne de courant, vous pouvez resynchroniser en même temps les sous-miroirs touchés de chaque ensemble de disques. Connectez-vous séparément à chaque hôte afin de récupérer l'ensemble de disques de chacun d'eux en lançant la commande metareplace(1M) pour chacun.

Remarque :
Selon le nombre de sous-miroirs et de composants figurant dans ces sous-miroirs, la resynchronisation peut demander beaucoup de temps. Un seul sous-miroir composé de 30 unités de 1,05 Go peut exiger environ cinq heures, tandis qu'une configuration comprenant des sous-miroirs à cinq composants peut n'exiger que 50 minutes.

Comment effectuer une reprise après une panne de courant (VxVM)

Les pannes de courant peuvent provoquer la déconnexion des unités de disques et donc des périphériques virtuels, qui ne sont alors plus disponibles. Le volume demeure toutefois actif, car les périphériques virtuels qui restent dans un volume mis en miroir sont toujours disponibles. Il est possible de reconnecter les unités de disque et de remédier à la situation sans arrêter les noeuds de la grappe.

La liste qui suit énumère les étapes générales de la récupération suite à une panne de courant d'un boîtier de disque dans une configuration VxVM:

Identification des périphériques virtuels défectueux à l'aide des commandes vxprint et vxdisk.
Correction du problème qui a causé la panne de courant.
Utilisation des commandes drvconfig et disks pour créer les entrées /devices et /dev.
Analyse de la configuration de disque actuelle.
Reconnexion des disques qui contenaient des erreurs temporaires.
Vérification de la présence d'autres erreurs.
(Facultatif) Dans le cas de groupes de disques partagés, exécution de la commande vxdg pour chaque disque dont l'alimentation a été coupée.
Lancement de la récupération de volume.

Les étapes expliquées maintenant décrivent en détails la récupération suite à une panne de courant d'un boîtier de disque dans une configuration VxVM.

Exécutez la commande vxprint pour afficher les périphériques virtuels défectueux.

Vous pouvez également spécifier un groupe de disques avec l'option -g groupe_disques.

Exécutez la commande vxdisk pour identifier les disques contenant des erreurs.

# vxdisk list
DEVICE       TYPE      DISK         GROUP        STATUS 
.. 
-            -         c1t5d0       toi          failed was:c1t5d0s2 
...

Corrigez l'erreur qui a causé le problème afin de rétablir l'alimentation électrique de tous les disques en panne.

Vérifiez que les disques tournent avant de poursuivre.

Entrez les commandes suivantes sur tous les noeuds de la grappe.

Dans certains cas, les disques doivent être de nouveau reconnus par les noeuds.
# drvconfig # disks

Entrez les commandes suivantes sur tous les noeuds de la grappe.

Le gestionnaire de volumes doit analyser de nouveau la configuration de disque actuelle.
# vxdctl enable # vxdisk -a online

Entrez la commande suivante sur tous les noeuds de la grappe.

Remarque :
Pour la fonction de grappe de VxVM (utilisée avec Oracle Parallel Server), entrez la commande d'abord sur le noeud maître, et ensuite seulement sur les noeuds restants.

Ainsi, vous reconnecterez les disques qui comportaient une anomalie temporaire et vous amorcerez leur récupération.
# vxreattach -r

Vérifiez la sortie de la commande vxdisk pour repérer toute autre erreur éventuelle.
# vxdisk list

Si le support a été remplacé, entrez la commande suivante depuis le noeud maître pour chaque disque ayant été déconnecté.

Le disque physique et le nom d'accès du gestionnaire de volumes de ce disque doivent être reconnectés.

# vxdg -g groupe_disques -k adddisk nom_support=nom_accès

Les valeurs pour nom_support et nom_accès figurent à la fin de la sortie de la commande vxdisk list.

Exemple :

# vxdg -g toi -k adddisk c1t5d0=c1t5d0s2
# vxdg -g toi -k adddisk c1t5d1=c1t5d1s2
# vxdg -g toi -k adddisk c1t5d2=c1t5d2s2
# vxdg -g toi -k adddisk c1t5d3=c1t5d3s2
# vxdg -g toi -k adddisk c1t5d4=c1t5d4s2

Vous pouvez également rattacher les disques à l'aide de la commande vxdiskadm ou de l'interface graphique.

Depuis le noeud, lancez la récupération du volume.
# vxrecover -bv [-g groupe_disques]
Si vous disposez de groupes de disques partagés, utilisez les options -svc de la commande vxrecover.

(Facultatif) Exécutez la commande vxprint -g pour afficher les modifications.