Guide d'administration du systéme de Sun Cluster 2.2

Reprise après une panne de courant

Lorsqu'un tableau SPARCstorage Arraycesse d'être alimenté, les opérations d'E/S génèrent des erreurs qui sont détectées par le logiciel de gestion des volumes. Les erreurs ne sont pas signalées tant que des transactions d'E/S ne sont pas effectuées sur le disque. Un remplacement dynamique peut être effectué si les périphériques affectés sont configurés à cette fin.

La configuration doit normalement faire l'objet d'une surveillance pour que ces événements soient toujours détectés. Pour de plus amples informations sur la surveillance de la configuration, voir le Chapitre 2.

Comment effectuer une reprise après une panne de courant (Solstice DiskSuite)

La liste qui suit énumère les étapes générales d'une reprise après panne de courant sur un tableau SPARCstorage Array dans une configuration Solstice DiskSuite :

Les étapes expliquées maintenant décrivent en détail la reprise après panne de courant sur un tableau SPARCstorage Arraydans une configuration Solstice DiskSuite.

  1. Une fois le courant rétabli, exécutez la commande metadb(1M) pour identifier les répliques contenant des erreurs.


    # metadb -s ensemble_disques
    

  2. Remettez en service les répliques.

    Après une panne de courant, toutes les répliques de base de données d'état des métapériphériques du châssis de tableau SPARCstorage Array affecté passent à l'état d'erreur. Comme la restauration des répliques de base de données d'état des métapériphériques n'est pas automatique, il est plus prudent de récupérer celles-ci dès que le tableau SPARCstorage Array redevient opérationnel. A défaut, une nouvelle panne risque de mettre hors service la plupart des répliques et de provoquer une panne du noyau. Ce comportement de Solstice DiskSuitese produit en général lorsque le nombre de répliques disponibles n'est pas suffisant.

    Bien que ces répliques erronées soient restaurées lors de la relève suivante (commande haswitch(1M) ou reboot(1M)), il est préférable de les remettre en service manuellement en les supprimant puis en les ajoutant de nouveau.


    Remarque :

    Veillez à rajouter le même nombre de répliques que celui qui a été supprimé sur chaque tranche. Vous pouvez supprimer plusieurs répliques simultanément à l'aide de la commande metadb(1M). Si une tranche doit contenir plusieurs exemplaires des répliques, ajoutez ces dernières en exécutant une seule fois la commande metadb(1M), accompagnée de l'indicateur -c.


  3. Exécutez la commande metastat(1M) pour identifier les métapériphériques contenant des erreurs.


    # metastat -s ensemble_disques
    

  4. Remettez en service les métapériphériques défectueux à l'aide de la commande metareplace(1M), laquelle permet la resynchronisation des disques.


    # metareplace -s ensemble_disques -e miroir composant
    

    L'option -e permet au composant (tranche) de passer à l'état Disponible et lance la resynchronisation.

    Les composants remplacés par une réserve dynamique doivent être remplacés en dernier, à l'aide de la commande metareplace(1M). Si la réserve dynamique est remplacée en premier, elle pourrait remplacer un autre sous-miroir défectueux dès qu'elle sera disponible.

    Vous ne pouvez resynchroniser qu'un seul composant de sous-miroir (métapériphérique) à la fois. Si tous les composants d'un sous-miroir ont été touchés par la panne de courant, chaque composant doit être remplacé séparément. La resynchronisation d'un disque de 1,05 Go demande environ 10 minutes.

    Si plusieurs ensembles de disques ont été touchés par la panne de courant, vous pouvez resynchroniser simultanément les sous-miroirs de chaque ensemble. Ouvrez une session distincte sur chaque hôte et restaurez son ensemble de disques en y exécutant la commande metareplace(1M).


    Remarque :

    Selon le nombre de sous-miroirs et de composants figurant dans ces sous-miroirs, la resynchronisation peut demander beaucoup de temps. Ainsi, pour un seul sous-miroir contenant 30 disques de 1,05 Go, elle peut durer environ cinq heures. Avec une configuration moins complexe composée de cinq sous-miroirs, la resynchronisation est achevée au bout de 50 minutes environ.


Comment effectuer une reprise après une panne de courant (VxVM)

Les pannes de courant peuvent provoquer la déconnexion des unités de disque et donc des périphériques virtuels, qui ne sont alors plus disponibles. Dans un miroir toutefois, le volume reste actif car les périphériques virtuels restants du volume sont toujours disponibles. Il est possible de reconnecter les unités de disque et de remédier à la situation sans arrêter les noeuds de la grappe.

La liste qui suit énumère les étapes générales d'une reprise après panne de courant sur un tableau SPARCstorage Array utilisé dans une configuration VxVM:

Ces étapes expliquent la reprise après panne de courant sur un tableau SPARCstorage Array dans une configuration VxVM.

  1. Exécutez la commande vxprint pour afficher les périphériques virtuels contenant des erreurs.

    Au besoin, spécifiez un groupe de disques avec l'option -g groupe_disques.

  2. Exécutez la commande vxdisk pour identifier les disques contenant des erreurs.


    # vxdisk list
    DEVICE       TYPE      DISK         GROUP        STATUS
    ...
    -            -         c1t5d0       toi          failed was:c1t5d0s2
    ...

  3. Corrigez l'erreur qui a causé le problème afin de rétablir l'alimentation électrique de tous les disques en panne.

    Vérifiez que les disques tournent avant de poursuivre.

  4. Entrez les commandes suivantes sur tous les noeuds de la grappe.

    Dans certains cas, les disques doivent être de nouveau reconnus par les noeuds.


    # drvconfig
    # disks
    

  5. Entrez les commandes suivantes sur tous les noeuds de la grappe.

    VxVM doit lire de nouveau la configuration actuelle du disque.


    # vxdctl enable
    # vxdisk -a online
    

  6. Entrez la commande suivante sur tous les noeuds de la grappe.


    Remarque :

    Si vous utilisez la fonction grappe de VxVM (utilisée avec Oracle Parallel Server), entrez d'abord la commande sur le noeud maître, puis ensuite seulement sur les noeuds esclaves.


    Les disques qui contenaient des erreurs temporaires sont alors reconnectés.


    # vxreattach
    

  7. Vérifiez la sortie de la commande vxdisk pour repérer toute autre erreur éventuelle.


    # vxdisk list
    

    S'il reste des erreurs, exécutez de nouveau la commande vxreattach selon la marche à suivre indiquée (voir Étape 6).

  8. Fonction grappe VxVM (OPS) exclusivement : si vous aviez des groupes de disques partagés et si le support a été remplacé à partir du noeud maître, exécutez une nouvelle fois la commande pour chaque disque ayant été déconnecté.

    Le disque physique et le nom d'accès du gestionnaire de volumes de ce disque doivent être reconnectés.


    # vxdg -g nom-groupe_disques -k adddisk nom_support=nom_accès
    

    Les valeurs pour nom_support et nom_accès figurent à la fin de la sortie de la commande vxdisk list.

    Exemple :


    # vxdg -g toi -k adddisk c1t5d0=c1t5d0s2
    # vxdg -g toi -k adddisk c1t5d1=c1t5d1s2
    # vxdg -g toi -k adddisk c1t5d2=c1t5d2s2
    # vxdg -g toi -k adddisk c1t5d3=c1t5d3s2
    # vxdg -g toi -k adddisk c1t5d4=c1t5d4s2
    

    Vous pouvez également reconnecter les disques à l'aide de la commande vxdiskadm ou de l'interface graphique utilisateur.

  9. Lancez la restauration du volume à partir du noeud (ou du noeud maître dans le cas de groupes de disques partagés).


    # vxrecover -bv [-g groupe_disques]

  10. (Facultatif) Exécutez la commande vxprint -g pour visualiser les résultats.