Guide d'administration du systéme de Sun Cluster 2.2

Récupération à partir des partitions de grappe

Les tentatives des sous-ensembles de membres de grappe de demeurer actifs dans cette grappe peuvent provoquer des défaillances multiples (y compris le partitionnement du réseau). Normalement, ces sous-ensembles ont perdu, en tout ou en partie, leur capacité de communiquer entre eux. Dans ce cas, le logiciel tente de réduire le nombre de grappes valides à une seule. Pour y parvenir, il provoque l'abandon d'une partie ou de l'ensemble des noeuds. Voyons sur quels critères le logiciel fonde ses décisions à cet égard.

Le critère de quorum est un sous-ensemble comportant au moins la moitié des membres de l'ensemble des noeuds de grappe original (et non les seuls noeuds configurés). Si le sous-ensemble n'atteint pas le critère de quorum, les noeuds de ce sous-ensemble provoquent eux-mêmes leur abandon, et un message d'erreur reconfig.4014 apparaît. La présence d'une partition au niveau du réseau ou d'une défaillance simultanée de plus de la moitié des noeuds de la grappe peuvent être à l'origine du non-respect du critère de quorum.


Remarque :

Les grappes valides ne contiennent que des noeuds capables de communiquer entre eux sur des réseaux privés.


Prenons l'exemple d'une grappe à quatre noeuds qui se partitionne en deux sous-ensembles : on retrouve un seul noeud dans le premier sous-ensemble, alors que le second en comporte trois. Les deux sous-ensembles tentent d'atteindre le quorum requis. Comme le premier sous-ensemble ne possède qu'un seul noeud (sur les quatre d'origine), il ne respecte pas le critère de quorum. Par conséquent, le noeud du premier sous-ensemble s'arrête. Quant au second noeud, il possède trois des quatre noeuds originaux. Le quorum est atteint, et ce sous-ensemble demeure actif.

Prenons un autre exemple, celui d'une grappe à deux noeuds avec périphérique de quorum. Si une telle configuration comporte une partition, alors le critère de quorum est respecté avec la présence d'un noeud et du périphérique de quorum, et la grappe demeure active.

Partitions de double contrôle (VxVM seulement)

Une partition de double contrôle survient lorsqu'un sous-ensemble contient exactement la moitié des membres de la grappe. (Il n'y a pas de partition de double contrôle dans le cas d'une grappe à deux noeuds avec périphérique de quorum.) Au cours de la première installation de Sun Cluster, vous deviez décider du type de récupération privilégiée en cas de partition de double contrôle. Vous deviez choisir entre Demander et Sélectionner. Si vous avez opté pour Demander, le système vous demande de sélectionner les noeuds qui doivent demeurer actifs lorsque se produit une partition de double contrôle. Avec l'option select, le système sélectionne automatiquement les membres de la grappe qui demeurent actifs.

Si vous aviez choisi la politique de sélection automatique pour traiter les partitions de double contrôle, vous deviez choisir à nouveau entre les options ID de noeud le plus bas et ID de noeud le plus élevé. Si vous avez sélectionné l'option ID de noeud le plus bas, le sous-ensemble contenant le noeud dont l'ID est le plus bas devient la nouvelle grappe. Si vous avez sélectionné l'option ID de noeud le plus élevé, le sous-ensemble contenant le noeud dont l'ID est le plus élevé devient la nouvelle grappe. Pour de plus amples renseignements, consultez la section portant sur les procédures d'installation du Sun Cluster 2.2 Software Installation Guide.

Quelle que soit l'option choisie, vous devez arrêter manuellement les noeuds dans tous les autres sous-ensembles.

Si vous n'avez pas sélectionné une politique de sélection automatique ou si le système vous demande des précisions lorsque survient la partition, le message d'erreur suivant apparaît :


SUNWcluster.clustd.reconf.3010 
"*** EXECUTER LA COMMANDE ABORTPARTITION OU CONTINUEPARTITION *** Grappe proposée : 
xxx  Noeuds inatteignables : yyy"

De plus, un message semblable à celui-ci apparaît toutes les dix secondes sur la console :


*** EXECUTER LA COMMANDE ISSUE ABORTPARTITION OU CONTINUEPARTITION ***  
Si les noeuds inatteignables se sont formés en grappe, exécutez ABORTPARTITION. 
(scadmin abortpartition <noeud_local> <nom_grappe>) 
Vous pouvez autoriser la formation de la grappe proposée avec la commande CONTINUEPARTITION. 
(scadmin continuepartition <noeud_local> <nom_grappe>) 
Partition de grappe proposée : 0  Noeuds inatteignables : 1

Si vous n'avez pas choisi une sélection automatique, effectuez la procédure suivante pour sélectionner une nouvelle grappe.


Remarque :

Pour redémarrer la grappe après une défaillance de double contrôle, vous devez attendre que le noeud arrêté soit complètement réactivé (ce délai provient de la reconfiguration ou de la réinitialisation du noeud) avant de le ramener dans la grappe avec la commande scadmin startnode.


Comment sélectionner une nouvelle grappe
  1. Décidez du sous-ensemble qui formera la nouvelle grappe. Exécutez la commande suivante sur un noeud du sous-ensemble qui doit être abandonné.


    # scadmin abortpartition
    

    Lorsque vous exécutez la commande abortpartition sur un noeud, le moniteur d'appartenance à une grappe (MAG) reproduit cette commande sur l'ensemble des noeuds de la partition concernée. En conséquence, tous les noeuds de la partition recevant la commande sont abandonnés. Au besoin, procédez à l'abandon manuel des noeuds que le MAG n'a pas réussi à contacter. Pour ce faire, exécutez la commande scadmin abortpartition sur les noeuds toujours actifs.

  2. Exécutez la commande suivante sur un noeud du sous-ensemble qui doit demeurer actif :


    # scadmin continuepartition
    


    Remarque :

    Si la nouvelle grappe subit elle aussi une défaillance, un processus de reconfiguration supplémentaire s'enclenche. En tous temps, il n'y a qu'une seule grappe active.