Guide d'administration du systéme de Sun Cluster 2.2

Administration des médiateurs

Les hôtes médiateurs sont administrés au moyen des commandes medstat(1M) et metaset(1M). Utilisez ces commandes pour ajouter ou supprimer des hôtes médiateurs, et pour vérifier et réparer les données de médiateur. Pour plus de détails, voir les pages de manuel medstat(1M), metaset(1M) et mediator(7).

Comment ajouter des hôtes médiateurs

Effectuez cette procédure après avoir installé et configuré Solstice DiskSuite.

Lancez le logiciel de grappe sur tous les noeuds.

Sur le premier noeud :
# scadmin startcluster
Sur les autres noeuds :
# scadmin startnode

Identifiez le nom du lien privé pour chaque noeud.

Utilisez la commande grep(1) pour identifier le lien privé contenu dans le fichier nom_grappe.cdb.

hahost1# grep "^cluster.node.0.hostname" \ 
/etc/opt/SUNWcluster/conf/nom_grappe.cdb
cluster.node.0.hostname : hahost0 
phys-hahost1# grep "cluster.node.0.hahost0" \
/etc/opt/SUNWcluster/conf/nom_grappe.cdb | grep 204
204.152.65.33 
hahost1# grep "^cluster.node.1.hostname" \
/etc/opt/SUNWcluster/conf/nom_grappe.cdb
cluster.node.1.hostname : hahost1 
hahost1# grep "cluster.node.1.hahost1" \
/etc/opt/SUNWcluster/conf/nom_grappe.cdb | grep 204
204.152.65.34

Dans cet exemple, 204.152.65.33 est le lien privé pour hahost0 et 204.152.65.34 le lien privé pour hahost1.

Configurez les médiateurs à l'aide de la commande metaset(1M).

Ajoutez chaque hôte avec connectivité à l'ensemble de disques comme médiateur pour cet ensemble. Exécutez chaque commande sur l'hôte qui est actuellement maître de l'ensemble de disques. Vous pouvez utiliser la commande hastat(1M) pour déterminer le maître actuel de l'ensemble de disques. Les informations produites par hastat(1M) pour l'hôte logique identifient le maître de l'ensemble de disques.

hahost1# metaset -s ensemble_disquesA -a -m hahost0,204.152.65.33
hahost1# metaset -s ensemble_disquesA -a -m hahost1,204.152.65.34
hahost1# metaset -s ensemble_disquesB -a -m hahost0,204.152.65.33
hahost1# metaset -s ensemble_disquesB -a -m hahost1,204.152.65.34
hahost1# metaset -s ensemble_disquesC -a -m hahost0,204.152.65.33
hahost1# metaset -s ensemble_disquesC -a -m hahost1,204.152.65.34

La commande metaset(1M) traite le lien privé comme un alias.

Comment vérifier l'état des données de médiateur

Exécutez la commande medstat(1M).
phys-hahost1# medstat -s ensemble_disques
Consultez la page de manuel medstat(1M) pour savoir comment interpréter la sortie. Si la sortie indique que les données de médiateur pour l'un ou l'autre des hôtes médiateurs d'un ensemble de disques donné sont erronées, procédez comme expliqué maintenant pour remédier au problème.

Comment corriger des données de médiateur erronées

Remarque :

La commande medstat(1M) permet de vérifier l'état des médiateurs. Effectuez cette procédure si la commande medstat(1M) signale un hôte médiateur défectueux.

Supprimez les hôtes médiateurs défaillants de tous les ensembles de disques touchés.

Connectez-vous au noeud Sun Clusterpropriétaire de l'ensemble de disques touché et tapez :
phys-hahost1# metaset -s ensemble_disques -d -m hôte_mediateur_défectueux

Restaurez l'hôte médiateur et ses alias :
phys-hahost1# metaset -s ensemble_disques -a -m hôte_mediateur_défectueux, alias_hôte_physique, ...
Remarque :
Les liens privés doivent être attribués comme alias d'hôte médiateur. Spécifiez d'abord l'adresse IP de l'hôte physique et ensuite le lien privé HA sur la ligne de commande metaset(1M). Consultez la page de manuel mediator(7) pour plus de détails sur l'utilisation de la commande metaset(1M).

Gestion des défaillances sans reprise automatique

Dans certains cas de défaillancedouble , il ne peut y avoir de reprise automatique par Sun Cluster. Ces scénarios sont les suivants :

Panne d'un noeud et d'une chaîne dans une configuration à deux chaînes en l'absence de médiateur or sur le noeud fonctionnel. Ce scénario est décrit plus en détails dans la "Défaillance d'un hôte et d'une chaîne".
Données de médiateur erronées, non valides ou inexistantes sur l'un des noeuds ou les deux et sur l'une des chaînes lors d'une défaillance d'une configuration à deux chaînes. La tentative suivante d'acquisition des hôtes logiques échouera.
Panne d'une chaîne dans une configuration à deux chaînes alors que le nombre de répliques intactes sur la chaîne fonctionnelle ne représente pas au moins la moitié du total des répliques de l'ensemble de disques défaillant. Lorsque DiskSuite tente de nouveau de mettre à jour ces répliques, une erreur système grave se produit.
Une défaillance sans reprise automatique s'est produite, et il y a eu tentative de désactiver l'état de maintenance du ou des hôtes logiques affectés avant la fin de l'exécution des procédures de reprise manuelle.

Il est très important de vérifier régulièrement l'état des ensembles de disques, des répliques et des médiateurs. La commande medstat(1M) est utile à cette fin. Les données de médiateur, les répliques et les disques erronés doivent toujours être réparés sur-le-champ pour éviter toute complication dans les cas de pannes multiples.

Quand une défaillance de ce type se produit, l'une des séries suivantes de messages d'erreur est consignée :

ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 66 
ERREUR : base de données non valide pour ensemble <ensemble_disques> 
AVIS : ensemble <ensemble_disques> libéré 
ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 2 
ERREUR : données étiquetées pour ensemble <ensemble_disques> 
AVIS : ensemble <ensemble_disques> libéré 
ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 3 
ERREUR : seulement 50 % des répliques et 50 % des hôtes médiateurs 
  sont disponibles pour <ensemble_disques> 
AVIS : ensemble 
<ensemble_disques> libéré

Les messages suivants finissent également par être affichés :

ERREUR : impossible de devenir propriétaire des hôtes logiques <hôte>, passage 
    au mode de maintenance 
ERREUR : l'état d'un hôte logique en mode de maintenance ne peut être modifié 
    que par intervention manuelle de l'administrateur 
ERREUR : l'administrateur doit trouver l'origine du problème et le corriger et, 
    au besoin, utiliser la commande haswitch pour désactiver l'état de 
maintenance des hôtes logiques

Il faut noter que dans le cas d'une défaillance double de ce type, les objectifs de haute disponibilité sont sacrifiés au profit du maintien de l'intégrité des données. Il est possible que les données ne soient pas disponibles pendant un certain temps. En outre, il n'est pas possible de garantir complètement la récupération ou l'intégrité des données.

Dans un tel cas, vous devez communiquer sur-le-champ avec votre fournisseur de services. Toute tentative de reprise manuelle pour ce type de panne double ne doit être effectuée que par un représentant autorisé. Des efforts bien planifiés et concertés sont nécessaires pour assurer la récupération des données. Ne faites rien avant l'arrivée du représentant.

Votre fournisseur examinera les messages consignés, évaluera le problème et effectuera si possible la réparation des éléments matériels endommagés. Votre fournisseur pourra ensuite tenter d'accéder aux données à l'aide de certaines des options metaset(1M) spéciales décrites à la page de manuel mediator(7). Ces options doivent toujours être utilisées avec la plus grande prudence afin d'éviter la récupération des mauvaises données.

Attention :

Ne tentez jamais d'alterner l'accès entre les deux chaînes. Cela ne ferait qu'aggraver la situation.

Avant de restaurer l'accès client aux données, exécutez toujours toutes les procédures de validation disponibles sur l'ensemble de données en entier ou sur les données touchées par les transactions effectuées récemment sur cet ensemble.

Avant d'exécuter la commande haswitch(1M) pour désactiver le mode de maintenance des hôtes logiques, veillez à libérer la propriété de l'ensemble de disques associé.

Messages d'erreur relatifs aux médiateurs

Les messages de consignation système ou de console signalent un problème de médiateurs ou de données de médiateur. Utilisez la procédure "Comment corriger des données de médiateur erronées" pour traiter les problèmes.

Attention : medstat indique des données de médiateur erronées sur l'hôte %s 
    pour les ensembles de disques %s
 
Attention : medstat a détecté une erreur fatale dans les données de médiateur 
    sur l'hôte %s de l'ensemble de disques %s ! 
Attention : échec de medstat pour l'ensemble de disques %s