Gestion des défaillances sans reprise automatique (Guide d'administration du systéme de Sun Cluster 2.2)

Guide d'administration du systéme de Sun Cluster 2.2

Gestion des défaillances sans reprise automatique

Dans certains cas de défaillancedouble , il ne peut y avoir de reprise automatique par Sun Cluster. Ces scénarios sont les suivants :

Panne d'un noeud et d'une chaîne dans une configuration à deux chaînes en l'absence de médiateur or sur le noeud fonctionnel. Ce scénario est décrit plus en détails dans la "Défaillance d'un hôte et d'une chaîne".
Données de médiateur erronées, non valides ou inexistantes sur l'un des noeuds ou les deux et sur l'une des chaînes lors d'une défaillance d'une configuration à deux chaînes. La tentative suivante d'acquisition des hôtes logiques échouera.
Panne d'une chaîne dans une configuration à deux chaînes alors que le nombre de répliques intactes sur la chaîne fonctionnelle ne représente pas au moins la moitié du total des répliques de l'ensemble de disques défaillant. Lorsque DiskSuite tente de nouveau de mettre à jour ces répliques, une erreur système grave se produit.
Une défaillance sans reprise automatique s'est produite, et il y a eu tentative de désactiver l'état de maintenance du ou des hôtes logiques affectés avant la fin de l'exécution des procédures de reprise manuelle.

Il est très important de vérifier régulièrement l'état des ensembles de disques, des répliques et des médiateurs. La commande medstat(1M) est utile à cette fin. Les données de médiateur, les répliques et les disques erronés doivent toujours être réparés sur-le-champ pour éviter toute complication dans les cas de pannes multiples.

Quand une défaillance de ce type se produit, l'une des séries suivantes de messages d'erreur est consignée :

ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 66 
ERREUR : base de données non valide pour ensemble <ensemble_disques> 
AVIS : ensemble <ensemble_disques> libéré 
ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 2 
ERREUR : données étiquetées pour ensemble <ensemble_disques> 
AVIS : ensemble <ensemble_disques> libéré 
ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 3 
ERREUR : seulement 50 % des répliques et 50 % des hôtes médiateurs 
  sont disponibles pour <ensemble_disques> 
AVIS : ensemble 
<ensemble_disques> libéré

Les messages suivants finissent également par être affichés :

ERREUR : impossible de devenir propriétaire des hôtes logiques <hôte>, passage 
    au mode de maintenance 
ERREUR : l'état d'un hôte logique en mode de maintenance ne peut être modifié 
    que par intervention manuelle de l'administrateur 
ERREUR : l'administrateur doit trouver l'origine du problème et le corriger et, 
    au besoin, utiliser la commande haswitch pour désactiver l'état de 
maintenance des hôtes logiques

Il faut noter que dans le cas d'une défaillance double de ce type, les objectifs de haute disponibilité sont sacrifiés au profit du maintien de l'intégrité des données. Il est possible que les données ne soient pas disponibles pendant un certain temps. En outre, il n'est pas possible de garantir complètement la récupération ou l'intégrité des données.

Dans un tel cas, vous devez communiquer sur-le-champ avec votre fournisseur de services. Toute tentative de reprise manuelle pour ce type de panne double ne doit être effectuée que par un représentant autorisé. Des efforts bien planifiés et concertés sont nécessaires pour assurer la récupération des données. Ne faites rien avant l'arrivée du représentant.

Votre fournisseur examinera les messages consignés, évaluera le problème et effectuera si possible la réparation des éléments matériels endommagés. Votre fournisseur pourra ensuite tenter d'accéder aux données à l'aide de certaines des options metaset(1M) spéciales décrites à la page de manuel mediator(7). Ces options doivent toujours être utilisées avec la plus grande prudence afin d'éviter la récupération des mauvaises données.

Attention :

Ne tentez jamais d'alterner l'accès entre les deux chaînes. Cela ne ferait qu'aggraver la situation.

Avant de restaurer l'accès client aux données, exécutez toujours toutes les procédures de validation disponibles sur l'ensemble de données en entier ou sur les données touchées par les transactions effectuées récemment sur cet ensemble.

Avant d'exécuter la commande haswitch(1M) pour désactiver le mode de maintenance des hôtes logiques, veillez à libérer la propriété de l'ensemble de disques associé.