Guide d'administration du systéme de Sun Cluster 2.2

Gestion des défaillances sans reprise automatique

Dans certains cas de défaillancedouble, il ne peut y avoir de reprise automatique par Sun Cluster. Ces scénarios sont les suivants :

Il est très important de vérifier régulièrement l'état des ensembles de disques, des répliques et des médiateurs. La commande medstat(1M) est utile à cette fin. Les données de médiateur, les répliques et les disques erronés doivent toujours être réparés sur-le-champ pour éviter toute complication dans les cas de pannes multiples.

Quand une défaillance de ce type se produit, l'une des séries suivantes de messages d'erreur est consignée :


ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 66 
ERREUR : base de données non valide pour ensemble <ensemble_disques> 
AVIS : ensemble <ensemble_disques> libéré 
ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 2 
ERREUR : données étiquetées pour ensemble <ensemble_disques> 
AVIS : ensemble <ensemble_disques> libéré 
ERREUR : metaset -s sortie de <ensemble_disques> -f -t avec code 3 
ERREUR : seulement 50 % des répliques et 50 % des hôtes médiateurs 
  sont disponibles pour <ensemble_disques> 
AVIS : ensemble 
<ensemble_disques> libéré

Les messages suivants finissent également par être affichés :


ERREUR : impossible de devenir propriétaire des hôtes logiques <hôte>, passage 
    au mode de maintenance 
ERREUR : l'état d'un hôte logique en mode de maintenance ne peut être modifié 
    que par intervention manuelle de l'administrateur 
ERREUR : l'administrateur doit trouver l'origine du problème et le corriger et, 
    au besoin, utiliser la commande haswitch pour désactiver l'état de 
maintenance des hôtes logiques

Il faut noter que dans le cas d'une défaillance double de ce type, les objectifs de haute disponibilité sont sacrifiés au profit du maintien de l'intégrité des données. Il est possible que les données ne soient pas disponibles pendant un certain temps. En outre, il n'est pas possible de garantir complètement la récupération ou l'intégrité des données.

Dans un tel cas, vous devez communiquer sur-le-champ avec votre fournisseur de services. Toute tentative de reprise manuelle pour ce type de panne double ne doit être effectuée que par un représentant autorisé. Des efforts bien planifiés et concertés sont nécessaires pour assurer la récupération des données. Ne faites rien avant l'arrivée du représentant.

Votre fournisseur examinera les messages consignés, évaluera le problème et effectuera si possible la réparation des éléments matériels endommagés. Votre fournisseur pourra ensuite tenter d'accéder aux données à l'aide de certaines des options metaset(1M) spéciales décrites à la page de manuel mediator(7). Ces options doivent toujours être utilisées avec la plus grande prudence afin d'éviter la récupération des mauvaises données.


Attention : Attention :

Ne tentez jamais d'alterner l'accès entre les deux chaînes. Cela ne ferait qu'aggraver la situation.


Avant de restaurer l'accès client aux données, exécutez toujours toutes les procédures de validation disponibles sur l'ensemble de données en entier ou sur les données touchées par les transactions effectuées récemment sur cet ensemble.

Avant d'exécuter la commande haswitch(1M) pour désactiver le mode de maintenance des hôtes logiques, veillez à libérer la propriété de l'ensemble de disques associé.