Définition des critères pour les pannes persistantes

Langue :

Pour minimiser les perturbations engendrées dans une ressource par des pannes temporaires, le détecteur de pannes redémarre la ressource lorsque des pannes de ce type surviennent. Des mesures plus perturbatrices que redémarrer la ressource sont nécessaires pour les pannes persistantes :

S'il s'agit d'une ressource de basculement, le détecteur de pannes bascule la ressource sur un autre noeud.
S'il s'agit d'une ressource évolutive, le détecteur de pannes met la ressource hors ligne.

Un détecteur de pannes considère une panne comme persistante si le nombre de défaillances complètes d'une ressource dépasse un seuil donné au cours d'un intervalle avant nouvelle tentative défini. Définir les critères de définition des pannes persistantes vous permet de paramétrer le seuil et l'intervalle avant nouvelle tentative les plus adaptés aux caractéristiques de votre cluster et à vos besoins de disponibilité.

Défaillances complètes et partielles d'une ressource

Un détecteur de panne considère certaines pannes comme des défaillances complètes d'une ressource. Une défaillance complète entraîne généralement un arrêt complet du service. Les défaillances suivantes constituent par exemple des défaillances complètes :

Fin inattendue de processus pour le serveur du service de données
Impossibilité pour un détecteur de pannes de se connecter à un serveur de service de données

En cas de défaillance complète, le détecteur de pannes augmente d'une unité le nombre de défaillances complètes au cours de l'intervalle avant nouvelle tentative.

Un détecteur de pannes considère d'autres pannes comme des défaillances partielles d'une ressource. Une défaillance partielle est moins grave qu'une défaillance complète et entraîne généralement une détérioration du service, mais pas un arrêt complet du service. L'envoi d'une réponse incomplète à un test du détecteur de pannes avant l'expiration du délai d'attente par un serveur de service de données constitue un exemple de défaillance partielle.

En cas de défaillance complète, le détecteur de pannes augmente d'une fraction d'unité le nombre de défaillances complètes au cours de l'intervalle avant nouvelle tentative. Toutefois, les défaillances partielles s'additionnent les unes aux autres pendant l'intervalle avant nouvelle tentative.

Les caractéristiques suivantes des défaillances partielles dépendent du service de données :

Les types de pannes que le détecteur de pannes considère comme des défaillances partielles
La fraction d'unité que chaque défaillance partielle ajoute au nombre total de défaillances complètes

Pour plus d'informations sur les pannes détectées par le détecteur de pannes d'un service de données, reportez-vous à la documentation du service de données concerné.

Dépendances du seuil et de l'intervalle avant nouvelle tentative à d'autres propriétés

La durée maximale d'un seul redémarrage d'une ressource défectueuse correspond à la somme des valeurs des propriétés suivantes :

La propriété système Thorough_probe_interval
La propriété d'extension Probe_timeout

Pour être certain de définir un intervalle avant nouvelle tentative suffisamment long pour permettre l'atteinte du seuil, calculez les valeurs de l'intervalle avant nouvelle tentative et du seuil à l'aide de l'expression suivante :

retry_interval >= 2 x threshold × (thorough_probe_interval + probe_timeout)

Le facteur 2 permet de tenir compte des défaillances partielles du test qui n'entraînent pas immédiatement le basculement ou la mise hors ligne de la ressource.

Propriétés système pour la définition du seuil et de l'intervalle avant nouvelle tentative

Pour définir le seuil et l'intervalle avant nouvelle tentative, paramétrez les propriétés système de la resource :

Pour définir le seuil, paramétrez la propriété système Retry_count sur le nombre maximal autorisé de défaillances complètes.
Pour définir l'intervalle avant nouvelle tentative, paramétrez la propriété système Retry_interval sur l'intervalle en secondes dont vous avez besoin.