Definición de los criterios de fallos persistentes

Idioma:

Para minimizar la interrupción que ocasionan los fallos temporales en un recurso, el supervisor de fallos reinicia el recurso en respuesta a dichos fallos. Para los fallos persistentes, es necesario realizar acciones que generan más interrupciones que el reinicio del recurso:

Para un recurso de failover, el supervisor de fallos realiza un failover del recurso en otro nodo.
Para un recurso escalable, el supervisor de fallos pone el recurso fuera de línea.

Un supervisor de fallos considera que un fallo es persistente si la cantidad de errores completos de un recurso supera un umbral determinado en un intervalo de reintento específico. Definir los criterios de los fallos persistentes permite definir el umbral y el intervalo de reintento para adaptarse a las características de rendimiento del cluster y los requisitos de disponibilidad.

Errores completos y parciales de un recurso

Un supervisor de fallos considera algunos fallos como un error completo de un recurso. Un error completo generalmente provoca una pérdida total del servicio. Los siguientes errores son ejemplos de errores completos:

Finalización inesperada del proceso de un servidor del servicio de datos.
Imposibilidad de un supervisor de fallos de conectarse con un servidor del servicio de datos.

Un error completo hace que el supervisor de fallos incremente en uno el número de errores completos en el intervalo de reintento.

Un supervisor de fallos considera otros fallos como un error parcial de un recurso. Un error parcial se considera menos grave que uno completo y generalmente provoca una degradación del servicio, pero no una pérdida total de él. Un ejemplo de un error parcial es una respuesta incompleta de un servidor del servicio de datos antes del timeout de un sondeo del supervisor de fallos.

Un error parcial hace que el supervisor de fallos incremente en una fracción el número de errores completos en el intervalo de reintento. Los errores parciales se siguen acumulando durante el intervalo de reintento.

Las siguientes características de los errores parciales dependen del servicio de datos:

Los tipos de fallos que el supervisor de fallos considera como un error parcial.
La fracción que cada error parcial suma al número de errores completos.

Para obtener información sobre los fallos que detecta el supervisor de fallos de un servicio de datos, consulte la documentación del servicio de datos.

Dependencias del umbral y el intervalo de reintento en otras propiedades

El tiempo máximo necesario para un reinicio único de un recurso defectuoso es la suma de los valores de las siguientes propiedades:

Propiedad del sistema Thorough_probe_interval
Propiedad de extensión Probe_timeout

Para garantizar que haya tiempo suficiente para alcanzar el umbral en el intervalo de reintento, utilice la siguiente expresión para calcular los valores del intervalo de reintento y el umbral:

retry_interval >= 2 x threshold × (thorough_probe_interval + probe_timeout)

La multiplicación por dos considera los errores de sondeo parciales que no provocan una desconexión o un failover inmediatos del recurso.

Propiedades del sistema para definir el umbral y el intervalo de reintento

Para definir el umbral y el intervalo de reintento, establezca las siguientes propiedades del sistema para el recurso:

Para definir el umbral, establezca la propiedad del sistema Retry_count en el número máximo permitido de errores completos.
Para definir el intervalo de reintento, establezca la propiedad del sistema Retry_interval en el intervalo en segundo requerido.