Mecanismo de recuperación rápida (Sun Cluster: Guía de conceptos para SO Solaris)

Sun Cluster: Guía de conceptos para SO Solaris

Mecanismo de recuperación rápida

Si el CMM detecta un problema grave en un nodo, envía una señal a la estructura del clúster para forzar un apagado (aviso grave) del nodo y borrarlo de la pertenencia al clúster. El mecanismo por el que ello ocurre se denomina recuperación rápida. Éste obliga a un nodo a apagarse de dos formas.

Si un nodo abandona el clúster y después intenta crear uno nuevo sin tener quórum, queda “aislado” y se le impide acceder a discos compartidos. Consulte Aislamiento de fallos para obtener detalles sobre este uso de la recuperación rápida.
Si uno o más daemons específicos del clúster dejan de existir (clexecd , rpc.pmfd, rgmd o rpc.ed) el CMM detecta el fallo y el nodo emite un aviso grave. Cuando la finalización de un daemon del clúster hace que un nodo emita un aviso grave, en la consola de éste aparecerá un mensaje parecido a éste.

panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

Después de la condición de aviso grave, el nodo podría rearrancar e intentar volver a unirse al clúster o, si éste se compone de sistemas basados en plataformas SPARC, permanecer en el indicador PROM (OBP) de OpenBoot^TM. La acción que se toma depende del valor del parámetro auto-boot?. Puede establecer auto-boot? con eeprom(1M), en el indicador ok de la PROM de OpenBoot.