Si el CMM detecta un problema grave en un nodo, envía una señal a la estructura del clúster para forzar un apagado (aviso grave) del nodo y borrarlo de la pertenencia al clúster. El mecanismo por el que ello ocurre se denomina recuperación rápida. Éste obliga a un nodo a apagarse de dos formas.
Si un nodo abandona el clúster y después intenta crear uno nuevo sin tener quórum, queda “aislado” y se le impide acceder a discos compartidos. Consulte Aislamiento de fallos para obtener detalles sobre este uso de la recuperación rápida.
Si uno o más daemons específicos del clúster dejan de existir (clexecd , rpc.pmfd, rgmd o rpc.ed) el CMM detecta el fallo y el nodo emite un aviso grave. Cuando la finalización de un daemon del clúster hace que un nodo emita un aviso grave, en la consola de éste aparecerá un mensaje parecido a éste.
panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago. 409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0) %l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0 |
Después de la condición de aviso grave, el nodo podría rearrancar e intentar volver a unirse al clúster o, si éste se compone de sistemas basados en plataformas SPARC, permanecer en el indicador PROM (OBP) de OpenBootTM. La acción que se toma depende del valor del parámetro auto-boot?. Puede establecer auto-boot? con eeprom(1M), en el indicador ok de la PROM de OpenBoot.