如果 CMM 检测到节点上存在严重的问题,它会要求群集框架来强制关闭该节点(应急状态)并将其从群集成员中删除。实现这种功能的机制称为故障快速防护。故障快速防护会使节点以两种方式关闭。
如果节点脱离群集后试图在没有定额的情况下启动新的群集,它会被"隔离",从而无法访问共享磁盘。有关使用故障快速防护的详细信息,请参见"故障防护"。
如果一个或多个群集特定的守护程序出现故障(clexecd、rpc.pmfd、rgmd 或 rpc.ed),CMM 会检测到该故障,节点将处于应急状态。
panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago. 409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0) %l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0 |
应急状态过后,节点可能重新引导,试图重新连接群集或停留在 OpenBoot PROM (OBP) 提示符下。所采取的措施取决于 OBP 中 auto-boot? 参数的设置。