Sun Cluster 概念指南(适用于 Solaris OS)

故障快速防护机制

如果 CMM 检测到某个节点有严重问题,它将通知群集框架强制性关闭(停止使用)该节点,并从群集成员中将其删除。实现这种功能的机制称为故障快速防护。故障快速防护将使节点以两种方式关闭。

群集守护进程出现故障导致某个节点停止使用时,该节点的控制台上将显示一条类似以下内容的消息。


panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

停止使用后,节点可能会重新引导并尝试重新加入群集。或者,如果群集是由基于 SPARC 的系统组成的,节点可能停留在 OpenBootTM PROM (OBP) 提示符处。节点的下一步操作由 auto-boot? 参数决定。您可以使用 eeprom(1M) 在 OpenBoot PROM ok 提示符处设置 auto-boot?