Sun Cluster 概念指南(适用于 Solaris OS)

群集成员监视器

为确保数据免遭破坏,所有节点必须在群集成员上达成一致协议。 需要时,CMM 将协调群集服务(应用程序)的群集重新配置,以作为对故障的响应。

CMM 会从群集传输层接收到关于与其它节点连通性的信息。 CMM 使用群集互连在重新配置期间交换状态信息。

检测到群集成员有更改后,CMM 执行群集的同步配置,这时群集资源可能会按群集的新的成员关系被重新分配。

与 Sun Cluster 软件以前的发行版不同,CMM 是完全在内核中运行的。

有关群集如何保护自身不被划分为多个独立群集的详细信息,请参阅仲裁和仲裁设备

故障快速防护机制

如果 CMM 检测到某个节点发生了严重问题,它将调用群集框架来强制关闭(应急)该节点并从群集成员中删除该节点。 实现这种功能的机制称为故障快速防护。 故障快速防护会使节点以两种方式关闭。

群集守护程序出现故障造成节点进入应急状态,一条类似于以下内容的消息将显示在该节点的控制台上。


panic[cpu0]/thread=40e60: Failfast: Aborting because "pmfd" died 35 seconds ago.
409b8 cl_runtime:__0FZsc_syslog_msg_log_no_argsPviTCPCcTB+48 (70f900, 30, 70df54, 407acc, 0)
%l0-7: 1006c80 000000a 000000a 10093bc 406d3c80 7110340 0000000 4001 fbf0

出现应急状态之后,节点可能重新引导并尝试重新加入群集;或者,如果群集是由基于 SPARC 的系统组成的,则停留在 OpenBootTM PROM (OBP) 提示符处。 所采取的操作取决于 auto-boot? 参数的设置。 可以在 OpenBoot PROM ok 提示符处使用eeprom(1M) 设置 auto-boot?