本节介绍了当主群集或辅助群集上检测到故障时发生的内部进程。
特定保护组的主群集出现故障时,伙伴关系中的辅助群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
保护组的整体状态更改为 Unknown 状态时,将会发生以下操作:
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证心跳丢失是否不是瞬态以及主群集是否已出现故障。心跳机制继续重试主群集的时候,心跳在此默认超时时限间隔内保持 OK 状态。只有心跳插件显示 Error 状态。
此查询时间间隔是通过心跳的 Query_interval 属性设置的。如果经过四次(三次重试以及一次紧急模式探测)配置的 Query_interval 后心跳仍然存在故障,则将会生成心跳丢失事件,并将其记入系统日志。使用默认的时间间隔时,紧急模式的重试操作可能会使心跳丢失通知延迟大约九分钟。消息都将显示在图形用户界面 (GUI) 和 geoadm status 命令的输出中。
有关日志记录的更多信息,请参见查看 Sun Cluster Geographic Edition 日志消息。
特定保护组的辅助群集出现故障时,同一伙伴关系中的另一个群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
故障检测过程中,将会发生以下操作:
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证辅助群集是否已停用。
群集将通知管理员。系统会检测将故障群集作为辅助群集的所有保护组。这些保护组的状态变为 Unknown。