本节介绍了当主群集或辅助群集上检测到故障时发生的内部进程。
特定保护组的主群集出现故障时,伙伴关系中的辅助群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
当保护组的整体状态变为未知状态时,系统将会执行以下操作:
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证心跳丢失是否不是瞬态以及主群集是否已出现故障。心跳机制继续重试主群集的时候,心跳在此默认超时时限间隔内保持 OK 状态。只有心跳插件显示 Error 状态。
此查询时间间隔是通过心跳的 Query_interval 属性设置的。如果心跳在经过了四倍于所配置的 Query_interval 时间(三次重试以及一次紧急模式探测)后仍然存在故障,则系统将会生成心跳丢失事件,并将其记录到系统日志中。使用默认的时间间隔时,紧急模式的重试操作可能会使心跳丢失通知延迟大约九分钟。多条消息将显示在图形用户界面 (GUI) 和 geoadm status 命令的输出中。
有关日志记录的更多信息,请参见《Sun Cluster Geographic Edition 系统管理指南》中的“查看 Sun Cluster Geographic Edition 日志消息”。
特定保护组的辅助群集出现故障时,同一伙伴关系中的另一个群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
故障检测过程中,将会发生以下操作:
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证辅助群集是否已停用。
群集将通知管理员。系统会检测将故障群集作为辅助群集的所有保护组。这些保护组的状态变为 Unknown。