本节介绍了当主群集或辅助群集上检测到故障时发生的内部进程。
特定保护组的主群集出现故障时,伙伴关系中的辅助群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
当主群集上出现故障时,系统会执行以下操作。在故障期间,相应保护组处于 Unknown(未知)状态。
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证心跳丢失是否不是瞬态以及主群集是否已出现故障。心跳机制继续重试主群集时,在此默认的超时时间间隔内心跳保持 Online 状态。
使用 Query_interval 心跳属性可设置此查询时间间隔。如果经过配置的时间间隔之后心跳仍然存在故障,则将会生成心跳丢失事件并将其记录在系统日志中。使用默认的时间间隔时,紧急模式的重试操作可能会使心跳丢失通知延迟大约九分钟。多条消息将显示在图形用户界面 (GUI) 和 geoadm status 命令的输出中。
有关日志记录的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Viewing the Sun Cluster Geographic Edition Log Messages”。
特定保护组的辅助群集出现故障时,同一伙伴关系中的另一个群集将检测到故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
故障检测过程中,将会发生以下操作:
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证辅助群集是否已停用。
群集将通知管理员。系统会检测将故障群集作为辅助群集的所有保护组。相应保护组的状态将标记为 Unknown。