当保护组的主群集出现故障时,伙伴关系中的辅助群集会检测到该故障。出现故障的群集可能是多个伙伴关系的成员,这将导致进行多个故障检测。
当主群集上出现故障时,系统会执行以下操作。出现故障期间,群集上的相应保护组处于 Unknown 状态。
伙伴群集检测到心跳故障。
以紧急模式激活心跳以验证心跳丢失是否不是瞬态以及主群集是否已出现故障。在此默认的超时时间间隔内,心跳将保持 Online 状态,同时,心跳机制会继续重试主群集。
使用 Query_interval 心跳属性可设置此查询时间间隔。如果经过配置的时间间隔之后心跳仍然存在故障,则将会生成心跳丢失事件并将其记录在系统日志中。使用默认的时间间隔时,紧急模式的重试操作可能会使心跳丢失通知延迟大约九分钟。多条消息将显示在图形用户界面 (GUI) 和 geoadm status 命令的输出中。
有关日志记录的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Viewing the Sun Cluster Geographic Edition Log Messages”。
如果为伙伴关系配置了心跳丢失通知,则将执行以下的一种或两种操作:
向通过 Notification_emailaddrs 属性所配置的地址发送一封电子邮件。
执行 Notification_actioncmd 中所定义的脚本。
有关配置心跳丢失通知的更多信息,请参见《Sun Cluster Geographic Edition System Administration Guide》中的“Configuring Heartbeat-Loss Notification”。