通过接管,在群集控制器发生故障或断电时,服务可以正常继续或恢复。
当其中一个控制器检测到其对等设备不存在(例如,关闭或正在重新引导)时,该控制器会自动尝试接管群集。接管后,执行接管的控制器拥有所有群集资源,并提供所有服务。
如果两个控制器都发生故障或断电,则在同时启动时,设备软件将执行仲裁程序以确定哪个控制器将继续接管。
此外,还可以手动执行接管,这对于测试可能很有用。
故障恢复操作将群集配置从 OWNER-STRIPPED(主动-被动)更改为 CLUSTERED-CLUSTERED(主动-主动)。故障恢复从不自动执行。
通常在以下情况下执行故障恢复:
控制器在接管后重新联机时。
作为配置群集的最后一步。请参见将单机设备升级到群集配置 (BUI)。
如果群集中的控制器 B 发生故障或断电,则该群集中的控制器 A 接管已分配给控制器 B 的资源,并提供所有群集服务。修复并引导控制器 B 后,管理员将执行故障恢复操作,以将控制器 B 恢复至生产服务。
当修复和引导控制器 B 时,该控制器将:
重新加入集群,重新同步其对所有资源及其属性和所有权的视图。
等待管理员执行故障恢复操作。
当控制器 B 正在等待时,控制器 A 继续提供所有服务。控制器 A 处于 "Active (takeover completed)"(活动(接管已完成))或 AKCS_OWNER 状态,控制器 B 处于 "Ready (waiting for failback)"(就绪(等待故障恢复))或 AKCS_STRIPPED 状态。
故障恢复操作将控制器 B 恢复至生产服务。自控制器 B 发生故障以来,一直由控制器 A 提供所有服务。故障恢复操作将故障发生前属于控制器 B 的资源恢复回到控制器 B。故障恢复操作从控制器 A 导出分配给控制器 B 的所有资源,然后控制器 B 导入这些资源。故障恢复成功后,控制器 A 和控制器 B 都处于 "Active"(活动)或 CLUSTERED(群集)状态。
在故障恢复期间,如果由于池故障导致控制器 B 无法导入该池,则会导致控制器 B 重新引导。故障恢复操作失败,控制器 A 继续提供所有服务。
在调度故障恢复操作时,请考虑以下事项:
故障恢复会对群集的客户机造成中断。
如果单个活动控制器在执行故障恢复之前发生故障,则延迟故障恢复会造成同样或更多的中断。
为了最大限度缩短维修停机时间,在故障恢复和接管操作期间不会收集数据,统计信息和数据集也不可用。暂停或恢复统计信息的请求将延迟,直到故障恢复和接管操作完成。故障恢复和接管操作完成后,将自动恢复数据收集。
相关主题