群集的接管和故障恢复

语言：

通过接管，在群集控制器发生故障或断电时，服务可以正常继续或恢复。

当其中一个控制器检测到其对等设备不存在（例如，关闭或正在重新引导）时，该控制器会自动尝试接管群集。接管后，执行接管的控制器拥有所有群集资源，并提供所有服务。

如果两个控制器都发生故障或断电，则在同时启动时，设备软件将执行仲裁程序以确定哪个控制器将继续接管。

此外，还可以手动执行接管，这对于测试可能很有用。

故障恢复操作将群集配置从 OWNER-STRIPPED（主动-被动）更改为 CLUSTERED-CLUSTERED（主动-主动）。故障恢复从不自动执行。

通常在以下情况下执行故障恢复：

控制器在接管后重新联机时。
作为配置群集的最后一步。请参见将单机设备升级到群集配置 (BUI)。

如果群集中的控制器 B 发生故障或断电，则该群集中的控制器 A 接管已分配给控制器 B 的资源，并提供所有群集服务。修复并引导控制器 B 后，管理员将执行故障恢复操作，以将控制器 B 恢复至生产服务。

当修复和引导控制器 B 时，该控制器将：

重新加入集群，重新同步其对所有资源及其属性和所有权的视图。
等待管理员执行故障恢复操作。

当控制器 B 正在等待时，控制器 A 继续提供所有服务。控制器 A 处于 "Active (takeover completed)"（活动（接管已完成））或 AKCS_OWNER 状态，控制器 B 处于 "Ready (waiting for failback)"（就绪（等待故障恢复））或 AKCS_STRIPPED 状态。

故障恢复操作将控制器 B 恢复至生产服务。自控制器 B 发生故障以来，一直由控制器 A 提供所有服务。故障恢复操作将故障发生前属于控制器 B 的资源恢复回到控制器 B。故障恢复操作从控制器 A 导出分配给控制器 B 的所有资源，然后控制器 B 导入这些资源。故障恢复成功后，控制器 A 和控制器 B 都处于 "Active"（活动）或 CLUSTERED（群集）状态。

在故障恢复期间，如果由于池故障导致控制器 B 无法导入该池，则会导致控制器 B 重新引导。故障恢复操作失败，控制器 A 继续提供所有服务。

在调度故障恢复操作时，请考虑以下事项：

故障恢复会对群集的客户机造成中断。
如果单个活动控制器在执行故障恢复之前发生故障，则延迟故障恢复会造成同样或更多的中断。

为了最大限度缩短维修停机时间，在故障恢复和接管操作期间不会收集数据，统计信息和数据集也不可用。暂停或恢复统计信息的请求将延迟，直到故障恢复和接管操作完成。故障恢复和接管操作完成后，将自动恢复数据收集。

相关主题