Go to main content

Oracle® ZFS Storage Appliance 管理指南,发行版 OS8.8.x

退出打印视图

更新时间: 2021 年 8 月
 
 

群集的接管和故障恢复

通过接管,在群集控制器发生故障或断电时,服务可以正常继续或恢复。

当其中一个控制器检测到其对等设备不存在(例如,关闭或正在重新引导)时,该控制器会自动尝试接管群集。接管后,执行接管的控制器拥有所有群集资源,并提供所有服务。

如果两个控制器都发生故障或断电,则在同时启动时,设备软件将执行仲裁程序以确定哪个控制器将继续接管。

此外,还可以手动执行接管,这对于测试可能很有用。

故障恢复操作将群集配置从 OWNER-STRIPPED(主动-被动)更改为 CLUSTERED-CLUSTERED(主动-主动)。故障恢复从不自动执行。

通常在以下情况下执行故障恢复:

如果群集中的控制器 B 发生故障或断电,则该群集中的控制器 A 接管已分配给控制器 B 的资源,并提供所有群集服务。修复并引导控制器 B 后,管理员将执行故障恢复操作,以将控制器 B 恢复至生产服务。

当修复和引导控制器 B 时,该控制器将:

  • 重新加入集群,重新同步其对所有资源及其属性和所有权的视图。

  • 等待管理员执行故障恢复操作。

当控制器 B 正在等待时,控制器 A 继续提供所有服务。控制器 A 处于 "Active (takeover completed)"(活动(接管已完成))或 AKCS_OWNER 状态,控制器 B 处于 "Ready (waiting for failback)"(就绪(等待故障恢复))或 AKCS_STRIPPED 状态。

故障恢复操作将控制器 B 恢复至生产服务。自控制器 B 发生故障以来,一直由控制器 A 提供所有服务。故障恢复操作将故障发生前属于控制器 B 的资源恢复回到控制器 B。故障恢复操作从控制器 A 导出分配给控制器 B 的所有资源,然后控制器 B 导入这些资源。故障恢复成功后,控制器 A 和控制器 B 都处于 "Active"(活动)或 CLUSTERED(群集)状态。

在故障恢复期间,如果由于池故障导致控制器 B 无法导入该池,则会导致控制器 B 重新引导。故障恢复操作失败,控制器 A 继续提供所有服务。

在调度故障恢复操作时,请考虑以下事项:

  • 故障恢复会对群集的客户机造成中断。

  • 如果单个活动控制器在执行故障恢复之前发生故障,则延迟故障恢复会造成同样或更多的中断。

为了最大限度缩短维修停机时间,在故障恢复和接管操作期间不会收集数据,统计信息和数据集也不可用。暂停或恢复统计信息的请求将延迟,直到故障恢复和接管操作完成。故障恢复和接管操作完成后,将自动恢复数据收集。

相关主题