验证故障转移和故障恢复行为
配置 VMware vSAN 拉伸集群后,必须验证故障转移和故障恢复工作流,以确保业务连续性和灾难恢复就绪。本节概述了在主站点模拟故障并从辅助站点测试恢复的步骤,然后将服务恢复到主站点。
模拟故障转移事件
要模拟主要区域的失败,请执行以下操作:
- 关闭主区域主机电源
- 使用 OCI 控制台强制关闭主区域中的所有 VMware ESXi 主机。
- 观察辅助站点的 HA 恢复
- 从辅助区域的堡垒 VM 连接到 VMware ESXi 主机之一。
- 请注意,管理和工作负载 VM 会通过 VMware vSphere HA 自动打开电源。
- 更新网络路由
- 从主区域中的 DRG 分离
VCN-MGMT-Active
。 - 将
VCN-MGMT-Failover
连接到辅助区域的 DRG 。
- 从主区域中的 DRG 分离
- 修改
VCN-MGMT-Failover
中的路由表- 更新路由表以将流量定向到:
10.16.0.0/16
(主要 VCN)10.17.0.0/16
(辅助 VCN)172.30.0.0/16
(覆盖网络或外部资源)- 指向次要区域的 DRG。
- 更新路由表以将流量定向到:
- 验证连接
- 使用 Network Analyzer 或类似的诊断工具验证可访问 vSphere 组件。
- 确认 vCenter 正常运行,并将“Primary Region(主区域)”主机显示为不可用。
- 使用测试 VM 验证 East-West (站点内)和 North-South (外部)连接。
- 确保通过次区域中的 NAT 网关按预期方式访问互联网。
通过优化的路由和配置,VM 可以在故障检测后的 15 分钟内恢复并开始运行。网络更新和确认通常在 5 分钟内完成。
执行故障恢复
一旦主区域恢复并正常运行,请按照以下步骤将服务恢复到其原始状态:
- 恢复和重新引导主要主机
- 打开以前关闭的 VMware ESXi 主机电源。
- 联机后,通过 OCI 控制台执行完全重新引导,或者通过 SSH 使用
services.sh
重新启动手动重新启动系统服务,以确保稳定性。
- vMotion VM 返回到主主机
- 将所有工作负载和管理 VM 从辅助区域主机迁移到主区域主机。
注意:
由于此阶段存在未调整的路由,VM 可以暂时退出网络。
- 将所有工作负载和管理 VM 从辅助区域主机迁移到主区域主机。
- 重新配置网络路由
- 从辅助区域的 DRG 分离
VCN-MGMT-Failover
。 - 将
VCN-MGMT-Active
重新连接到主区域中的 DRG。 - 无需更改路由表,因为现有条目在早期配置中仍然有效。
- 从辅助区域的 DRG 分离
- 确认操作状态
- 验证主区域中的堡垒的 VM 和服务可访问性。
- 确认 HA、vMotion 和 VMware vSAN 操作按预期恢复。
- 现在,所有路由和策略都应反映预故障转移状态。
这将完成跨 OCI Dedicated Region 的 VMware vSAN 拉伸群集的配置和验证,包括成功模拟故障转移和故障恢复方案。