验证故障转移和故障恢复行为

配置 VMware vSAN 拉伸集群后，必须验证故障转移和故障恢复工作流，以确保业务连续性和灾难恢复就绪。本节概述了在主站点模拟故障并从辅助站点测试恢复的步骤，然后将服务恢复到主站点。

要模拟主要区域的失败，请执行以下操作：

关闭主区域主机电源
- 使用 OCI 控制台强制关闭主区域中的所有 VMware ESXi 主机。
观察辅助站点的 HA 恢复
- 从辅助区域的堡垒 VM 连接到 VMware ESXi 主机之一。
- 请注意，管理和工作负载 VM 会通过 VMware vSphere HA 自动打开电源。
更新网络路由
- 从主区域中的 DRG 分离 VCN-MGMT-Active。
- 将 VCN-MGMT-Failover 连接到辅助区域的 DRG 。
修改 VCN-MGMT-Failover 中的路由表
- 更新路由表以将流量定向到：
  - 10.16.0.0/16（主要 VCN）
  - 10.17.0.0/16（辅助 VCN）
  - 172.30.0.0/16（覆盖网络或外部资源）
  - 指向次要区域的 DRG。
验证连接
- 使用 Network Analyzer 或类似的诊断工具验证可访问 vSphere 组件。
- 确认 vCenter 正常运行，并将“Primary Region（主区域）”主机显示为不可用。
- 使用测试 VM 验证 East-West （站点内）和 North-South （外部）连接。
- 确保通过次区域中的 NAT 网关按预期方式访问互联网。
通过优化的路由和配置，VM 可以在故障检测后的 15 分钟内恢复并开始运行。网络更新和确认通常在 5 分钟内完成。

一旦主区域恢复并正常运行，请按照以下步骤将服务恢复到其原始状态：

恢复和重新引导主要主机
- 打开以前关闭的 VMware ESXi 主机电源。
- 联机后，通过 OCI 控制台执行完全重新引导，或者通过 SSH 使用 services.sh 重新启动手动重新启动系统服务，以确保稳定性。
vMotion VM 返回到主主机
- 将所有工作负载和管理 VM 从辅助区域主机迁移到主区域主机。
  
  注意：
  由于此阶段存在未调整的路由，VM 可以暂时退出网络。
重新配置网络路由
- 从辅助区域的 DRG 分离 VCN-MGMT-Failover。
- 将 VCN-MGMT-Active 重新连接到主区域中的 DRG。
- 无需更改路由表，因为现有条目在早期配置中仍然有效。
确认操作状态
- 验证主区域中的堡垒的 VM 和服务可访问性。
- 确认 HA、vMotion 和 VMware vSAN 操作按预期恢复。
- 现在，所有路由和策略都应反映预故障转移状态。

这将完成跨 OCI Dedicated Region 的 VMware vSAN 拉伸群集的配置和验证，包括成功模拟故障转移和故障恢复方案。