验证故障转移和故障恢复行为

配置 VMware vSAN 拉伸集群后,必须验证故障转移和故障恢复工作流,以确保业务连续性和灾难恢复就绪。本节概述了在主站点模拟故障并从辅助站点测试恢复的步骤,然后将服务恢复到主站点。

模拟故障转移事件

要模拟主要区域的失败,请执行以下操作:

  1. 关闭主区域主机电源
    • 使用 OCI 控制台强制关闭主区域中的所有 VMware ESXi 主机。
  2. 观察辅助站点的 HA 恢复
    • 从辅助区域的堡垒 VM 连接到 VMware ESXi 主机之一。
    • 请注意,管理和工作负载 VM 会通过 VMware vSphere HA 自动打开电源
  3. 更新网络路由
    • 从主区域中的 DRG 分离 VCN-MGMT-Active
    • VCN-MGMT-Failover 连接到辅助区域的 DRG
  4. 修改 VCN-MGMT-Failover 中的路由表
    • 更新路由表以将流量定向到:
      • 10.16.0.0/16(主要 VCN)
      • 10.17.0.0/16(辅助 VCN)
      • 172.30.0.0/16(覆盖网络或外部资源)
      • 指向次要区域的 DRG。
  5. 验证连接
    • 使用 Network Analyzer 或类似的诊断工具验证可访问 vSphere 组件。
    • 确认 vCenter 正常运行,并将“Primary Region(主区域)”主机显示为不可用。
    • 使用测试 VM 验证 East-West (站点内)和 North-South (外部)连接。
    • 确保通过次区域中的 NAT 网关按预期方式访问互联网。

    通过优化的路由和配置,VM 可以在故障检测后的 15 分钟内恢复并开始运行。网络更新和确认通常在 5 分钟内完成。

执行故障恢复

一旦主区域恢复并正常运行,请按照以下步骤将服务恢复到其原始状态:

  1. 恢复和重新引导主要主机
    • 打开以前关闭的 VMware ESXi 主机电源。
    • 联机后,通过 OCI 控制台执行完全重新引导,或者通过 SSH 使用 services.sh 重新启动手动重新启动系统服务,以确保稳定性。
  2. vMotion VM 返回到主主机
    • 将所有工作负载和管理 VM 从辅助区域主机迁移到主区域主机。

      注意:

      由于此阶段存在未调整的路由,VM 可以暂时退出网络。
  3. 重新配置网络路由
    • 从辅助区域的 DRG 分离 VCN-MGMT-Failover
    • VCN-MGMT-Active 重新连接到主区域中的 DRG。
    • 无需更改路由表,因为现有条目在早期配置中仍然有效。
  4. 确认操作状态
    • 验证主区域中的堡垒的 VM 和服务可访问性。
    • 确认 HA、vMotion 和 VMware vSAN 操作按预期恢复。
    • 现在,所有路由和策略都应反映预故障转移状态。

这将完成跨 OCI Dedicated Region 的 VMware vSAN 拉伸群集的配置和验证,包括成功模拟故障转移和故障恢复方案。