创建拉伸的 VMware vSAN 集群

完成所有先决条件配置后,您现在可以继续创建 VMware vSAN 拉伸群集。此步骤正式确定 OCI Dedicated Region A 和 OCI Dedicated Region B 中的主机以及部署在第三个区域中的 "Witness" 节点之间的连接。

您可以使用快速入门向导,或者直接导航到 VMware vCenter UI 中的 Cluster,Configure,vSAN,Fault Domains and Stretched Cluster

在此过程中配置以下内容:

  • OCI Dedicated Region 主机分配给 Fault Domain 1
  • OCI Dedicated Region B 主机分配给 Fault Domain 2
  • 指定法定见证主机(以前添加的)

有关更多详细信息,请参见 Stretched Cluster RequirementsVMware vSAN Stretched Cluster Guide

创建拉伸集群后:

  • 运行 vSAN Health Checks 以验证群集完整性。
  • 解决任何与网络相关的错误(例如 MTU 不匹配或路由问题)。

注意:

您可能会遇到来自原始群集的某些主机上的过时 vSAN 对象。请参阅本指南以删除它们: How to Delete Inaccessible Objects in vSAN Datastore

完成后,群集应在高 90s 中报告 vSAN 运行状况分数,指示成功拉伸的配置。

配置 NSX

在 VMware vSAN 集群拉伸的情况下,更新 VMware NSX 以支持跨站点叠加网络。此步骤可确保来自两个区域的 ESXi 主机可以使用各自的传输区域通过 NSX 隧道进行通信。

克隆 NSX TEP 配置
  • NSX TEP IP PoolOCI Dedicated Region B NSX Manager 复制到 OCI Dedicated Region A NSX Manager。
  • 为了避免与 OCI Dedicated Region B 中仍然存在的管理 ESXi 主机发生 IP 冲突,请将 OCI Dedicated Region A 中的新 IP 池配置为从 .10 开始。

    示例:在 OCI Dedicated Region A NSX Manager 中,为 OCI Dedicated Region B 主机创建范围为 .10 –。20 的 TEP 池,以确保与现有 IP 无重叠。

OCI Dedicated Region A 中创建 OCI Dedicated Region B 上行链路配置文件
  • OCI Dedicated Region A NSX Manager 中,定义专用于 OCI Dedicated Region B 主机的新 Uplink 配置文件
  • 使用 correct VLAN ID 并确保 uplink orderOCI Dedicated Region B 配置匹配。
为 NSX 准备主机
  • 使用 OVERLAY-TZVLAN-TZ 作为传输区域。
  • 在主机准备期间,根据主机是来自 OCI Dedicated Region A 还是 OCI Dedicated Region B,分配相应的 Uplink Profile

    注:在某些情况下,尤其是在发生故障转移事件后,NSX 隧道接口可能无法正确出现。要解决这个问题:

    • 重新引导受影响的 ESXi 主机
    • 在主机上通过 SSH 运行 services.sh 重新启动。

    这可确保所有 NSX 服务按正确的顺序启动并恢复隧道稳定性。

创建 NSX 叠加段
  • 创建四个 NSX 叠加段
  • 确保这些段在两个站点的所有 ESXi 主机中可见并同步。
配置 DHCP(可选)
  • (可选)为新的叠加段配置 DHCP 设置
  • DNS 设置已在本指南的早期版本中配置,无需在此处重复。
验证端到端叠加连接
  • 部署四个 VM ,在两个区域中的每个主机上放置一个 VM。
  • 在相应的段范围内为每个 VM 分配一个静态 IP 地址。
  • 对段网关和 VM 之间的连接执行 Ping ,以验证跨拉伸环境的 L3 覆盖连接。

为叠加 VM 启用外部连接

要允许 VMware NSX 叠加 VM 访问外部网络,请配置相关 VLAN 的 NAT 规则和路由。

VCN-MGMT-ActiveVCN-MGMT-Failover 中,更新 NSX Edge Uplink 1 VLAN 的 NAT 配置:

  • 在两个区域中使用相同的外部访问 IP,与 OCI Dedicated Region 部署期间使用的 IP 相匹配。
  • 确认所使用的 IP 是 NSX Edge 节点的 HA VIP (在 NSX Manager 中可见)。

还更新 vSphere VLAN 的外部访问规则:

  • 为两个 VCN 中的 vcenter-vip、nsxt-manager-vip 和 HCX-manager-vip 配置 NAT 规则(如果使用 HCX)。

DNS 转发支持

叠加 VM 通常使用 NSX-T 中定义的 DNS 转发器(例如 192.168.253.253)。要路由这些 DNS 查询:

  1. 为 NAT 网关创建专用路由表
  2. 定义静态路由:
    • 目的地:10.x.x.x(覆盖 VM 子网)
    • 目标:NAT 网关
    • DNS 转发器 IP:192.168.253.253

必须在两个站点中复制此配置。将新路由表与 NAT Gateway 关联,以实现一致的行为。

将 ESXi 主机 VLAN 重新分配给浮动 VCN

在当前设置中,每个 ESXi 主机预配有两个物理 NIC,每个 NIC 关联通过 VNIC 连接到 VCN-Primary( OCI Dedicated Region A) 和 VCN-Secondary( OCI Dedicated Region B) 配置的默认 VLAN 集。这些 VNIC 是使用连接到相应 VCN 的辅助 CIDR 块 (172.45.0.0/16) 配置的。

要完成向拉伸配置的转换,必须将具有标记 200 及以上的所有 VLAN(例如,对于 vSphere、HCX、NSX Edge 等)迁移到浮动 VCN:
  • OCI Dedicated Region 中的 VCN-MGMT-Active
  • OCI 专用区域 B 中的 VCN-MGMT-Failover

将 VNIC 迁移到浮动 VCN

对两个 SDDC 中的每个 ESXi 主机执行以下步骤:
  1. 访问 ESXi 主机详细信息:在 OCI 控制台中,转至 Compute,ESXi Hosts
  2. 删除现有 VNIC 附加:对于每个主机,从 VCN-Primary 或 VCN-Secondary 删除与 VLAN 201 及更高版本关联的 VNIC。

    注意:

    此步骤是必需的,因为在存在旧 VLAN 时,无法为同一 VLAN 创建新 VNIC。
  3. 在浮动 VCN 中重新创建 VNIC:
    • 为对应浮动 VCN 中的每个 VLAN 创建新 VNIC:
      • OCI Dedicated Region A 中使用 VCN-MGMT-Active
      • OCI Dedicated Region B 中使用 VCN-MGMT-Failover
    • 选择标记有相应 -NEW 后缀的 VLAN 以将其与原始 VLAN 区分开来。

    每个主机的两个 VNIC 重复此过程。我们建议采用系统方法:从 VLAN 201 的 vnic0 和 vnic1 开始,完成更换,然后继续执行下一个 VLAN。

    辅助站点主机的特殊注意事项

    迁移 Primary Site(主站点)中主机的 VNIC 后,对 Secondary Site(辅助站点)中所有主机重复此过程。但是,请注意一个关键细节:

    • 辅助站点中的 vSphere 管理组件最初部署在临时 VLAN 上(例如,VLAN-Stretched-Cls-Mgmt-vSphere-TEMP)。
    • 在转换期间,此临时 VLAN 可以保持原位。它不会影响拉伸的 vSAN 功能,并根据需要提供对 vCenter 和 NSX 组件的回退访问。

    保留此临时 VLAN 可确保在 VNIC 和网络迁移工作流期间进行不间断的管理访问。

    连接影响和恢复

    在 VNIC 更新期间,预计会暂时断开与 vCenter、NSX Manager 或 ESXi 主机的连接。要确保恢复:

    1. 验证 DRG 附加:确认相应的管理 VCN (活动 VCN 和故障转移 VCN)已连接到其各自的动态路由网关 (Dynamic Routing Gateways,DRG)
    2. 更新路由表:
      • 更新每个管理 VCN 中的主路由表以指向 DRG。
      • 更新堡垒子网路由表,确保管理流量在 VCN 之间和跨区域正确路由。
    3. 验证访问权限:
      • 更新路由后,应恢复对堡垒主机中所有管理接口的访问。
      • 如果任何资源仍不可访问,请仔细检查 NSG 规则和 VCN 之间的路由传播。

    vNIC 迁移后清除

    VNIC 迁移完成后:

    • VCN-PrimaryVCN-Secondary 中删除属于 172.45.0.0/16 CIDR 块的所有未使用的 VLAN
    • VCN-Primary 分离辅助 CIDR (172.45.0.0/16),因为它不再使用。

    只有在没有活动资源(VNIC、子网或 VLAN)使用 CIDR 分离时,OCI 才允许 CIDR 分离。

    • 您可能会在 OCI 控制台的 SDDC 资源页面中看到警告指示符,这是预期的,因为 Oracle Cloud VMware Solution 服务不再跟踪最初部署在 VCN-Primary 中的组件。

    更新新 VCN 附件的路由

    1. VCN-MGMT-Active 附加到 OCI Dedicated Region A 中的 DRG。
    2. 更新路由表
      • 对于 VCN-MGMT-Active:将缺省路由 (0.0.0.0/0) 指向 DRG。
      • 对于 VCN-Primary 中的 Bastion subnet :更新其路由表以指向 DRG,以确保它仍然可以访问 VMware vCenter 和 VMware NSX Manager。

    进行这些更改后, OCI Dedicated Region A 中的 VMware vCenter 和 VMware NSX Manager 应当可从堡垒主机访问,即使其底层接口现在位于不同的 VCN 中也是如此。

配置 DRS 关联性规则、HA 和 VMware vSAN 存储策略

当拉伸集群完全正常运行且两个站点的网络都保持稳定后,配置分布式资源调度器 (DRS)、高可用性 (High Availability,HA),并为工作负载和管理虚拟机 (VM) 分配站点感知 VMware vSAN 存储策略。

这些配置可确保虚拟机在容错域中的最佳位置,并在站点故障期间实现自动恢复。

将 VM 迁移到拉伸的集群

首先,将所有管理 VM测试工作负载 VM 迁移到新创建的拉伸集群

  • 使用 vMotion 将 VM 从其原始特定于站点的群集移动到拉伸的群集。
  • 如果所有项都配置正确(网络、存储、端口组),则 VM 迁移应完成且不会出现任何问题。

如果存在默认 NSX DRS 规则并设置为 MUST ,则删除它们。这些操作可能会干扰 HA 操作,并防止 NSX Edge 节点和 NSX Manager VM 发生故障转移。

创建 VM 和主机组

定义工作量放置的关联组:

  1. 创建主机组
    • 属于主站点的组主机。
    • 属于辅助站点的组主机。
  2. 创建 VM 组
    • 必须驻留在每个站点内的主机(例如 vCenter、NSX 管理器、NSX 边缘节点、HCX 管理器和其他(如果适用)的组管理 VM。
    • 同样,将所有 Workload VM 组在一起(在本例中为所有测试 VM)。

定义 VM/主机关联性规则

定义组之后:

  • 创建 VM 到主机的关联性规则以将 VM 保留在其预期站点中的主机上。
  • 使用在主机上运行 VM 规则可实现故障转移方案的高可用性灵活性。
  • 为管理 VM 和工作量 VM 组创建此类规则。

此设置可确保在正常操作期间,每个站点托管其预期工作负荷,但在主机或站点发生故障时允许自动恢复。

启用高可用性 (High Availability,HA)
  • 在建立关联规则后,确保群集级别的 HA is enabled
  • 在主机故障事件时重新启动 VM 的默认选项,可确保 VM 在意外故障(包括完全站点中断)期间重新启动。

创建和应用拉伸的 vSAN 存储策略

要确保在拉伸配置中跨两个站点的数据冗余,请定义新的 vSAN Storage-Based Policy Management (SBPM) 策略。此策略将控制 VM 数据在容错域和见证站点中的分布方式。

在策略中配置以下位置规则

  • 存储类型:vSAN
  • 站点灾难容差:站点镜像 - 拉伸群集
  • Failures to Tolerate :无数据冗余
  • 每个对象的磁盘条带数:1
  • 对象的 IOPS 限制:0

将其他所有选项保留为默认设置。

创建策略后:

  1. 将策略应用到拉伸集群中的所有测试和管理 VM。
  2. 导航到 Monitor,vSAN,Resyncing Objects 以观察和跟踪重新同步过程。
  3. 重新同步完成后,验证 object placement 以确认策略是否按预期运行:
    • 一个副本对象位于主要站点
    • 第二个副本对象位于辅助站点
    • 见证组件位于远程“见证”区域

所有 VM 起初都显示为不合规。选择每个 VM 或一组 VM,并手动分配新创建的拉伸策略以使其符合要求。

此外,导航到 Monitor,vSAN,Resyncing Objects and Virtual Objects 。重新同步过程完成后,您应观察到每个 VM 的虚拟对象都正确分布在主站点、辅助站点和见证节点上,从而验证是否完全符合拉伸集群设计。