创建拉伸的 VMware vSAN 集群
完成所有先决条件配置后,您现在可以继续创建 VMware vSAN 拉伸群集。此步骤正式确定 OCI Dedicated Region A 和 OCI Dedicated Region B 中的主机以及部署在第三个区域中的 "Witness" 节点之间的连接。
您可以使用快速入门向导,或者直接导航到 VMware vCenter UI 中的 Cluster,Configure,vSAN,Fault Domains and Stretched Cluster 。
在此过程中配置以下内容:
- 将 OCI Dedicated Region 主机分配给 Fault Domain 1
- 将 OCI Dedicated Region B 主机分配给 Fault Domain 2
- 指定法定见证主机(以前添加的)
有关更多详细信息,请参见 Stretched Cluster Requirements 和VMware vSAN Stretched Cluster Guide 。
创建拉伸集群后:
- 运行 vSAN Health Checks 以验证群集完整性。
- 解决任何与网络相关的错误(例如 MTU 不匹配或路由问题)。
注意:
您可能会遇到来自原始群集的某些主机上的过时 vSAN 对象。请参阅本指南以删除它们: How to Delete Inaccessible Objects in vSAN Datastore完成后,群集应在高 90s 中报告 vSAN 运行状况分数,指示成功拉伸的配置。
配置 NSX
在 VMware vSAN 集群拉伸的情况下,更新 VMware NSX 以支持跨站点叠加网络。此步骤可确保来自两个区域的 ESXi 主机可以使用各自的传输区域通过 NSX 隧道进行通信。
- 将 NSX TEP IP Pool 从 OCI Dedicated Region B NSX Manager 复制到 OCI Dedicated Region A NSX Manager。
- 为了避免与 OCI Dedicated Region B 中仍然存在的管理 ESXi 主机发生 IP 冲突,请将 OCI Dedicated Region A 中的新 IP 池配置为从 .10 开始。
示例:在 OCI Dedicated Region A NSX Manager 中,为 OCI Dedicated Region B 主机创建范围为 .10 –。20 的 TEP 池,以确保与现有 IP 无重叠。
- 在 OCI Dedicated Region A NSX Manager 中,定义专用于 OCI Dedicated Region B 主机的新 Uplink 配置文件。
- 使用 correct VLAN ID 并确保 uplink order 与 OCI Dedicated Region B 配置匹配。
- 使用 OVERLAY-TZ 和 VLAN-TZ 作为传输区域。
- 在主机准备期间,根据主机是来自 OCI Dedicated Region A 还是 OCI Dedicated Region B,分配相应的 Uplink Profile 。
注:在某些情况下,尤其是在发生故障转移事件后,NSX 隧道接口可能无法正确出现。要解决这个问题:
- 重新引导受影响的 ESXi 主机或
- 在主机上通过 SSH 运行
services.sh
重新启动。
这可确保所有 NSX 服务按正确的顺序启动并恢复隧道稳定性。
- 创建四个 NSX 叠加段。
- 确保这些段在两个站点的所有 ESXi 主机中可见并同步。
- (可选)为新的叠加段配置 DHCP 设置。
- DNS 设置已在本指南的早期版本中配置,无需在此处重复。
- 部署四个 VM ,在两个区域中的每个主机上放置一个 VM。
- 在相应的段范围内为每个 VM 分配一个静态 IP 地址。
- 对段网关和 VM 之间的连接执行 Ping ,以验证跨拉伸环境的 L3 覆盖连接。
为叠加 VM 启用外部连接
要允许 VMware NSX 叠加 VM 访问外部网络,请配置相关 VLAN 的 NAT 规则和路由。
在 VCN-MGMT-Active
和 VCN-MGMT-Failover
中,更新 NSX Edge Uplink 1 VLAN 的 NAT 配置:
- 在两个区域中使用相同的外部访问 IP,与 OCI Dedicated Region 部署期间使用的 IP 相匹配。
- 确认所使用的 IP 是 NSX Edge 节点的 HA VIP (在 NSX Manager 中可见)。
还更新 vSphere VLAN 的外部访问规则:
- 为两个 VCN 中的 vcenter-vip、nsxt-manager-vip 和 HCX-manager-vip 配置 NAT 规则(如果使用 HCX)。
DNS 转发支持
叠加 VM 通常使用 NSX-T 中定义的 DNS 转发器(例如 192.168.253.253
)。要路由这些 DNS 查询:
- 为 NAT 网关创建专用路由表。
- 定义静态路由:
- 目的地:
10.x.x.x
(覆盖 VM 子网) - 目标:NAT 网关
- DNS 转发器 IP:
192.168.253.253
- 目的地:
必须在两个站点中复制此配置。将新路由表与 NAT Gateway 关联,以实现一致的行为。
将 ESXi 主机 VLAN 重新分配给浮动 VCN
在当前设置中,每个 ESXi 主机预配有两个物理 NIC,每个 NIC 关联通过 VNIC 连接到 VCN-Primary
( OCI Dedicated Region A) 和 VCN-Secondary
( OCI Dedicated Region B) 配置的默认 VLAN 集。这些 VNIC 是使用连接到相应 VCN 的辅助 CIDR 块 (172.45.0.0/16
) 配置的。
- OCI Dedicated Region 中的
VCN-MGMT-Active
- OCI 专用区域 B 中的
VCN-MGMT-Failover
将 VNIC 迁移到浮动 VCN
- 访问 ESXi 主机详细信息:在 OCI 控制台中,转至 Compute,ESXi Hosts 。
- 删除现有 VNIC 附加:对于每个主机,从 VCN-Primary 或 VCN-Secondary 删除与 VLAN 201 及更高版本关联的 VNIC。
注意:
此步骤是必需的,因为在存在旧 VLAN 时,无法为同一 VLAN 创建新 VNIC。 - 在浮动 VCN 中重新创建 VNIC:
- 为对应浮动 VCN 中的每个 VLAN 创建新 VNIC:
- 在 OCI Dedicated Region A 中使用
VCN-MGMT-Active
- 在 OCI Dedicated Region B 中使用
VCN-MGMT-Failover
- 在 OCI Dedicated Region A 中使用
- 选择标记有相应 -NEW 后缀的 VLAN 以将其与原始 VLAN 区分开来。
对每个主机的两个 VNIC 重复此过程。我们建议采用系统方法:从 VLAN 201 的 vnic0 和 vnic1 开始,完成更换,然后继续执行下一个 VLAN。
辅助站点主机的特殊注意事项
迁移 Primary Site(主站点)中主机的 VNIC 后,对 Secondary Site(辅助站点)中所有主机重复此过程。但是,请注意一个关键细节:
- 辅助站点中的 vSphere 管理组件最初部署在临时 VLAN 上(例如,VLAN-Stretched-Cls-Mgmt-vSphere-TEMP)。
- 在转换期间,此临时 VLAN 可以保持原位。它不会影响拉伸的 vSAN 功能,并根据需要提供对 vCenter 和 NSX 组件的回退访问。
保留此临时 VLAN 可确保在 VNIC 和网络迁移工作流期间进行不间断的管理访问。
连接影响和恢复
在 VNIC 更新期间,预计会暂时断开与 vCenter、NSX Manager 或 ESXi 主机的连接。要确保恢复:
- 验证 DRG 附加:确认相应的管理 VCN (活动 VCN 和故障转移 VCN)已连接到其各自的动态路由网关 (Dynamic Routing Gateways,DRG) 。
- 更新路由表:
- 更新每个管理 VCN 中的主路由表以指向 DRG。
- 更新堡垒子网路由表,确保管理流量在 VCN 之间和跨区域正确路由。
- 验证访问权限:
- 更新路由后,应恢复对堡垒主机中所有管理接口的访问。
- 如果任何资源仍不可访问,请仔细检查 NSG 规则和 VCN 之间的路由传播。
vNIC 迁移后清除
VNIC 迁移完成后:
- 从
VCN-Primary
和VCN-Secondary
中删除属于172.45.0.0/16
CIDR 块的所有未使用的 VLAN 。 - 从
VCN-Primary
分离辅助 CIDR (172.45.0.0/16
),因为它不再使用。
只有在没有活动资源(VNIC、子网或 VLAN)使用 CIDR 分离时,OCI 才允许 CIDR 分离。
- 您可能会在 OCI 控制台的 SDDC 资源页面中看到警告指示符,这是预期的,因为 Oracle Cloud VMware Solution 服务不再跟踪最初部署在
VCN-Primary
中的组件。
更新新 VCN 附件的路由
- 将
VCN-MGMT-Active
附加到 OCI Dedicated Region A 中的 DRG。 - 更新路由表:
- 对于
VCN-MGMT-Active
:将缺省路由 (0.0.0.0/0
) 指向 DRG。 - 对于
VCN-Primary
中的 Bastion subnet :更新其路由表以指向 DRG,以确保它仍然可以访问 VMware vCenter 和 VMware NSX Manager。
- 对于
进行这些更改后, OCI Dedicated Region A 中的 VMware vCenter 和 VMware NSX Manager 应当可从堡垒主机访问,即使其底层接口现在位于不同的 VCN 中也是如此。
- 为对应浮动 VCN 中的每个 VLAN 创建新 VNIC:
配置 DRS 关联性规则、HA 和 VMware vSAN 存储策略
当拉伸集群完全正常运行且两个站点的网络都保持稳定后,配置分布式资源调度器 (DRS)、高可用性 (High Availability,HA),并为工作负载和管理虚拟机 (VM) 分配站点感知 VMware vSAN 存储策略。
这些配置可确保虚拟机在容错域中的最佳位置,并在站点故障期间实现自动恢复。
将 VM 迁移到拉伸的集群
首先,将所有管理 VM 和测试工作负载 VM 迁移到新创建的拉伸集群:
- 使用 vMotion 将 VM 从其原始特定于站点的群集移动到拉伸的群集。
- 如果所有项都配置正确(网络、存储、端口组),则 VM 迁移应完成且不会出现任何问题。
如果存在默认 NSX DRS 规则并设置为 MUST ,则删除它们。这些操作可能会干扰 HA 操作,并防止 NSX Edge 节点和 NSX Manager VM 发生故障转移。
创建 VM 和主机组
定义工作量放置的关联组:
- 创建主机组:
- 属于主站点的组主机。
- 属于辅助站点的组主机。
- 创建 VM 组:
- 必须驻留在每个站点内的主机(例如 vCenter、NSX 管理器、NSX 边缘节点、HCX 管理器和其他(如果适用)的组管理 VM。
- 同样,将所有 Workload VM 组在一起(在本例中为所有测试 VM)。
定义 VM/主机关联性规则
定义组之后:
- 创建 VM 到主机的关联性规则以将 VM 保留在其预期站点中的主机上。
- 使用在主机上运行 VM 规则可实现故障转移方案的高可用性灵活性。
- 为管理 VM 和工作量 VM 组创建此类规则。
此设置可确保在正常操作期间,每个站点托管其预期工作负荷,但在主机或站点发生故障时允许自动恢复。
- 在建立关联规则后,确保群集级别的 HA is enabled 。
- 在主机故障事件时重新启动 VM 的默认选项,可确保 VM 在意外故障(包括完全站点中断)期间重新启动。
创建和应用拉伸的 vSAN 存储策略
要确保在拉伸配置中跨两个站点的数据冗余,请定义新的 vSAN Storage-Based Policy Management (SBPM) 策略。此策略将控制 VM 数据在容错域和见证站点中的分布方式。
在策略中配置以下位置规则:
- 存储类型:vSAN
- 站点灾难容差:站点镜像 - 拉伸群集
- Failures to Tolerate :无数据冗余
- 每个对象的磁盘条带数:1
- 对象的 IOPS 限制:0
将其他所有选项保留为默认设置。
创建策略后:
- 将策略应用到拉伸集群中的所有测试和管理 VM。
- 导航到 Monitor,vSAN,Resyncing Objects 以观察和跟踪重新同步过程。
- 重新同步完成后,验证 object placement 以确认策略是否按预期运行:
- 一个副本对象位于主要站点上
- 第二个副本对象位于辅助站点上
- 见证组件位于远程“见证”区域
所有 VM 起初都显示为不合规。选择每个 VM 或一组 VM,并手动分配新创建的拉伸策略以使其符合要求。
此外,导航到 Monitor,vSAN,Resyncing Objects and Virtual Objects 。重新同步过程完成后,您应观察到每个 VM 的虚拟对象都正确分布在主站点、辅助站点和见证节点上,从而验证是否完全符合拉伸集群设计。