创建拉伸的 VMware vSAN 集群

完成所有先决条件配置后，您现在可以继续创建 VMware vSAN 拉伸群集。此步骤正式确定 OCI Dedicated Region A 和 OCI Dedicated Region B 中的主机以及部署在第三个区域中的 "Witness" 节点之间的连接。

您可以使用快速入门向导，或者直接导航到 VMware vCenter UI 中的 Cluster，Configure，vSAN，Fault Domains and Stretched Cluster 。

在此过程中配置以下内容：

将 OCI Dedicated Region 主机分配给 Fault Domain 1
将 OCI Dedicated Region B 主机分配给 Fault Domain 2
指定法定见证主机（以前添加的）

有关更多详细信息，请参见 Stretched Cluster Requirements 和VMware vSAN Stretched Cluster Guide 。

创建拉伸集群后：

运行 vSAN Health Checks 以验证群集完整性。
解决任何与网络相关的错误（例如 MTU 不匹配或路由问题）。

注意：

您可能会遇到来自原始群集的某些主机上的过时 vSAN 对象。请参阅本指南以删除它们： How to Delete Inaccessible Objects in vSAN Datastore

完成后，群集应在高 90s 中报告 vSAN 运行状况分数，指示成功拉伸的配置。

配置 NSX

在 VMware vSAN 集群拉伸的情况下，更新 VMware NSX 以支持跨站点叠加网络。此步骤可确保来自两个区域的 ESXi 主机可以使用各自的传输区域通过 NSX 隧道进行通信。

克隆 NSX TEP 配置

将 NSX TEP IP Pool 从 OCI Dedicated Region B NSX Manager 复制到 OCI Dedicated Region A NSX Manager。
为了避免与 OCI Dedicated Region B 中仍然存在的管理 ESXi 主机发生 IP 冲突，请将 OCI Dedicated Region A 中的新 IP 池配置为从 .10 开始。
示例：在 OCI Dedicated Region A NSX Manager 中，为 OCI Dedicated Region B 主机创建范围为 .10 –。20 的 TEP 池，以确保与现有 IP 无重叠。

在 OCI Dedicated Region A 中创建 OCI Dedicated Region B 上行链路配置文件

在 OCI Dedicated Region A NSX Manager 中，定义专用于 OCI Dedicated Region B 主机的新 Uplink 配置文件。
使用 correct VLAN ID 并确保 uplink order 与 OCI Dedicated Region B 配置匹配。

为 NSX 准备主机

使用 OVERLAY-TZ 和 VLAN-TZ 作为传输区域。
在主机准备期间，根据主机是来自 OCI Dedicated Region A 还是 OCI Dedicated Region B，分配相应的 Uplink Profile 。
注：在某些情况下，尤其是在发生故障转移事件后，NSX 隧道接口可能无法正确出现。要解决这个问题：
- 重新引导受影响的 ESXi 主机或
- 在主机上通过 SSH 运行 services.sh 重新启动。
这可确保所有 NSX 服务按正确的顺序启动并恢复隧道稳定性。

创建 NSX 叠加段

创建四个 NSX 叠加段。
确保这些段在两个站点的所有 ESXi 主机中可见并同步。

配置 DHCP（可选）

（可选）为新的叠加段配置 DHCP 设置。
DNS 设置已在本指南的早期版本中配置，无需在此处重复。

验证端到端叠加连接

部署四个 VM ，在两个区域中的每个主机上放置一个 VM。
在相应的段范围内为每个 VM 分配一个静态 IP 地址。
对段网关和 VM 之间的连接执行 Ping ，以验证跨拉伸环境的 L3 覆盖连接。

为叠加 VM 启用外部连接

要允许 VMware NSX 叠加 VM 访问外部网络，请配置相关 VLAN 的 NAT 规则和路由。

在 VCN-MGMT-Active 和 VCN-MGMT-Failover 中，更新 NSX Edge Uplink 1 VLAN 的 NAT 配置：

在两个区域中使用相同的外部访问 IP，与 OCI Dedicated Region 部署期间使用的 IP 相匹配。
确认所使用的 IP 是 NSX Edge 节点的 HA VIP （在 NSX Manager 中可见）。

还更新 vSphere VLAN 的外部访问规则：

为两个 VCN 中的 vcenter-vip、nsxt-manager-vip 和 HCX-manager-vip 配置 NAT 规则（如果使用 HCX）。

DNS 转发支持

叠加 VM 通常使用 NSX-T 中定义的 DNS 转发器（例如 192.168.253.253）。要路由这些 DNS 查询：

为 NAT 网关创建专用路由表。
定义静态路由：
- 目的地：10.x.x.x（覆盖 VM 子网）
- 目标：NAT 网关
- DNS 转发器 IP：192.168.253.253

必须在两个站点中复制此配置。将新路由表与 NAT Gateway 关联，以实现一致的行为。

将 ESXi 主机 VLAN 重新分配给浮动 VCN

在当前设置中，每个 ESXi 主机预配有两个物理 NIC，每个 NIC 关联通过 VNIC 连接到 VCN-Primary( OCI Dedicated Region A) 和 VCN-Secondary( OCI Dedicated Region B) 配置的默认 VLAN 集。这些 VNIC 是使用连接到相应 VCN 的辅助 CIDR 块 (172.45.0.0/16) 配置的。

要完成向拉伸配置的转换，必须将具有标记 200 及以上的所有 VLAN（例如，对于 vSphere、HCX、NSX Edge 等）迁移到浮动 VCN：

OCI Dedicated Region 中的 VCN-MGMT-Active
OCI 专用区域 B 中的 VCN-MGMT-Failover

将 VNIC 迁移到浮动 VCN

对两个 SDDC 中的每个 ESXi 主机执行以下步骤：

访问 ESXi 主机详细信息：在 OCI 控制台中，转至 Compute，ESXi Hosts 。
删除现有 VNIC 附加：对于每个主机，从 VCN-Primary 或 VCN-Secondary 删除与 VLAN 201 及更高版本关联的 VNIC。

注意：
此步骤是必需的，因为在存在旧 VLAN 时，无法为同一 VLAN 创建新 VNIC。
在浮动 VCN 中重新创建 VNIC：
- 为对应浮动 VCN 中的每个 VLAN 创建新 VNIC：
  - 在 OCI Dedicated Region A 中使用 VCN-MGMT-Active
  - 在 OCI Dedicated Region B 中使用 VCN-MGMT-Failover
- 选择标记有相应 -NEW 后缀的 VLAN 以将其与原始 VLAN 区分开来。
对每个主机的两个 VNIC 重复此过程。我们建议采用系统方法：从 VLAN 201 的 vnic0 和 vnic1 开始，完成更换，然后继续执行下一个 VLAN。

辅助站点主机的特殊注意事项

迁移 Primary Site（主站点）中主机的 VNIC 后，对 Secondary Site（辅助站点）中所有主机重复此过程。但是，请注意一个关键细节：
- 辅助站点中的 vSphere 管理组件最初部署在临时 VLAN 上（例如，VLAN-Stretched-Cls-Mgmt-vSphere-TEMP）。
- 在转换期间，此临时 VLAN 可以保持原位。它不会影响拉伸的 vSAN 功能，并根据需要提供对 vCenter 和 NSX 组件的回退访问。
保留此临时 VLAN 可确保在 VNIC 和网络迁移工作流期间进行不间断的管理访问。

连接影响和恢复

在 VNIC 更新期间，预计会暂时断开与 vCenter、NSX Manager 或 ESXi 主机的连接。要确保恢复：
1. 验证 DRG 附加：确认相应的管理 VCN （活动 VCN 和故障转移 VCN）已连接到其各自的动态路由网关 (Dynamic Routing Gateways，DRG) 。
2. 更新路由表：
  - 更新每个管理 VCN 中的主路由表以指向 DRG。
  - 更新堡垒子网路由表，确保管理流量在 VCN 之间和跨区域正确路由。
3. 验证访问权限：
  - 更新路由后，应恢复对堡垒主机中所有管理接口的访问。
  - 如果任何资源仍不可访问，请仔细检查 NSG 规则和 VCN 之间的路由传播。
vNIC 迁移后清除

VNIC 迁移完成后：
- 从 VCN-Primary 和 VCN-Secondary 中删除属于 172.45.0.0/16 CIDR 块的所有未使用的 VLAN 。
- 从 VCN-Primary 分离辅助 CIDR (172.45.0.0/16)，因为它不再使用。
只有在没有活动资源（VNIC、子网或 VLAN）使用 CIDR 分离时，OCI 才允许 CIDR 分离。
- 您可能会在 OCI 控制台的 SDDC 资源页面中看到警告指示符，这是预期的，因为 Oracle Cloud VMware Solution 服务不再跟踪最初部署在 VCN-Primary 中的组件。
更新新 VCN 附件的路由
1. 将 VCN-MGMT-Active 附加到 OCI Dedicated Region A 中的 DRG。
2. 更新路由表：
  - 对于 VCN-MGMT-Active：将缺省路由 (0.0.0.0/0) 指向 DRG。
  - 对于 VCN-Primary 中的 Bastion subnet ：更新其路由表以指向 DRG，以确保它仍然可以访问 VMware vCenter 和 VMware NSX Manager。
进行这些更改后， OCI Dedicated Region A 中的 VMware vCenter 和 VMware NSX Manager 应当可从堡垒主机访问，即使其底层接口现在位于不同的 VCN 中也是如此。

配置 DRS 关联性规则、HA 和 VMware vSAN 存储策略

当拉伸集群完全正常运行且两个站点的网络都保持稳定后，配置分布式资源调度器 (DRS)、高可用性 (High Availability，HA)，并为工作负载和管理虚拟机 (VM) 分配站点感知 VMware vSAN 存储策略。

这些配置可确保虚拟机在容错域中的最佳位置，并在站点故障期间实现自动恢复。

将 VM 迁移到拉伸的集群

首先，将所有管理 VM 和测试工作负载 VM 迁移到新创建的拉伸集群：

使用 vMotion 将 VM 从其原始特定于站点的群集移动到拉伸的群集。
如果所有项都配置正确（网络、存储、端口组），则 VM 迁移应完成且不会出现任何问题。

如果存在默认 NSX DRS 规则并设置为 MUST ，则删除它们。这些操作可能会干扰 HA 操作，并防止 NSX Edge 节点和 NSX Manager VM 发生故障转移。

创建 VM 和主机组

定义工作量放置的关联组：

创建主机组：
- 属于主站点的组主机。
- 属于辅助站点的组主机。
创建 VM 组：
- 必须驻留在每个站点内的主机（例如 vCenter、NSX 管理器、NSX 边缘节点、HCX 管理器和其他（如果适用）的组管理 VM。
- 同样，将所有 Workload VM 组在一起（在本例中为所有测试 VM）。

定义 VM/主机关联性规则

定义组之后：

创建 VM 到主机的关联性规则以将 VM 保留在其预期站点中的主机上。
使用在主机上运行 VM 规则可实现故障转移方案的高可用性灵活性。
为管理 VM 和工作量 VM 组创建此类规则。

此设置可确保在正常操作期间，每个站点托管其预期工作负荷，但在主机或站点发生故障时允许自动恢复。

启用高可用性 (High Availability，HA)

在建立关联规则后，确保群集级别的 HA is enabled 。
在主机故障事件时重新启动 VM 的默认选项，可确保 VM 在意外故障（包括完全站点中断）期间重新启动。

创建和应用拉伸的 vSAN 存储策略

要确保在拉伸配置中跨两个站点的数据冗余，请定义新的 vSAN Storage-Based Policy Management (SBPM) 策略。此策略将控制 VM 数据在容错域和见证站点中的分布方式。

在策略中配置以下位置规则：

存储类型：vSAN
站点灾难容差：站点镜像 - 拉伸群集
Failures to Tolerate ：无数据冗余
每个对象的磁盘条带数：1
对象的 IOPS 限制：0

将其他所有选项保留为默认设置。

创建策略后：

将策略应用到拉伸集群中的所有测试和管理 VM。
导航到 Monitor，vSAN，Resyncing Objects 以观察和跟踪重新同步过程。
重新同步完成后，验证 object placement 以确认策略是否按预期运行：
- 一个副本对象位于主要站点上
- 第二个副本对象位于辅助站点上
- 见证组件位于远程“见证”区域

所有 VM 起初都显示为不合规。选择每个 VM 或一组 VM，并手动分配新创建的拉伸策略以使其符合要求。

此外，导航到 Monitor，vSAN，Resyncing Objects and Virtual Objects 。重新同步过程完成后，您应观察到每个 VM 的虚拟对象都正确分布在主站点、辅助站点和见证节点上，从而验证是否完全符合拉伸集群设计。