了解如何使用 Oracle Cloud VMware Solution 在 OCI 区域部署 VMware vSAN 拉伸集群
Oracle Cloud Infrastructure (OCI) 跨所有可用性域区域提供高可用性和容错能力。这些区域本身提供数据中心级别的故障隔离,每个可用性域又划分为多个容错域以防范机架级故障。此内置架构可满足大多数企业工作负载的弹性要求。
对于 VMware 个负载,Oracle Cloud VMware Solution 支持在具有三个可用性域的区域中部署多个可用性域。在这种情况下,您可以利用 VMware HA 和 VMware vSAN 在单个区域中本地部署 VMware vSAN 拉伸集群,而无需复杂的跨站点配置。
但是,在仅具有单个可用性域的 OCI 公共区域中,或者在 Oracle Cloud Infrastructure Dedicated Region (以前称为 Oracle Dedicated Region Cloud@Customer 的 OCI Dedicated Region )中,多个可用性域配置不可用。对于这些环境中需要区域级保护以防止完全站点中断的客户,需要采用不同的方法。此解决方案手册提供了经过验证的客户管理架构,可用于在多个 OCI 区域中部署 VMWare vSAN 拉伸集群,该解决方案由 Oracle Cloud VMware Solution 提供的全栈控制提供支持。
注意:
此部署模型已在 OCI Dedicated Region 中成功测试。如果满足必要的延迟、主机配置和网络连接要求,还可以将其复制到 OCI 公共区域。虽然 OCI 不提供本地或自动化方法来部署跨区域 VMware vSAN 拉伸集群,但 Oracle Cloud VMware Solution 凭借其独特的灵活性使其成为可能。客户可以完全控制 VMware vCenter、VMware NSX 和 VMware ESXi 主机,从而设计和实施在更受限制的托管云 VMware 产品中难以实现或无法实现的高级配置。
此解决方案手册提供了使用 Oracle Cloud VMware Solution 构建此强大配置的架构指导和详细步骤。
了解核心概念
什么是 VMware vSAN 拉伸集群?
vSAN 拉伸群集是 VMware 配置,可将单个逻辑 VMware vSAN 数据存储扩展到两个物理上不同的位置。这两个位置都被视为主动 - 主动站点,配置可确保在一个站点不可用时持续可用性。由于 VMware 的原生功能为 vSphere HA,虚拟机 (VM) 可以自动在站点之间进行故障转移,只要一个站点和见证节点保持运行,vSAN 即可确保存储可用性。
在 OCI 的上下文中,此架构非常适合 OCI Dedicated Region ,其地理位置通常足够接近,可以满足 VMware vSAN 拉伸部署的严格低延迟要求。
有关更多背景信息,请参阅 Broadcom 的官方文档: Introduction to vSAN Stretched Clusters 。
将 vSAN 拉伸集群扩展到 OCI 和 Oracle Cloud VMware Solution
虽然 VMware vSAN 扩展集群通常跨两个物理上独立的站点(在 OCI 中),但 Oracle Cloud VMware Solution 默认情况下可以在单个可用性域中部署 VMware 软件定义数据中心 (SDDC),或者在同一区域内的多个可用性域中部署相应的数据中心。此部署模型与底层虚拟云网络 (VCN) 的区域范围保持一致,该网络在 OCI 区域内运行,但不跨 OCI 区域运行。
为了实现区域级弹性并防止区域中断,使用 OCI Dedicated Region 的客户可以在不同的 OCI Dedicated Region 中部署两个单独的 Oracle Cloud VMware Solution SDDC。这些 SDDC 通过 OCI 的专用主干网络实现互连,从而实现安全、低延迟的通信。所需的 VMware vSAN Witness 节点部署在邻近的第三个区域(例如 OCI 公共区域)中,以完成拉伸集群配置。
此设计可在 VMware 环境中实现主动 - 主动站点可用性,即使在区域出现故障时也能确保持续运行。它与 VMware 和 Oracle 的高可用性和灾难恢复优秀实践保持一致。
体系结构
此架构展示了如何跨多个 OCI 区域部署定制 VMware vSAN 拉伸集群。
高级别拓扑包括:
- 主要站点:部署在 OCI Dedicated Region A 中的 Oracle Cloud VMware Solution SDDC。
- 辅助站点:部署在 OCI Dedicated Region B 中的 Oracle Cloud VMware Solution SDDC。
- 见证站点:用于部署 VMware vSAN Witness Appliance 的区域性单独位置。
这些站点之间的通信是通过 OCI 的专用主干和 OCI FastConnect 建立的,两者都必须满足稳定的 VMware vSAN 拉伸集群的低延迟和高带宽要求。
注意:
此配置不支持 IPSec VPN。下图说明了此体系结构。
ocvs-vsan-stretched-cluster-oracle.zip
以下各节概述了影响在 Oracle Cloud VMware Solution 中跨 OCI Dedicated Region 成功部署 VMware vSAN 拉伸集群的关键技术注意事项。
网络注意事项
此架构的一个关键推动因素是强大的 OCI 主干网络,该网络可互连客户租户中的 OCI Dedicated Region 。此主干可确保 VMware vSAN 复制通信和站点之间的心跳信号传送所需的高速、低延迟通信。
计划的关键因素:
- 使用动态路由网关 (Dynamic Routing Gateways,DRG) 在 OCI Dedicated Region A 和 OCI Dedicated Region B 中的 VCN 之间建立远程对等连接 (Remote Peering Connections,RPC) 。这允许在所有 VMware ESXi 主机之间建立完整的网格连接。
- 使用 OCI FastConnect (而非 IPSec VPN)将两个 OCI Dedicated Region 连接到托管见证的公共 OCI 区域。这可以确保一致的低延迟和可靠的吞吐量,以支持证人沟通。
- 参考文档: Remote Peering 、 Managing DRGs 、OCI FastConnect
计算和存储注意事项
所有三个区域的基础设施规划都涉及多个决策:
- 区域选择
- 选择两个 OCI Dedicated Region ,它们之间的延迟小于 5 毫秒 RTT 。
- 为见证部署选择两个 OCI Dedicated Region 延迟小于 200 毫秒 RTT 的公共 OCI 区域。
- 配置选择
- 将密集裸金属配置(例如 BM.DenseIO.E5.128)与本地 NVMe 存储用于 VMware vSAN。
- 避免使用块存储卷的标准配置,因为这些配置不适合拉伸 vSAN 部署。
- 最低主机要求
- 主区域:至少有三个密集裸金属主机
- 辅助区域:至少有三个密集裸金属主机
- 见证区域:一个裸金属主机
- 证人用品指南
- 请遵循 vSAN Witness Design Guide 。
- 请始终参阅 Broadcom 的官方文档以获取最新的更新,因为这些要求可能会发生变化。下面是一些参考:
拉伸群集要求
- 主要和次要区域之间的 RTT 延迟小于 5 毫秒
- 任一站点与见证节点之间的 RTT 延迟小于 200 毫秒
- 所有主机(包括证人)必须属于同一 VMware vSAN 集群
- 不同区域的主机硬件和配置必须相同
- 证人必须居住在第三个单独的位置
操作注意事项
客户负责手动完成第 2 天的操作。重要说明:
- Oracle Cloud VMware Solution 环境单独部署在每个 OCI Dedicated Region 中。必须手动分离辅助站点的 VMware vCenter 和 VMware NSX Manager 并将其与主群集集成。
- 在站点发生故障时,需要手动进行故障转移和路由更新。
- VMware NSX Tier-0 Gateway 仅在一个站点中处于活动状态,这意味着北南流量路由的主动 - 被动模型。
设计概述
本节基于前面介绍的有关使用 Oracle Cloud VMware Solution 进行拉伸 vSAN 配置的体系结构和要求的章节,介绍了如何实施能够抵御 OCI Dedicated Region 故障的高可用性设计。
此设计使用每个站点两个 VCN ,导致总共 4 个 VCN :
OCI 专用区域 A
- 具有两个 CIDR 块的
VCN Primary
;例如,10.16.0.0/16
作为主 CIDR,172.45.0.0/16
作为辅助 CIDR(在创建 VCN 之后添加)。只有初始 SDDC 部署才需要辅助 CIDR。由于 Oracle Cloud VMware Solution SDDC 无法跨多个 VCN,因此辅助 CIDR 块 (
172.45.0.0/16
) 将附加到 OCI Dedicated Region A 中的主 VCN。这样可以实现管理和服务子网的 VLAN 定义,同时将子网以逻辑方式分组在单个 VCN 中。 VCN MGMT Active
,使用与附加到 VCN 主节点的辅助 CIDR 相同的 CIDR 块,即172.45.0.0/16
。
OCI 专用区域 B
VCN Secondary
,其 CIDR 块与VCN Primary
不同且不重叠;例如10.17.0.0/16
。VCN MGMT Failover
,使用与VCN MGMT Active
相同的 CIDR 块;即172.45.0.0/16
。
Oracle Cloud VMware Solution 提供了网络预配的灵活性。在 SDDC 创建期间,用户可以:
- 指定 CIDR 块并允许 Oracle Cloud VMware Solution 自动化创建所需的网络组件,或者
- 事先手动创建 VCN、子网、VLAN、路由表和 NSG,然后在部署期间选择这些现有资源。
对于这种拉伸的 VSAN 设计,后一种方法是必要的。要精确控制跨多个 VCN 和区域的网络分段,需要预先创建路由表、NSG 和 VLAN。此隔离支持 VCN 之间的明确职责,并支持无缝故障转移行为。
一个关键方面是必须在两个 OCI Dedicated Region 中访问管理子网 (172.45.0.0/16
)。为了支持故障转移,该设计允许此 VCN MGMT 网络在故障转移事件期间通过手动网络更新在两个站点之间“浮动”,例如修改路由表和通过 DRG 附加重新通告子网。
DNS 解析对于故障转移和服务可用性至关重要。因此,将在每个 VCN 中创建一个专用服务子网,以托管 DNS 和支持基础设施。
对于 VLAN 标记简单性:
- 100 范围中的 VLAN 标记是特定于区域的,仅限于其各自的站点。
- 200 范围中的 VLAN 标记与
172.45.0.0/16
子网关联,并将在站点之间浮动。
随着高级设计的定义,我们现在进入每个站点的实际配置,从主区域开始。