配置 HPC 集群堆栈以在 OCI 政府区域上部署 NVIDIA AI
HPC 集群堆栈使用 Terraform 部署 Oracle Cloud Infrastructure (OCI) 资源。该堆栈创建 GPU 节点、存储、标准网络和高性能集群网络,以及用于访问和管理集群的堡垒/头节点。
使用须知
体系结构
此体系结构部署堡垒或头节点,该节点运行调度程序,并可用作堡垒服务器来访问群集。
您可以使用各种 NVIDIA GPU 实例类型来创建计算处理节点并满足处理需求。我们建议将计算处理节点放置在安全的专用子网中。您可以从 Oracle Cloud Marketplace 部署 NVIDIA GPU 计算集群实例。
此体系结构使用公共和专用虚拟云网络 (virtual cloud network,VCN) 进行部署。客户网络只能通过 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公共互联网访问机头节点和计算节点。
该架构使用具有一个可用性域和区域子网的区域。您可以在具有多个可用性域的区域中使用相同的架构。我们建议您使用区域子网进行部署,而不考虑可用性域的数量。您可以从 Oracle Cloud Marketplace 访问这些集群网络,也可以手动部署它们。在这两种情况下,我们建议使用基线参考架构,然后对其进行调整以满足您的特定要求。
下图说明了此参考体系结构。
![下面是 nvidia-ai-gvt-hpc-oci.png 的说明 下面是 nvidia-ai-gvt-hpc-oci.png 的说明](img/nvidia-ai-gvt-hpc-oci.png)
插图 nvidia-ai-gvt-hpc-oci.png 的说明
nvidia-ngc-ai-gvt-hpc-oci-oracle.zip
该体系结构具有以下组成部分:
- 区域
Oracle Cloud Infrastructure 区域是一个本地化的地理区域,其中包含一个或多个称为可用性域的数据中心。区域独立于其他区域,远距离可以区分它们(跨国家甚至大陆)。
- 可用性域
可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错功能。可用性域不共享基础设施,例如电源或冷却设备,也不共享内部可用性域网络。因此,一个可用性域出现故障不应影响区域中的其他可用性域。
- 容错域
故障域是可用性域内的一组硬件和基础设施。每个可用性域具有三个具有独立电源和硬件的故障域。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。
- 虚拟云网络 (VCN) 和子网
VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 可以让您控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定在某个区域或可用性域中。每个子网包含一系列不与 VCN 中的其他子网重叠的地址。您可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。
- 堡垒主机
堡垒主机是一个计算实例,它是一个从云外部安全、受控的拓扑入口点。堡垒主机通常设置在隔离区 (DMZ) 中。通过它,您可以保护敏感资源,将其放在无法从云外部直接访问的专用网络中。拓扑具有已知的一个入口点,您可以定期监视和审计。因此,您可以避免公开拓扑中较为敏感的组件,同时又不会影响对它们的访问。
- 计算节点
选择在此集群中使用的裸金属 GPU 配置。例如,选择由 4 x NVIDIA A100 Tensor Core GPU 提供支持的 BM.GPU4.8(如上示例所示),或者选择由 8 x NVIDIA H100 Tensor Core GPU 提供支持的 BM.GPU.H100.8(使用 NVIDIA 变压器引擎可实现 FP8 性能优势)。
- 编排节点
编排节点执行集群节点管理、预配、取消预配和部署软件配置以及管理计算工作流和作业编排。
- 安全列表
对于每个子网,您可以创建安全规则来指定必须允许进出子网的通信的源、目的地和类型。
关于必需的产品、服务和角色
此解决方案需要以下产品、服务和角色:
-
Oracle Cloud Infrastructure Government Cloud
- NVIDIA AI 企业版
-
NVIDIA NeMo 框架
-
NVIDIA Enroot
- NVIDIA NCCL
这些是每项服务所需的角色。
服务名:角色 | 要求 ... |
---|---|
Oracle Cloud Infrastructure Government Cloud:适用于租户的 Oracle Cloud 用户 | 在 Oracle Cloud Infrastructure (OCI) 中创建区间、部署 GPU 集群和配置 GPU 集群。 |
OCI 政府云:安全或网络管理员 | 根据需要创建或编辑 OCI 策略,以允许您构建集群。 |
OCI 政府云:opc |
连接到堡垒以查看配置、更新 OS 以及运行 LLM 培训工作负荷。 |
要满足您的需求,请参阅 Oracle 产品、解决方案和服务。