配置 HPC 集群堆栈以在 OCI 政府区域上部署 NVIDIA AI

在 Oracle US Government Cloud (FedRAMP High) 中配置和部署裸金属 NVIDIA GPU 系统的专用集群。所有云资源和数据都保留在您的云租户中,因此您可以完全控制软件版本、管理访问权限、加密密钥和资源共享

HPC 集群堆栈使用 Terraform 部署 Oracle Cloud Infrastructure (OCI) 资源。该堆栈创建 GPU 节点、存储、标准网络和高性能集群网络,以及用于访问和管理集群的堡垒/头节点。

使用须知

了解有关在 Oracle Cloud Infrastructure Government Cloud 上部署 NVIDIA Enterprise 的更多信息。请参阅为政府 AI 负载部署高性能 GPU 计算

体系结构

此体系结构部署堡垒或头节点,该节点运行调度程序,并可用作堡垒服务器来访问群集。

您可以使用各种 NVIDIA GPU 实例类型来创建计算处理节点并满足处理需求。我们建议将计算处理节点放置在安全的专用子网中。您可以从 Oracle Cloud Marketplace 部署 NVIDIA GPU 计算集群实例。

此体系结构使用公共和专用虚拟云网络 (virtual cloud network,VCN) 进行部署。客户网络只能通过 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公共互联网访问机头节点和计算节点。

该架构使用具有一个可用性域和区域子网的区域。您可以在具有多个可用性域的区域中使用相同的架构。我们建议您使用区域子网进行部署,而不考虑可用性域的数量。您可以从 Oracle Cloud Marketplace 访问这些集群网络,也可以手动部署它们。在这两种情况下,我们建议使用基线参考架构,然后对其进行调整以满足您的特定要求。

下图说明了此参考体系结构。

下面是 nvidia-ai-gvt-hpc-oci.png 的说明
插图 nvidia-ai-gvt-hpc-oci.png 的说明

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

该体系结构具有以下组成部分:

  • 区域

    Oracle Cloud Infrastructure 区域是一个本地化的地理区域,其中包含一个或多个称为可用性域的数据中心。区域独立于其他区域,远距离可以区分它们(跨国家甚至大陆)。

  • 可用性域

    可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错功能。可用性域不共享基础设施,例如电源或冷却设备,也不共享内部可用性域网络。因此,一个可用性域出现故障不应影响区域中的其他可用性域。

  • 容错域

    故障域是可用性域内的一组硬件和基础设施。每个可用性域具有三个具有独立电源和硬件的故障域。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。

  • 虚拟云网络 (VCN) 和子网

    VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 可以让您控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定在某个区域或可用性域中。每个子网包含一系列不与 VCN 中的其他子网重叠的地址。您可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 堡垒主机

    堡垒主机是一个计算实例,它是一个从云外部安全、受控的拓扑入口点。堡垒主机通常设置在隔离区 (DMZ) 中。通过它,您可以保护敏感资源,将其放在无法从云外部直接访问的专用网络中。拓扑具有已知的一个入口点,您可以定期监视和审计。因此,您可以避免公开拓扑中较为敏感的组件,同时又不会影响对它们的访问。

  • 计算节点

    选择在此集群中使用的裸金属 GPU 配置。例如,选择由 4 x NVIDIA A100 Tensor Core GPU 提供支持的 BM.GPU4.8(如上示例所示),或者选择由 8 x NVIDIA H100 Tensor Core GPU 提供支持的 BM.GPU.H100.8(使用 NVIDIA 变压器引擎可实现 FP8 性能优势)。

  • 编排节点

    编排节点执行集群节点管理、预配、取消预配和部署软件配置以及管理计算工作流和作业编排。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许进出子网的通信的源、目的地和类型。

关于必需的产品、服务和角色

此解决方案需要以下产品、服务和角色:

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI 企业版
  • NVIDIA NeMo 框架

  • NVIDIA Enroot

  • NVIDIA NCCL

这些是每项服务所需的角色。

服务名:角色 要求 ...
Oracle Cloud Infrastructure Government Cloud:适用于租户的 Oracle Cloud 用户 在 Oracle Cloud Infrastructure (OCI) 中创建区间、部署 GPU 集群和配置 GPU 集群。
OCI 政府云:安全或网络管理员 根据需要创建或编辑 OCI 策略,以允许您构建集群。
OCI 政府云:opc 连接到堡垒以查看配置、更新 OS 以及运行 LLM 培训工作负荷。

要满足您的需求,请参阅 Oracle 产品、解决方案和服务