为政府 AI 工作负载部署高性能 GPU 计算

将 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 添加到 Oracle Cloud Marketplace 后,您可以快速轻松地对 OCI 上的生成式 AI 应用执行任何类型的大型培训,包括针对由 NVIDIA NeMo Framework(用于构建、定制和部署生成式 AI 的端到端云原生框架)优化的工作负载。

DGX Cloud 的共享资源环境可能不适合美国政府区域的客户,他们需要将所有数据和资源保持在自己的租户的控制之下,从而提高安全性。我们有另一个解决方案给你。

Oracle 现在可以轻松地在我们的区域中为 Oracle US Government Cloud(FedRAMP High) 部署裸金属 NVIDIA GPU 系统的专用集群。所有云资源和数据都保留在您的云租户中,因此您可以完全控制软件版本、管理访问、加密密钥和资源共享。

Oracle GPU 集群具有 NVIDIA A100 GPU 或 NVIDIA H100 GPU,可通过从市场启动 HPC 集群堆栈来部署。只需单击几下并设置,Terraform 和 Ansible 脚本即可自动为具有超低延迟 RoCEv2 集群网络的集群环境部署硬件和软件,该集群网络基于 NVIDIA 网络、集群网络驱动程序、用于作业调度的 SLURM、用于分布式容器运行的 NVIDIA Pyxis 和 Enroot。可以自带大型语言模型和机器学习工作负载,也可以拉取 NVIDIA PyTorch 和 NeMo 容器,完全在安全租户内运行 NVIDIA AI Enterprise 兼容工作负载。

RoCEv2 集群网络专为高要求的并行处理工作负载而设计,包括:
  • 大语言模型
  • 人工视觉
  • 机器学习
  • 模拟

体系结构

此体系结构部署堡垒或机头节点,该节点运行调度程序,并可用作堡垒服务器来访问群集。

您可以使用各种 NVIDIA GPU 实例类型来创建计算处理节点并满足处理需求。我们建议将计算处理节点放置在安全的专用子网中。您可以从 Oracle Cloud Marketplace 部署 NVIDIA GPU 计算集群实例。

此体系结构使用公共和专用虚拟云网络 (virtual cloud network,VCN) 进行部署。客户网络只能通过 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公共互联网访问机头节点和计算节点。

该架构使用具有一个可用性域和区域子网的区域。您可以在具有多个可用性域的区域中使用相同的架构。我们建议您使用区域子网进行部署,而不管可用性域的数量如何。您可以从 Oracle Cloud Marketplace 访问这些集群网络,也可以手动部署它们。在任一情况下,我们建议使用基线参考架构,然后调整它以满足您的特定要求。

下图说明了此参考体系结构。

下面是 nvidia-ai-gvt-hpc-oci.png 的说明
插图 nvidia-ai-gvt-hpc-oci.png 的说明

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

体系结构具有以下组成部分:

  • 区域

    Oracle Cloud Infrastructure 区域是一个本地化的地理区域,其中包含一个或多个称为可用性域的数据中心。区域独立于其他区域,远距离可以区分它们(跨国家甚至大陆)。

  • 可用性域

    可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错功能。可用性域不共享基础设施(例如电源或冷却设备),也不共享内部可用性域网络。因此,一个可用性域出现故障不应影响区域中的其他可用性域。

  • 容错域

    容错域是可用性域内一组硬件和基础设施。每个可用性域具有三个具有独立电源和硬件的容错域。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。

  • 虚拟云网络 (VCN) 和子网

    VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统的数据中心网络一样,VCN 可以让您控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定在某个区域或可用性域中。每个子网都包含一系列不与 VCN 中的其他子网重叠的地址。您可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • Bastion host(堡垒主机)

    堡垒主机是一个计算实例,它作为从云外部到拓扑的安全受控制入口点。堡垒主机通常预配到隔离区 (DMZ)。利用它,您可以将敏感资源放在无法从云外部直接访问的专用网络中,从而保护这些资源。拓扑具有已知的单个入口点,您可以定期对其进行监视和审计。因此,您可以避免公开拓扑中较为敏感的组件,同时又不会影响对它们的访问。

  • 计算节点

    选择在此集群中使用的裸金属 GPU 配置。例如,选择由 4 x NVIDIA A100 Tensor Core GPU 提供支持的 BM.GPU4.8(如上示例所示),或者选择由 8 x NVIDIA H100 Tensor Core GPU 提供支持的 BM.GPU.H100.8(使用 NVIDIA 变压器引擎可实现 FP8 性能优势)。

  • 编排节点

    该编排节点可执行集群节点管理、预配、取消预配和部署软件配置以及管理计算工作流和作业编排。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许传入和传出子网的通信的源、目的地和类型。

推荐

使用以下建议作为在 Oracle Cloud Infrastructure 上部署高性能计算 (HPC) 的起点,并根据需要进行定制以满足特定需求。
  • VCN

    创建 VCN 时,请根据您计划附加到 VCN 中的子网的资源数确定所需的 CIDR 块数和每个块的大小。使用位于标准专用 IP 地址空间内的 CIDR 块。

    选择与您打算设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure 、内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。

    创建 VCN 后,您可以更改、添加和删除其 CIDR 块。

    设计子网时,请考虑流量和安全要求。将特定层或角色内的所有资源连接到同一子网,该子网可以充当安全边界。

    使用区域子网。

  • 安全列表

    使用安全列表定义适用于整个子网的入站和出站规则。

  • 堡垒节点

    使用 VM.Standard.E5。Flex 计算配置。由于该节点用作堡垒主机并调度 HPC 作业,因此它不需要本地连接的存储或 GPU 处理。

  • GPU 计算集群节点

    使用 BM.GPU.A100.-v2.8 计算配置,因为此节点用于 GPU 计算工作流和高度计算密集型作业。

注意事项

Oracle Cloud Infrastructure 上部署高性能计算 (HPC) 时,请考虑这些实施选项。

  • 性能

    要获得最佳性能,请选择具有适当带宽的正确计算配置。

  • 可用性

    请考虑根据您的部署要求和区域使用高可用性选项。选项包括在一个区域和容错域中使用多个可用性域。

  • 成本

    裸金属 GPU 实例提供所需的 CPU 电源来提高成本。评估您的需求,选择合适的计算配置。

  • 监视和预警

    对节点的 CPU 和内存使用情况设置监视和预警,以便您可以根据需要纵向扩展或收缩配置。

部署

用于部署此参考架构的 Terraform 堆栈作为堆栈在 Oracle Cloud Marketplace 中提供。您还可以从 GitHub 下载代码,并根据您的要求进行定制。

确认

  • 作者Kevin Colwell
  • 贡献者Neil Pierson, George Boateng, Travis Lee, Michael Rutledge