为政府 AI 工作负载部署高性能 GPU 计算

将 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 添加到 Oracle Cloud Marketplace 后，您可以快速轻松地对 OCI 上的生成式 AI 应用执行任何类型的大型培训，包括针对由 NVIDIA NeMo Framework（用于构建、定制和部署生成式 AI 的端到端云原生框架）优化的工作负载。

DGX Cloud 的共享资源环境可能不适合美国政府区域的客户，他们需要将所有数据和资源保持在自己的租户的控制之下，从而提高安全性。我们有另一个解决方案给你。

Oracle 现在可以轻松地在我们的区域中为 Oracle US Government Cloud(FedRAMP High) 部署裸金属 NVIDIA GPU 系统的专用集群。所有云资源和数据都保留在您的云租户中，因此您可以完全控制软件版本、管理访问、加密密钥和资源共享。

Oracle GPU 集群具有 NVIDIA A100 GPU 或 NVIDIA H100 GPU，可通过从市场启动 HPC 集群堆栈来部署。只需单击几下并设置，Terraform 和 Ansible 脚本即可自动为具有超低延迟 RoCEv2 集群网络的集群环境部署硬件和软件，该集群网络基于 NVIDIA 网络、集群网络驱动程序、用于作业调度的 SLURM、用于分布式容器运行的 NVIDIA Pyxis 和 Enroot。可以自带大型语言模型和机器学习工作负载，也可以拉取 NVIDIA PyTorch 和 NeMo 容器，完全在安全租户内运行 NVIDIA AI Enterprise 兼容工作负载。

RoCEv2 集群网络专为高要求的并行处理工作负载而设计，包括：

大语言模型
人工视觉
机器学习
模拟

体系结构

此体系结构部署堡垒或机头节点，该节点运行调度程序，并可用作堡垒服务器来访问群集。

您可以使用各种 NVIDIA GPU 实例类型来创建计算处理节点并满足处理需求。我们建议将计算处理节点放置在安全的专用子网中。您可以从 Oracle Cloud Marketplace 部署 NVIDIA GPU 计算集群实例。

此体系结构使用公共和专用虚拟云网络 (virtual cloud network，VCN) 进行部署。客户网络只能通过 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公共互联网访问机头节点和计算节点。

该架构使用具有一个可用性域和区域子网的区域。您可以在具有多个可用性域的区域中使用相同的架构。我们建议您使用区域子网进行部署，而不管可用性域的数量如何。您可以从 Oracle Cloud Marketplace 访问这些集群网络，也可以手动部署它们。在任一情况下，我们建议使用基线参考架构，然后调整它以满足您的特定要求。

下图说明了此参考体系结构。

插图 nvidia-ai-gvt-hpc-oci.png 的说明

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

体系结构具有以下组成部分：

区域
Oracle Cloud Infrastructure 区域是一个本地化的地理区域，其中包含一个或多个称为可用性域的数据中心。区域独立于其他区域，远距离可以区分它们（跨国家甚至大陆）。
可用性域
可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离，从而提供容错功能。可用性域不共享基础设施（例如电源或冷却设备），也不共享内部可用性域网络。因此，一个可用性域出现故障不应影响区域中的其他可用性域。
容错域
容错域是可用性域内一组硬件和基础设施。每个可用性域具有三个具有独立电源和硬件的容错域。在多个容错域之间分配资源时，应用可以承受容错域内的物理服务器故障、系统维护和电源故障。
虚拟云网络 (VCN) 和子网
VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统的数据中心网络一样，VCN 可以让您控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块，您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网，这些子网可以限定在某个区域或可用性域中。每个子网都包含一系列不与 VCN 中的其他子网重叠的地址。您可以在创建后更改子网的大小。子网可以是公共子网，也可以是专用子网。
Bastion host（堡垒主机）
堡垒主机是一个计算实例，它作为从云外部到拓扑的安全受控制入口点。堡垒主机通常预配到隔离区 (DMZ)。利用它，您可以将敏感资源放在无法从云外部直接访问的专用网络中，从而保护这些资源。拓扑具有已知的单个入口点，您可以定期对其进行监视和审计。因此，您可以避免公开拓扑中较为敏感的组件，同时又不会影响对它们的访问。
计算节点
选择在此集群中使用的裸金属 GPU 配置。例如，选择由 4 x NVIDIA A100 Tensor Core GPU 提供支持的 BM.GPU4.8（如上示例所示），或者选择由 8 x NVIDIA H100 Tensor Core GPU 提供支持的 BM.GPU.H100.8（使用 NVIDIA 变压器引擎可实现 FP8 性能优势）。
编排节点
该编排节点可执行集群节点管理、预配、取消预配和部署软件配置以及管理计算工作流和作业编排。
安全列表
对于每个子网，您可以创建安全规则来指定必须允许传入和传出子网的通信的源、目的地和类型。

注意事项

在 Oracle Cloud Infrastructure 上部署高性能计算 (HPC) 时，请考虑这些实施选项。

性能
要获得最佳性能，请选择具有适当带宽的正确计算配置。
可用性
请考虑根据您的部署要求和区域使用高可用性选项。选项包括在一个区域和容错域中使用多个可用性域。
成本
裸金属 GPU 实例提供所需的 CPU 电源来提高成本。评估您的需求，选择合适的计算配置。
监视和预警
对节点的 CPU 和内存使用情况设置监视和预警，以便您可以根据需要纵向扩展或收缩配置。

部署

用于部署此参考架构的 Terraform 堆栈作为堆栈在 Oracle Cloud Marketplace 中提供。您还可以从 GitHub 下载代码，并根据您的要求进行定制。

在 Oracle Cloud Marketplace 中使用堆栈进行部署：
1. 转至 Oracle Cloud Marketplace 。
2. 单击获取应用程序。
3. 按照屏幕上的提示操作。有关政府要求和操作环境，请参见配置 HPC 集群堆栈以在 OCI 政府区域部署 NVIDIA AI。
4. 接受最终用户许可协议。
使用 GitHub 中的代码部署：
1. 转至 GitHub 。
2. 复制或下载系统信息库。
3. 按照 README 文档中的说明进行操作。

浏览更多

详细了解此体系结构的功能。

确认

作者：Kevin Colwell
贡献者：Neil Pierson, George Boateng, Travis Lee, Michael Rutledge

体系结构

推荐

注意事项

部署

浏览更多

确认