为政府 AI 工作负载部署高性能 GPU 计算
DGX Cloud 的共享资源环境可能不适合美国政府区域的客户,他们需要将所有数据和资源保持在自己的租户的控制之下,从而提高安全性。我们有另一个解决方案给你。
Oracle 现在可以轻松地在我们的区域中为 Oracle US Government Cloud(FedRAMP High) 部署裸金属 NVIDIA GPU 系统的专用集群。所有云资源和数据都保留在您的云租户中,因此您可以完全控制软件版本、管理访问、加密密钥和资源共享。
Oracle GPU 集群具有 NVIDIA A100 GPU 或 NVIDIA H100 GPU,可通过从市场启动 HPC 集群堆栈来部署。只需单击几下并设置,Terraform 和 Ansible 脚本即可自动为具有超低延迟 RoCEv2 集群网络的集群环境部署硬件和软件,该集群网络基于 NVIDIA 网络、集群网络驱动程序、用于作业调度的 SLURM、用于分布式容器运行的 NVIDIA Pyxis 和 Enroot。可以自带大型语言模型和机器学习工作负载,也可以拉取 NVIDIA PyTorch 和 NeMo 容器,完全在安全租户内运行 NVIDIA AI Enterprise 兼容工作负载。
- 大语言模型
- 人工视觉
- 机器学习
- 模拟
体系结构
此体系结构部署堡垒或机头节点,该节点运行调度程序,并可用作堡垒服务器来访问群集。
您可以使用各种 NVIDIA GPU 实例类型来创建计算处理节点并满足处理需求。我们建议将计算处理节点放置在安全的专用子网中。您可以从 Oracle Cloud Marketplace 部署 NVIDIA GPU 计算集群实例。
此体系结构使用公共和专用虚拟云网络 (virtual cloud network,VCN) 进行部署。客户网络只能通过 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公共互联网访问机头节点和计算节点。
该架构使用具有一个可用性域和区域子网的区域。您可以在具有多个可用性域的区域中使用相同的架构。我们建议您使用区域子网进行部署,而不管可用性域的数量如何。您可以从 Oracle Cloud Marketplace 访问这些集群网络,也可以手动部署它们。在任一情况下,我们建议使用基线参考架构,然后调整它以满足您的特定要求。
下图说明了此参考体系结构。
![下面是 nvidia-ai-gvt-hpc-oci.png 的说明 下面是 nvidia-ai-gvt-hpc-oci.png 的说明](img/nvidia-ai-gvt-hpc-oci.png)
插图 nvidia-ai-gvt-hpc-oci.png 的说明
nvidia-ngc-ai-gvt-hpc-oci-oracle.zip
体系结构具有以下组成部分:
- 区域
Oracle Cloud Infrastructure 区域是一个本地化的地理区域,其中包含一个或多个称为可用性域的数据中心。区域独立于其他区域,远距离可以区分它们(跨国家甚至大陆)。
- 可用性域
可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错功能。可用性域不共享基础设施(例如电源或冷却设备),也不共享内部可用性域网络。因此,一个可用性域出现故障不应影响区域中的其他可用性域。
- 容错域
容错域是可用性域内一组硬件和基础设施。每个可用性域具有三个具有独立电源和硬件的容错域。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。
- 虚拟云网络 (VCN) 和子网
VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统的数据中心网络一样,VCN 可以让您控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定在某个区域或可用性域中。每个子网都包含一系列不与 VCN 中的其他子网重叠的地址。您可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。
- Bastion host(堡垒主机)
堡垒主机是一个计算实例,它作为从云外部到拓扑的安全受控制入口点。堡垒主机通常预配到隔离区 (DMZ)。利用它,您可以将敏感资源放在无法从云外部直接访问的专用网络中,从而保护这些资源。拓扑具有已知的单个入口点,您可以定期对其进行监视和审计。因此,您可以避免公开拓扑中较为敏感的组件,同时又不会影响对它们的访问。
- 计算节点
选择在此集群中使用的裸金属 GPU 配置。例如,选择由 4 x NVIDIA A100 Tensor Core GPU 提供支持的 BM.GPU4.8(如上示例所示),或者选择由 8 x NVIDIA H100 Tensor Core GPU 提供支持的 BM.GPU.H100.8(使用 NVIDIA 变压器引擎可实现 FP8 性能优势)。
- 编排节点
该编排节点可执行集群节点管理、预配、取消预配和部署软件配置以及管理计算工作流和作业编排。
- 安全列表
对于每个子网,您可以创建安全规则来指定必须允许传入和传出子网的通信的源、目的地和类型。
推荐
- VCN
创建 VCN 时,请根据您计划附加到 VCN 中的子网的资源数确定所需的 CIDR 块数和每个块的大小。使用位于标准专用 IP 地址空间内的 CIDR 块。
选择与您打算设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure 、内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。
创建 VCN 后,您可以更改、添加和删除其 CIDR 块。
设计子网时,请考虑流量和安全要求。将特定层或角色内的所有资源连接到同一子网,该子网可以充当安全边界。
使用区域子网。
- 安全列表
使用安全列表定义适用于整个子网的入站和出站规则。
- 堡垒节点
使用 VM.Standard.E5。Flex 计算配置。由于该节点用作堡垒主机并调度 HPC 作业,因此它不需要本地连接的存储或 GPU 处理。
- GPU 计算集群节点
使用 BM.GPU.A100.-v2.8 计算配置,因为此节点用于 GPU 计算工作流和高度计算密集型作业。
注意事项
在 Oracle Cloud Infrastructure 上部署高性能计算 (HPC) 时,请考虑这些实施选项。
- 性能
要获得最佳性能,请选择具有适当带宽的正确计算配置。
- 可用性
请考虑根据您的部署要求和区域使用高可用性选项。选项包括在一个区域和容错域中使用多个可用性域。
- 成本
裸金属 GPU 实例提供所需的 CPU 电源来提高成本。评估您的需求,选择合适的计算配置。
- 监视和预警
对节点的 CPU 和内存使用情况设置监视和预警,以便您可以根据需要纵向扩展或收缩配置。
部署
-
在 Oracle Cloud Marketplace 中使用堆栈进行部署:
- 转至 Oracle Cloud Marketplace 。
- 单击获取应用程序。
- 按照屏幕上的提示操作。有关政府要求和操作环境,请参见配置 HPC 集群堆栈以在 OCI 政府区域部署 NVIDIA AI。
- 接受最终用户许可协议。
- 使用 GitHub 中的代码部署:
- 转至 GitHub 。
- 复制或下载系统信息库。
- 按照
README
文档中的说明进行操作。