注意:
- 此教程需要访问 Oracle Cloud。要注册免费账户,请参阅开始使用 Oracle Cloud Infrastructure Free Tier 。
- 它使用 Oracle Cloud Infrastructure 身份证明、租户和区间示例值。完成实验室时,请将这些值替换为特定于云环境的值。
在 Oracle Cloud Infrastructure 中部署 GPU 高性能计算集群
简介
强大的大型语言模型 (LLM) 的出现增加了对具有足够图形处理单元 (GPU) 内存的基础设施的需求,以执行微调任务,而实现这一目标的一种方法是使用 GPU 集群。Oracle Cloud Infrastructure (OCI) 能够部署 NVIDIA GPU A100s 的超级集群,并利用其强大功能来运行或微调 LLM。
组件
集群网络是 OCI 的强大资源,可用于部署通过高带宽、超低延迟网络连接的 HPC 和 GPU 计算机集群。集群中的每个节点都是一个裸金属机,位于与其他节点的物理附近。节点之间的远程直接内存访问 (Remote Direct Memory Access,RDMA) 网络可提供与内部部署高性能计算 (High Performance Computing,HPC) 集群相当的微秒延迟。有关更多信息,请参见 Cluster Networks with Instance Pools 。
要部署集群,您需要创建包含工作区区间信息的动态组、一组允许服务和动态组执行某些任务的策略、节点集群使用的 Ubuntu ISO 映像的定制映像以及部署市场堆栈来部署集群。有关更多信息,请参阅管理动态组、策略、自定义映像和 Oracle Cloud Marketplace 。
目标
- 使用预配置的堆栈在 OCI 上部署 GPU A100 集群。
先决条件
-
用于创建动态组、用户组和策略的访问权限。有关访问权限,请与租户管理员联系。
-
GPU 计算限制。如果您没有足够的计算 GPU 限制,请参见 Requesting a Service Limit Increase 。
任务 1:创建动态组
使用工作区信息创建动态组规则。
-
登录到 OCI 控制台,导航到身份和安全并单击区间。从工作区间复制 Oracle Cloud 标识符 (OCID)。
-
单击 Dynamic Groups(动态组)和 Create Dynamic Group(创建动态组)。
-
输入名称和说明。对于本教程,输入
instance-principal
作为名称。更新 OCID,然后单击创建。
任务 2:定义策略
定义部署流程所需的策略。
-
转到 OCI 控制台,导航到身份和安全和策略。
-
单击创建策略,然后输入名称、说明并选择根区间。
-
单击显示手动编辑器并输入以下策略,将
<>
替换为信息,然后单击创建。Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
任务 3:(可选)创建定制映像
从 GPU 计算机的 Ubuntu 映像创建定制映像。(如果需要)。
-
转到 OCI 控制台,导航到计算和定制映像。
-
在定制映像下,单击导入映像。
-
输入以下信息。
- 区间:输入区间。
- 名称:对于本教程,输入
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
作为名称。 - 操作系统 (OS):输入 OS。
- 选择从对象存储 URL 导入并输入以下 URL:
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
输入对象存储中的映像位置。
-
默认情况下保留其他配置,然后单击导入映像。定制映像准备就绪需要几分钟。
任务 4:部署 HPC 堆栈
部署 HPC 堆栈的一种简单快捷的方法是使用以下 URL:https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip
。此 URL 将使用所有建议和更新的脚本来创建环境。
注:要检查部署脚本的最新更新,请转至 URL:
https://github.com/oracle-quickstart/oci-hpc
。在README.md
文件中,单击部署到 Oracle Cloud ,如下图中所示。
或者
传统上通过 OCI 控制台部署 HPC 堆栈。
-
转到 OCI 控制台,单击市场和所有应用。
-
在搜索栏中输入
HPC solutions
。 -
选择 HPC 集群。
-
输入创建堆栈所需的信息。
-
输入配置高级堡垒选项所需的值。
-
输入群集网络参数。
-
单击创建以初始化堆栈部署。
已成功创建堆栈。
-
要检查创建的实例,请转至 OCI 控制台,然后单击计算、实例。
确认
- Authors -Douglas Silva(LAD A 团队),Leandro Camargo(LAD A 团队)
更多学习资源
浏览 docs.oracle.com/learn 上的其他实验室,或者通过 Oracle Learning YouTube 频道访问更多免费学习内容。此外,请访问 education.oracle.com/learning-explorer 以成为 Oracle Learning Explorer。
有关产品文档,请访问 Oracle 帮助中心。
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98235-01
May 2024