注意:

在 Oracle Cloud Infrastructure 中部署 GPU 高性能计算集群

简介

强大的大型语言模型 (LLM) 的出现增加了对具有足够图形处理单元 (GPU) 内存的基础设施的需求,以执行微调任务,而实现这一目标的一种方法是使用 GPU 集群。Oracle Cloud Infrastructure (OCI) 能够部署 NVIDIA GPU A100s 的超级集群,并利用其强大功能来运行或微调 LLM。

组件

集群网络是 OCI 的强大资源,可用于部署通过高带宽、超低延迟网络连接的 HPC 和 GPU 计算机集群。集群中的每个节点都是一个裸金属机,位于与其他节点的物理附近。节点之间的远程直接内存访问 (Remote Direct Memory Access,RDMA) 网络可提供与内部部署高性能计算 (High Performance Computing,HPC) 集群相当的微秒延迟。有关更多信息,请参见 Cluster Networks with Instance Pools

要部署集群,您需要创建包含工作区区间信息的动态组、一组允许服务和动态组执行某些任务的策略、节点集群使用的 Ubuntu ISO 映像的定制映像以及部署市场堆栈来部署集群。有关更多信息,请参阅管理动态组策略自定义映像Oracle Cloud Marketplace

目标

先决条件

任务 1:创建动态组

使用工作区信息创建动态组规则。

  1. 登录到 OCI 控制台,导航到身份和安全并单击区间。从工作区间复制 Oracle Cloud 标识符 (OCID)。

    图像 1

  2. 单击 Dynamic Groups(动态组)Create Dynamic Group(创建动态组)

  3. 输入名称说明。对于本教程,输入 instance-principal 作为名称。更新 OCID,然后单击创建

    图像 2

任务 2:定义策略

定义部署流程所需的策略。

  1. 转到 OCI 控制台,导航到身份和安全策略

  2. 单击创建策略,然后输入名称说明并选择根区间。

  3. 单击显示手动编辑器并输入以下策略,将 <> 替换为信息,然后单击创建

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    图像 3

任务 3:(可选)创建定制映像

从 GPU 计算机的 Ubuntu 映像创建定制映像。(如果需要)。

  1. 转到 OCI 控制台,导航到计算定制映像

    图像 4

  2. 定制映像下,单击导入映像

    图像 5

  3. 输入以下信息。

    • 区间:输入区间。
    • 名称:对于本教程,输入 Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0 作为名称。
    • 操作系统 (OS):输入 OS。
    • 选择从对象存储 URL 导入并输入以下 URL:https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    图像 6

  4. 输入对象存储中的映像位置。

    图像 7

    图像 8

  5. 默认情况下保留其他配置,然后单击导入映像。定制映像准备就绪需要几分钟。

    图像 9

任务 4:部署 HPC 堆栈

部署 HPC 堆栈的一种简单快捷的方法是使用以下 URL:https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip。此 URL 将使用所有建议和更新的脚本来创建环境。

注:要检查部署脚本的最新更新,请转至 URL:https://github.com/oracle-quickstart/oci-hpc。在 README.md 文件中,单击部署到 Oracle Cloud ,如下图中所示。

图像 28

或者

传统上通过 OCI 控制台部署 HPC 堆栈。

  1. 转到 OCI 控制台,单击市场所有应用

    图像 10

  2. 搜索栏中输入 HPC solutions

    图像 11

  3. 选择 HPC 集群

    图像 12

  4. 输入创建堆栈所需的信息。

    图像 13

    图像 14

    图像 15

    图像 16

    图像 17

    图像 18

    图像 19

    图像 20

  5. 输入配置高级堡垒选项所需的值。

    图像 21

  6. 输入群集网络参数。

    图像 22 图像 23

  7. 单击创建以初始化堆栈部署。

    图像 24

    已成功创建堆栈。

    图像 25

  8. 要检查创建的实例,请转至 OCI 控制台,然后单击计算实例

    图像 26

    图像 27

确认

更多学习资源

浏览 docs.oracle.com/learn 上的其他实验室,或者通过 Oracle Learning YouTube 频道访问更多免费学习内容。此外,请访问 education.oracle.com/learning-explorer 以成为 Oracle Learning Explorer。

有关产品文档,请访问 Oracle 帮助中心