从 Oracle Cloud Marketplace 配置 HPC 集群堆栈

HPC 集群堆栈使用 Terraform 部署 Oracle Cloud Infrastructure 资源。该堆栈将创建 GPU 节点、存储、标准网络和高性能集群网络，以及用于访问和管理集群的堡垒/头节点。

部署 GPU 集群

您的 Oracle Cloud 账户必须位于有权部署和管理这些资源的组中。有关策略要求的更多详细信息，请参见 HPC 集群使用说明。

您可以将堆栈部署到现有区间，但如果您专门为集群创建区间，则堆栈可能会更干净。

注意：

虽然使用市场堆栈预配环境没有成本，但启动堆栈时预配的资源将向您收费。

为您的租户和区域创建区间并验证策略是否可用。
1. 以 Oracle Cloud 用户身份登录 OCI 控制台，以获取要使用的租户和区域。
2. 为集群资源创建区间。
3. 确保已设置 OCI 策略以允许您构建集群。
  这可能需要您的安全或网络管理员的帮助。以下是策略示例：“允许组 myGroup 管理区间 compartment 中的所有资源”。
使用 HPC 集群堆栈部署 GPU 集群。
1. 导航到市场，然后单击所有应用程序。
2. 在搜索列表框中，输入 HPC 集群。
  
  注意：
  如果 HPC 集群堆栈在租户的 OCI 市场中不可用，则可以从 GitHub（git 克隆 https://github.com/oracle-quickstart/oci-hpc.git ）克隆堆栈，并将其导入 OCI 资源管理器。这提供了相同的功能，但要求您可以访问适用于 GPU 节点的“定制 OS 映像”。
3. 单击 HPC 集群。
4. 选择一个版本。
  我们使用了默认的 v2.10.4.1。
5. 选择要构建集群的区间
6. 单击启动堆栈。

配置集群

启动堆栈时，完成 "Stack Information" 和 "Configuration" 页面以开始配置群集。

完成堆栈信息页：
1. 输入群集的名称。
2. （可选）添加简短描述。
3. 单击下一步。
显示配置变量页。
配置集群。
配置变量页提供了许多根据您的需求定制集群的机会。我们没有详细介绍每个选项。而是在构建支持 NVIDIA 群集软件的 GPU 集群时需要任何非默认设置时提供指导。
1. 在公共 SSH 密钥中，添加允许您登录到集群的公共密钥。
2. 选中使用定制群集名称复选框，然后输入基本主机名。
  这用作堡垒和登录节点主机名的前缀。
使用头节点选项定制堡垒。
此实例用作主登录节点 Slurm 控制器，还可用于支持群集的某些构建和其他活动。您可以在此处根据您的需求调整 CPU、内存和引导卷容量
使用计算节点选项选择集群中 worker 节点的类型和数量。您可以使用应用市场中的 OS 映像部署这些节点，或者使用您首选的 OS 构建提供定制映像。

插图 config-compute.png 的说明
- 可用性域：如果您在一个具有多个可用性域 (AD) 的区域中工作，请选择具有 GPU 资源的最佳可用性域。
- 选择使用群集网络。
- 计算节点配置：选择在此集群中使用的裸金属 GPU 配置。例如 BM.GPU4.8。
- 初始集群大小：输入要预配的裸金属节点数。
- 要使用市场中预配置的 OS 映像进行构建，请选择使用市场映像。然后，在映像版本下，为预配置了 GPU 和 RDMA 网络驱动程序的 OS 选择一个 GPU 映像。
- 使用市场映像：如果要使用定制映像构建集群，请取消选中此复选框并选择使用不受支持的映像，然后在映像 OCID 下提供已上载到租户的定制映像的 OCID。
- 使用计算代理：应用市场映像可能需要此选项。
（可选） Additional Login Node（附加登录节点）为群集用户提供第二台主机来与群集交互。可以定制配置、ocpus 和内存以满足您的要求。
高级存储选项提供了多种方法来预配置将在整个集群中可用的共享存储。单击显示高级存储选项以展开选择。

插图 config-storage.png 的说明
- 堡垒主目录在所有群集节点之间共享 NFS。这是头节点引导卷的一部分，您可以在头节点选项中进行定制。
- 对于更多共享存储，请选择用于共享空间的其他块存储卷并输入容量。此卷附加到堡垒并在整个群集中共享为 /nfs/cluster。
- 来自 NVME 或块存储卷的共享 NFS 暂存空间从群集中的第一个计算节点共享 NVMe 容量，即 /nfs/scratch。这提供了比头节点卷更高的性能存储，但可能提供的容量和可用性较低。
- Mount Localdisk 将从每个计算节点上的 NVMe 创建文件系统并在该节点上本地挂载该文件系统。
- 一个逻辑卷使用 LVM 从多个 NVMe 设备创建一个更大的卷。
- 冗余通过镜像设备提高 NVMe 存储的可靠性（但将可用容量减半）。
使用网络选项选择 VCN。
- 使用现有 VCN ：默认情况下取消选择。如果取消选中，则会预配新的 VCN。选中此复选框可在现有 VCN 和子网中预配集群。这样可以更轻松地集成此集群和其他租户资源。
使用软件选择要安装的软件。

插图 config-software.png 的说明
- 选择 Install SLURM 可提供 SLURM 作业调度和管理。
- （可选）选择 Install HPC Cluster Monitoring Tools（安装 HPC 集群监视工具）以提供对集群活动和利用率的更多洞察。
- 选择 Install NVIDIA Enroot for containerized GPU workloads 。这将准备环境以在 NVIDIA PyTorch、NVIDIA NeMo 平台和其他容器中运行工作负荷。
  
  注意：
  选择此选项非常重要。
- 选择 Install NVIDIA Pyxis plugin for Slurm 。
- 选择启用 PAM 可限制对计算节点的登录访问。
调试：确保选择了配置系统（这是默认设置）。
单击下一步以查看配置设置。

在复习中， Cluster Configuration 显示了所有非默认选项。您可以返回上一页页进行更改并重新访问所有设置。
选择运行应用，然后单击创建以将堆栈启动到租户并构建集群。
该堆栈在 OCI 资源管理器中创建，并随规范一起启动，以便立即开始预配。

此过程需要几分钟的时间。为每个计算节点预配节点只需几分钟时间，但为节点安装其他软件会增加构建时间。您可以在 OCI 控制台中监视构建进度。依次转至资源管理器和作业，查看最新的作业日志以了解作业和可能的错误。当资源管理器作业状态报告成功时，部署已完成。

如果最终状态未成功，请查看作业日志以了解详细信息。有关计算实例和集群网络的问题，可以在 Cluster network work requests 下获得更多信息。要导航到该页面，请依次转到计算、群集网络、群集网络详细信息和群集网络工作请求。选择最近的工作请求以查看详细信息。

对于成功的构建，堡垒的 IP 地址在作业日志末尾报告。如果配置了其他登录节点，则还会显示登录节点 IP 地址。例如：

Apply complete! Resources: 23 added, 0 changed, 0 destroyed.

Outputs:
RDMA_NIC_metrics_url = "https://objectstorage.us-gov-phoenix-1.oraclecloud.com
backup = "No Slurm Backup Defined"
bastion = 139.87.214.247
login = "No Login Node Defined"
private_ips = 172.16.6.4 172.16.7.109"

记下堡垒公共 IP 地址，因为需要登录到集群。
您还可以在 OCI 控制台的计算、实例下找到 IP 地址。