在 Oracle Cloud Infrastructure 上部署高性能计算 (HPC)

在模拟和建模中并行计算工作量的需求现在可以在云中进行具有成本效益的管理。

在高带宽低延迟云网络中部署高性能计算 (HPC) 资源,其性能与内部部署 HPC 网络相比较,但具有云计算带来的成本和运营优势。

集群网络是一种 Oracle Cloud Infrastructure 技术,它允许 HPC 实例与高带宽低延迟网络通信。群集中的每个节点是一台裸金属计算机,位于与其他节点的接近物理位置。节点之间的远程直接内存访问 (Remote Direct Memory Access, RDMA) 网络提供了低于两微秒的等待时间,可与内部部署 HPC 集群进行比较。Oracle 使用基于聚合以太网或 RoCEv2 协议的 RDMA 进行群集网络。

群集网络专为要求很高的并行计算负载设计,包括以下内容:

  • 汽车或航空航天建模计算流体动态模拟

  • 崩溃模拟

  • 财务建模和风险分析

  • 生物医学仿真

  • 空间探索轨迹分析和设计

  • 人工智能和大数据工作负载

以下内容支持群集网络:

  • 虚拟云网络

    • 公共子网

    • 专用子网

    • Internet 网关

    • NAT 网关

  • 计算节点

    • 公共子网中的底层主机

    • 专用子网中的 HPC 计算节点

体系结构

此引用体系结构部署一个堡垒或头节点,该节点运行调度程序并可用作堡垒服务器以访问集群。

您可以根据需要创建可视化节点,例如 GPU 虚拟机 (virtual machine, VM) 或裸金属计算机。建议将可视化节点放置在公共子网中。HPC 工作负载通常需要可视化工具来预处理或后处理、监视或分析模拟的输出。您可以从 Oracle Cloud Marketplace 部署启用 NVIDIA GRID 的工作站。

此体系结构是使用公共和专用虚拟云网络 (VCN) 部署的。客户网络只能通过 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公共 Internet 访问主节点和可视化节点。

体系结构使用具有一个可用性域和区域子网的区域。您可以在具有多个可用性域的区域中使用相同的体系结构。建议您使用区域子网进行部署,而不管可用性域数如何。

您可以从 Oracle Cloud Marketplace 访问这些群集网络或手动部署这些群集网络。在这两种情况下,我们都建议使用基线参考体系结构,然后对其进行调整以满足您的特定要求。

下图说明了此引用体系结构。



hpc-oci-architecture.zip

体系结构具有以下组成部分:

  • 区域

    Oracle Cloud Infrastructure 区域是一个本地化地理区域,包含一个或多个数据中心,称为可用性域。区域独立于其他区域,它们之间的巨大距离可以分开(跨越国家或甚至大陆)。

  • 可用性域

    可用性域是区域内的独立独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,从而提供故障容差。可用性域不共享基础设施,例如电源、冷却或内部可用性域网络。因此,一个可用性域的故障不可能影响该区域中的其他可用性域。

  • 故障域

    容错域是可用性域内的一组硬件和基础设施。每个可用性域都有三个具有独立电源和硬件的容错域。在多个容错域之间分配资源时,应用程序可以容忍容错域内的物理服务器故障、系统维护和电源故障。

  • 虚拟云网络 (VCN) 和子网

    VCN 是在 Oracle Cloud Infrastructure 区域中设置的可自定义、软件定义的网络。与传统的数据中心网络一样,VCN 为您提供了对网络环境的完全控制。一个 VCN 可以有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为子网,子网可以被限定为区域或可用性域。每个子网包含一系列与 VCN 中的其他子网不重叠的地址。您可以在创建后更改子网的大小。子网可以是公共的或专用的。

  • 底座主机

    堡垒主机是一个计算实例,用作云外部拓扑的安全受控入口点。堡垒主机通常预配在非军事区 (DMZ) 中。它使您可以通过将敏感资源放置在无法直接从云外部访问的专用网络中来保护敏感资源。拓扑有一个已知的单个入口点,您可以定期监视和审计。因此,可以避免公开拓扑的更敏感的组件,而不会影响对这些组件的访问。

  • HPC 群集节点

    头节点预配和取消设置这些计算节点,这些节点是启用 RDM 的群集(100 gbps RoCE v2 隔离网络)。它们处理存储在文件存储中的数据并将结果返回到文件存储。

  • 可视化节点

    可视化节点通常安装 2D 或 3D 应用程序,用于 HPC 群集节点处理的数据的可视化表示和分析。

  • 安全列表

    对于每个子网,可以创建安全规则,以指定必须允许进出子网的源、目标和流量类型。

建议

使用以下建议案作为在 Oracle Cloud Infrastructure 上部署高性能计算 (HPC) 的起点。

您的要求可能与此处描述的体系结构不同。

  • VCN

    创建 VCN 时,根据计划附加到 VCN 中子网的资源数确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

    选择不与您要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中)重叠的 CIDR 块。

    创建 VCN 后,可以更改、添加和删除其 CIDR 块。

    设计子网时,请考虑流量和安全要求。将特定层或角色中的所有资源附加到可用作安全边界的同一子网。

    使用区域子网。

  • 安全列表

    使用安全列表定义适用于整个子网的入站和出站规则。

  • 底座节点

    使用 VM.Standard.2.8 计算形状。由于节点用作堡垒主机并调度 HPC 作业,因此不需要本地连接的存储或 GPU 处理。

  • 可视化节点使用 VM.GPU3.2 计算形状,因为此节点用于可视化,并且可能随图形密集型应用程序一起安装。
  • HPC 群集节点

    使用 BM.HPC2.36 计算形状。此配置包含来自两个 3.7GHz Intel Xeon Gold 6154 处理器、384-GB RAM 和 6.4-TB NVME 本地存储的 36 个核心。通过使用 Oracle Cloud Infrastructure 上提供的强大的 NVIDIA GPU,您可以通过远程可视化在云上过后处理结果。

考虑事项

Oracle Cloud Infrastructure 上部署高性能计算 (HPC) 时,请考虑以下实施选项。

  • 性能

    要获得最佳性能,请选择具有相应带宽的正确计算形状。

  • 可用性

    考虑根据您的部署要求和区域使用高可用性选项。选项包括在区域和故障域中使用多个可用性域。

  • 成本

    裸金属 GPU 实例为更高的成本提供必要的 CPU 功率。评估需求以选择适当的计算形状。

  • 监测和预警

    为节点设置 CPU 和内存使用情况的监视和预警,以便您可以根据需要向上或向下扩展配置。

部署

用于部署此参考体系结构的 Terraform 堆栈作为堆栈在 Oracle Cloud Marketplace 中提供。您也可以从 GitHub 下载代码,并根据需要对其进行定制。

  • 使用 Oracle Cloud Marketplace 中的堆栈进行部署:
    1. 转到 Oracle Cloud Marketplace
    2. 单击获取应用程序
    3. 按照屏幕上的提示操作。
  • 使用 GitHub 中的代码进行部署:
    1. 转至 GitHub
    2. 将存储库克隆或下载到本地计算机。
    3. 按照 README 文档中的说明进行操作。

了解更多信息

了解有关此体系结构功能的更多信息。

更改日志

此日志列出重大更改: