高性能计算：在 Oracle Cloud Infrastructure 上运行 Ansys 流动

体系结构

该体系结构使用一个堡垒 / 头节点连接到 HPC 集群。

头节点包含流动安装和型号。它具有消息传递接口 (MPI)，用于对作业进行编排和运行。作业结果保存在机头节点上。

下图说明了此参考体系结构。

插图体系结构的说明 -hpc.png

architecture-hpc-oracle.zip

该体系结构包含以下组件：

区域
Oracle Cloud Infrastructure 区域是一个本地化地理区域，包含一个或多个称为可用性域的数据中心。区域独立于其他区域，大片距离可以分开（跨国家甚至大陆）。
可用性域
可用性域是区域内的独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离，从而提供容错能力。可用性域不共用电源或冷却设备等基础设施，也不共享内部可用性域网络。因此，一个可用性域出现故障不太可能影响区域中的其他可用性域。
故障域
故障域是可用性域内一组硬件和基础设施。每个可用性域都有三个容错域，具有独立电源和硬件。在多个容错域之间分配资源时，您的应用可以在容错域内承受物理服务器故障、系统维护和电源故障。
虚拟云网络 (VCN) 和子网
VCN 是在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义的网络。与传统的数据中心网络类似，VCN 允许您完全控制您的网络环境。VCN 可以有多个不重叠的 CIDR 块，您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网，这些子网可以限定于某个区域或可用性域。每个子网都包含与 VCN 中的其他子网不重叠的连续地址范围。您可以在创建子网后更改其大小。子网可以是公共的，也可以是专用的。
安全列表
对于每个子网，您可以创建安全规则来指定必须允许进出子网的源、目标和流量类型。
实例池
通过实例池，可以在同一组区域内创建和管理多个计算实例。还可以实现与其他服务（例如负载平衡服务和 IAM 服务）的集成。
堡垒节点 / 头节点
使用基于 Web 的门户连接到机头节点并安排 HPC 作业。作业请求通过 FastConnect 或 IPSec VPN 进入机头节点。主节点还会将客户数据集发送到文件存储，并且可以对数据执行一些预处理。

头节点提供 HPC 节点集群并在作业完成时删除 HPC 集群。
HPC 集群节点
主节点预配并终止这些支持 RDMA 的群集的计算节点。它们处理文件存储中存储的数据并将结果返回文件存储。
Cloud Guard
您可以使用 Oracle Cloud Guard 监视和维护云中资源的安全性。Cloud Guard 可检查您的资源是否存在与配置相关的安全缺陷，并监视操作员和用户是否有风险活动。标识任何安全问题或风险时，Cloud Guard 会根据可定义的安全配方建议更正措施，并帮助您执行这些操作。
NFS 服务器
其中一个 HPC 节点将被提升为 NFS 服务器。

建议

您的要求可能与此处介绍的体系结构有所不同。可将以下建议作为起点。

VCN
创建 VCN 时，请根据您计划附加到 VCN 中的子网的资源数量确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

选择与要设置专用连接的任何其他网络（在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中）不重叠的 CIDR 块。

创建 VCN 后，可以更改、添加和删除其 CIDR 块。

设计子网时，请考虑您的流量和安全性要求。将特定层或角色中的所有资源连接到可充当安全边界的同一子网。
安全性
使用 Oracle Cloud Guard 可主动监视和维护 OCI 中的资源安全性。Cloud Guard 使用检测器配方，您可以定义这些配方来检查资源是否存在安全漏洞，并监视操作员和用户是否有风险活动。检测到任何错误配置或不安全活动时，Cloud Guard 会根据可以定义的响应方配方建议采取纠正措施并帮助执行操作。

对于需要最大安全性的资源，Oracle 建议您使用安全区域。安全区域是与基于优秀实践的 Oracle 定义的安全策略配方关联的区间。例如，安全区域中的资源不能从公共互联网访问，必须使用客户管理的密钥进行加密。在安全区域中创建和更新资源时，Oracle Cloud Infrastructure 将根据安全区域配方中的策略验证操作，并拒绝违反任何策略的操作。
HPC 节点
有两个方案：
1. 使用实例池在 VM 配置上部署，如体系结构图中所示。此方案提供较低的成本，但性能也较低。
  将 VM.Standard.E3.Flex 或 VM.Standard.E4.Flex 与文件存储服务一起使用。
2. 使用 HPC 裸金属配置进行部署以获得全面的性能。
  使用 BM.HPC2.36 配置，每个节点具有 6.4-TB 本地 NVMe SSD 存储、36 个内核和 384 GB 内存。

考虑事项

部署此引用体系结构时，请考虑以下几点。

性能
根据工作量的大小，确定要运行多少个核心。此决策确保模拟及时完成。

要获得最佳性能，请选择具有相应带宽的正确计算配置。
可用性
根据您的部署需求和区域考虑使用高可用性选项。选项包括在一个区域和容错域中使用多个可用性域。
成本
裸金属 GPU 实例为更高成本提供所需的 CPU 电源。评估需求以选择适当的计算配置。

没有作业在运行时可以删除集群。
监视和预警
为节点设置 CPU 和内存使用情况的监视和警报，以便可以根据需要向上或向下扩展配置。
存储
除了 HPC 配置附带的 NVMe SSD 存储之外，您还可以以 Oracle 高性能 SLA 作为每个卷的 32k IOPS 连接块存储卷。如果您使用我们的解决方案来启动基础结构，则默认情况下在 /mnt 中的 NVMe SSD 存储上安装 nfs-share。您还可以根据性能要求，在 NVMe SSD 存储或块存储的基础上安装自己的并行文件系统。
可视化器节点
您可以根据自己的需要创建可视化程序节点，例如 GPU 虚拟机 (VM) 或裸金属节点。此可视化器节点可以是您的堡垒主机，也可以是单独的。可视化器节点可以放置在专用或公共子网中，具体取决于工作负荷的安全要求。

部署

在 GitHub 中提供了部署此引用体系结构所需的代码。只需单击一下即可将代码拉入 Oracle Cloud Infrastructure Resource Manager，然后创建堆栈并进行部署。或者，使用 Terraform CLI 将代码从 GitHub 下载到您的计算机，定制代码并部署体系结构。

使用 Oracle Cloud Infrastructure Resource Manager 部署：
1. 单击
  如果尚未登录，请输入租户和用户身份证明。
2. 复核并接受条款和条件。
3. 选择要部署堆栈的区域。
4. 按照屏幕上的提示和说明创建堆栈。
5. 创建堆栈后，单击 Terraform 操作，然后选择计划。
6. 等待作业完成，然后复核计划。
  要进行任何更改，请返回到“堆栈详细信息”页，单击编辑堆栈，然后进行所需的更改。然后，再次运行计划操作。
7. 如果不需要进一步更改，请返回到“堆栈详细信息”页，单击 Terraform 操作，然后选择应用。
在 GitHub 中使用 Terraform 代码部署：
1. 转到 GitHub 。
2. 将资料档案库克隆或下载到本地计算机。
3. 按照 README 文档中的说明进行操作。

更改日志

此日志列出了重大更改：

2022 年 10 月 17 日

增强了更多信息中的内容。