高性能计算:在 Oracle Cloud Infrastructure 上运行 Ansys 流动
流动是一种流动模拟工具。可用于对动荡、燃烧、多阶段流等进行建模。
体系结构
该体系结构使用一个堡垒 / 头节点连接到 HPC 集群。
头节点包含流动安装和型号。它具有消息传递接口 (MPI),用于对作业进行编排和运行。作业结果保存在机头节点上。
下图说明了此参考体系结构。

插图体系结构的说明 -hpc.png
该体系结构包含以下组件:
- 区域
Oracle Cloud Infrastructure 区域是一个本地化地理区域,包含一个或多个称为可用性域的数据中心。区域独立于其他区域,大片距离可以分开(跨国家甚至大陆)。
- 可用性域
可用性域是区域内的独立数据中心。每个可用性域中的物理资源都与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共用电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不太可能影响区域中的其他可用性域。
- 故障域
故障域是可用性域内一组硬件和基础设施。每个可用性域都有三个容错域,具有独立电源和硬件。在多个容错域之间分配资源时,您的应用可以在容错域内承受物理服务器故障、系统维护和电源故障。
- 虚拟云网络 (VCN) 和子网
VCN 是在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义的网络。与传统的数据中心网络类似,VCN 允许您完全控制您的网络环境。VCN 可以有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定于某个区域或可用性域。每个子网都包含与 VCN 中的其他子网不重叠的连续地址范围。您可以在创建子网后更改其大小。子网可以是公共的,也可以是专用的。
- 安全列表
对于每个子网,您可以创建安全规则来指定必须允许进出子网的源、目标和流量类型。
- 实例池
通过实例池,可以在同一组区域内创建和管理多个计算实例。还可以实现与其他服务(例如负载平衡服务和 IAM 服务)的集成。
- 堡垒节点 / 头节点
使用基于 Web 的门户连接到机头节点并安排 HPC 作业。作业请求通过 FastConnect 或 IPSec VPN 进入机头节点。主节点还会将客户数据集发送到文件存储,并且可以对数据执行一些预处理。
头节点提供 HPC 节点集群并在作业完成时删除 HPC 集群。
- HPC 集群节点
主节点预配并终止这些支持 RDMA 的群集的计算节点。它们处理文件存储中存储的数据并将结果返回文件存储。
- Cloud Guard
您可以使用 Oracle Cloud Guard 监视和维护云中资源的安全性。Cloud Guard 可检查您的资源是否存在与配置相关的安全缺陷,并监视操作员和用户是否有风险活动。标识任何安全问题或风险时,Cloud Guard 会根据可定义的安全配方建议更正措施,并帮助您执行这些操作。
- NFS 服务器
其中一个 HPC 节点将被提升为 NFS 服务器。
建议
您的要求可能与此处介绍的体系结构有所不同。可将以下建议作为起点。
- VCN
创建 VCN 时,请根据您计划附加到 VCN 中的子网的资源数量确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。
选择与要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。
创建 VCN 后,可以更改、添加和删除其 CIDR 块。
设计子网时,请考虑您的流量和安全性要求。将特定层或角色中的所有资源连接到可充当安全边界的同一子网。
- 安全性
使用 Oracle Cloud Guard 可主动监视和维护 OCI 中的资源安全性。Cloud Guard 使用检测器配方,您可以定义这些配方来检查资源是否存在安全漏洞,并监视操作员和用户是否有风险活动。检测到任何错误配置或不安全活动时,Cloud Guard 会根据可以定义的响应方配方建议采取纠正措施并帮助执行操作。
对于需要最大安全性的资源,Oracle 建议您使用安全区域。安全区域是与基于优秀实践的 Oracle 定义的安全策略配方关联的区间。例如,安全区域中的资源不能从公共互联网访问,必须使用客户管理的密钥进行加密。在安全区域中创建和更新资源时,Oracle Cloud Infrastructure 将根据安全区域配方中的策略验证操作,并拒绝违反任何策略的操作。
- HPC 节点
有两个方案:
- 使用实例池在 VM 配置上部署,如体系结构图中所示。此方案提供较低的成本,但性能也较低。
将 VM.Standard.E3.Flex 或 VM.Standard.E4.Flex 与文件存储服务一起使用。
- 使用 HPC 裸金属配置进行部署以获得全面的性能。
使用 BM.HPC2.36 配置,每个节点具有 6.4-TB 本地 NVMe SSD 存储、36 个内核和 384 GB 内存。
- 使用实例池在 VM 配置上部署,如体系结构图中所示。此方案提供较低的成本,但性能也较低。
考虑事项
部署此引用体系结构时,请考虑以下几点。
- 性能
根据工作量的大小,确定要运行多少个核心。此决策确保模拟及时完成。
要获得最佳性能,请选择具有相应带宽的正确计算配置。
- 可用性
根据您的部署需求和区域考虑使用高可用性选项。选项包括在一个区域和容错域中使用多个可用性域。
- 成本
裸金属 GPU 实例为更高成本提供所需的 CPU 电源。评估需求以选择适当的计算配置。
没有作业在运行时可以删除集群。
- 监视和预警
为节点设置 CPU 和内存使用情况的监视和警报,以便可以根据需要向上或向下扩展配置。
- 存储
除了 HPC 配置附带的 NVMe SSD 存储之外,您还可以以 Oracle 高性能 SLA 作为每个卷的 32k IOPS 连接块存储卷。如果您使用我们的解决方案来启动基础结构,则默认情况下在 /mnt 中的 NVMe SSD 存储上安装 nfs-share。您还可以根据性能要求,在 NVMe SSD 存储或块存储的基础上安装自己的并行文件系统。
- 可视化器节点
您可以根据自己的需要创建可视化程序节点,例如 GPU 虚拟机 (VM) 或裸金属节点。此可视化器节点可以是您的堡垒主机,也可以是单独的。可视化器节点可以放置在专用或公共子网中,具体取决于工作负荷的安全要求。
部署
在 GitHub 中提供了部署此引用体系结构所需的代码。只需单击一下即可将代码拉入 Oracle Cloud Infrastructure Resource Manager,然后创建堆栈并进行部署。或者,使用 Terraform CLI 将代码从 GitHub 下载到您的计算机,定制代码并部署体系结构。
- 使用 Oracle Cloud Infrastructure Resource Manager 部署:
- 在 GitHub 中使用 Terraform 代码部署:
- 转到 GitHub 。
- 将资料档案库克隆或下载到本地计算机。
- 按照
README
文档中的说明进行操作。