示例工作流

设置基础结构

工程师在其内部部署环境中排队时间过长，并且必须运行多个需要 72 个核心的模拟方案。设计工程师必须在数小时内运行模拟并向管理层报告结果，但本地 HPC 环境的队列等待时间为 5 天。设计工程师向基础设施工程师寻求支持，以快速启动基础设施来运行模拟。

基础设施工程师可在 Oracle Cloud Infrastructure (OCI) 裸金属系统上快速启动双节点 HPC 集群。基础设施工程师选择 BM.Optimized3.36 配置，该配置专为需要具有 RDMA 的高频处理器核心的高性能计算工作负载而设计。借助此功能，基础设施工程师可以使用 Oracle 集群网络预构建解决方案通过资源管理器快速预配集群，并使用开源 Slurm、Altair PBS Professional 或 Oracle Cloud SDK/CLI 等工具自动执行此步骤。

基础结构工程师连接到新预配的集群，并确保集群上设置了所有必需的模拟软件、可视化节点、主机文件、MPI 库、文件系统（例如 NFS）、批处理调度程序（例如 Slurm Workload Manager）和 Ansible 工具。此外，基础设施工程师运行快速延迟测试，确保正确设置 RDMA（延迟必须在 1 到 3 微秒之间），然后再将其传递给设计工程师。

运行模型

设计工程师访问集群并使用 Ansible 脚本在 2 节点集群中快速安装摩托车标准模型。此示例使用使用 Intel MPI 编译的 OpenFOAM。

要运行模拟，设计工程师将移至堡垒节点，使用 Slurm Workload Manager 调度启动作业。工程师可以调度第一个作业并在 72 个核心集群中运行该作业，而其他作业仍处于队列中。由于它只是一个 2 个节点集群，因此会将其他节点预配到 8 个节点以运行所有 4 个作业。在每个作业完成时，相应的节点会自动终止以节省成本。工程师可以检索每个职务 ID 的结果，并在完成每个职务后收到通知。

设计工程师可以在图形处理单元虚拟机 (GPU VM) 上获取其中一个模拟输出并在 ParaView 中对其进行建模。例如，模型可能显示气流、压力、湍流或其他参数。

插图 run-summary.png 的说明

设计工程师可以运行一个快速脚本，将模型输出保存到 Oracle Cloud Infrastructure Object Storage 中供以后使用。工程师可以自动完成整个模拟过程并上载到对象存储。

如果需要，他们可以使用 Oracle Cloud Infrastructure FastConnect 在本地提取数据，而不会产生任何出站费用。

显示数据

在此示例中，技术运营经理对模拟在云中花费的时间以及成本感兴趣。HPC 使用情况数据捕获在用于成本分析的数据库中。

以下示例是 Oracle Cloud Infrastructure (OCI) HPC 上的模拟时间与本地系统的模拟时间，并显示了在 OCI 上运行 HPC 与本地部署相比节省的总时间以及相关成本。在本示例中，一个 8 节点 OCI HPC 集群总共使用了 2 小时，每个核心使用 $0.075，相当于每个实例每小时 2.70 美元，或 2 小时总共 21.60 美元。

在实际应用中，在云中运行的成本和时间通常比在此特定示例中更为显著。通过在云中突发或完全迁移到云，按需容量可以更快地迭代和改进现有模型，从而为更快的产品设计、性能和发布时间铺平道路。

插图 Manager-dashboard.png 的说明