示例工作流

此示例工作流说明车辆工程团队如何使用高性能计算平台来降低设计成本、提高效率和提高整体价值。

设置基础结构

工程师在其内部部署环境中排队时间过长,并且必须运行多个需要 72 个核心的模拟方案。设计工程师必须在数小时内运行模拟并向管理层报告结果,但本地 HPC 环境的队列等待时间为 5 天。设计工程师向基础设施工程师寻求支持,以快速启动基础设施来运行模拟。

基础设施工程师可在 Oracle Cloud Infrastructure (OCI) 裸金属系统上快速启动双节点 HPC 集群。基础设施工程师选择 BM.Optimized3.36 配置,该配置专为需要具有 RDMA 的高频处理器核心的高性能计算工作负载而设计。借助此功能,基础设施工程师可以使用 Oracle 集群网络预构建解决方案通过资源管理器快速预配集群,并使用开源 Slurm、Altair PBS Professional 或 Oracle Cloud SDK/CLI 等工具自动执行此步骤。

基础结构工程师连接到新预配的集群,并确保集群上设置了所有必需的模拟软件、可视化节点、主机文件、MPI 库、文件系统(例如 NFS)、批处理调度程序(例如 Slurm Workload Manager)和 Ansible 工具。此外,基础设施工程师运行快速延迟测试,确保正确设置 RDMA(延迟必须在 1 到 3 微秒之间),然后再将其传递给设计工程师。

运行模型

设计工程师访问集群并使用 Ansible 脚本在 2 节点集群中快速安装摩托车标准模型。此示例使用使用 Intel MPI 编译的 OpenFOAM。

要运行模拟,设计工程师将移至堡垒节点,使用 Slurm Workload Manager 调度启动作业。工程师可以调度第一个作业并在 72 个核心集群中运行该作业,而其他作业仍处于队列中。由于它只是一个 2 个节点集群,因此会将其他节点预配到 8 个节点以运行所有 4 个作业。在每个作业完成时,相应的节点会自动终止以节省成本。工程师可以检索每个职务 ID 的结果,并在完成每个职务后收到通知。

设计工程师可以在图形处理单元虚拟机 (GPU VM) 上获取其中一个模拟输出并在 ParaView 中对其进行建模。例如,模型可能显示气流、压力、湍流或其他参数。

下面是 run-summary.png 的说明
插图 run-summary.png 的说明

设计工程师可以运行一个快速脚本,将模型输出保存到 Oracle Cloud Infrastructure Object Storage 中供以后使用。工程师可以自动完成整个模拟过程并上载到对象存储。

如果需要,他们可以使用 Oracle Cloud Infrastructure FastConnect 在本地提取数据,而不会产生任何出站费用。

显示数据

在此示例中,技术运营经理对模拟在云中花费的时间以及成本感兴趣。HPC 使用情况数据捕获在用于成本分析的数据库中。

以下示例是 Oracle Cloud Infrastructure (OCI) HPC 上的模拟时间与本地系统的模拟时间,并显示了在 OCI 上运行 HPC 与本地部署相比节省的总时间以及相关成本。在本示例中,一个 8 节点 OCI HPC 集群总共使用了 2 小时,每个核心使用 $0.075,相当于每个实例每小时 2.70 美元,或 2 小时总共 21.60 美元。

在实际应用中,在云中运行的成本和时间通常比在此特定示例中更为显著。通过在云中突发或完全迁移到云,按需容量可以更快地迭代和改进现有模型,从而为更快的产品设计、性能和发布时间铺平道路。

下面是 manager-dashboard.png 的说明
插图 Manager-dashboard.png 的说明