워크플로우 예

이 예제 워크플로우는 차량 엔지니어링 팀이 고성능 컴퓨팅 플랫폼을 사용하여 설계 비용을 절감하고 효율성을 높이며 전반적인 가치를 높이는 방법을 보여줍니다.

기반 구조 설정

엔지니어는 온프레미스 환경에서 높은 대기열 처리 시간을 경험했으며 72개의 코어가 필요한 여러 가지 시뮬레이션 변형을 실행해야 합니다. 설계 엔지니어는 시뮬레이션을 실행하고 2시간 이내에 경영진에게 결과를 보고해야 합니다. 그러나 온프레미스 HPC 환경의 대기열 대기 시간은 5일입니다. 설계 엔지니어는 인프라를 빠르게 실행하여 시뮬레이션을 실행할 수 있도록 지원하기 위해 인프라 엔지니어에게 연락합니다.

인프라 엔지니어는 Oracle Cloud Infrastructure(OCI) 베어메탈 시스템에서 2노드 HPC 클러스터를 빠르게 실행합니다. 인프라 엔지니어는 RDMA를 통해 고주파 프로세서 코어를 필요로 하는 고성능 컴퓨팅 워크로드를 위해 설계된 BM.Optimized3.36 구성을 선택합니다. 이를 통해 인프라 엔지니어는 Oracle의 클러스터 네트워킹 사전 구축 솔루션을 사용하여 리소스 관리자를 통해 클러스터를 신속하게 프로비저닝할 수 있으며, 오픈 소스 Slurm, Altair PBS Professional 또는 Oracle Cloud SDK/CLI와 같은 툴을 사용하여 이 단계를 자동화할 수 있습니다.

Infrastructure Engineer는 새로 프로비저닝된 클러스터에 연결하여 필요한 모든 시뮬레이션 소프트웨어, 시각화 노드, 호스트 파일, MPI 라이브러리, 파일 시스템(예: NFS), 일괄 처리 스케줄러(예: Slurm Workload Manager) 및 Ansible 도구가 클러스터에 설정되도록 합니다. 또한 인프라 엔지니어는 빠른 대기 시간 테스트를 실행하여 RDMA를 설계 엔지니어에게 전달하기 전에 RDMA가 제대로 설정되었는지(대기 시간은 1~3마이크로초 사이여야 함) 확인합니다.

모델 실행

설계 엔지니어가 클러스터에 액세스하고 Ansible 스크립트를 사용하여 2노드 클러스터에 오토바이 표준 모델을 빠르게 설치합니다. 이 예에서는 Intel MPI로 컴파일된 OpenFOAM를 사용합니다.

시뮬레이션을 실행하기 위해 설계 엔지니어가 배스천 노드로 이동하여 Slurm Workload Manager 스케줄링을 사용하여 작업을 시작합니다. 엔지니어는 첫번째 작업을 예약하고 72개 코어 클러스터에서 실행할 수 있으며, 다른 작업은 여전히 대기열에 있습니다. 노드 클러스터는 2개뿐이므로 4개 작업을 모두 실행하기 위해 노드 8개에 추가 노드가 프로비전됩니다. 각 작업이 완료되면 해당 노드가 자동으로 종료되어 비용을 절감할 수 있습니다. 엔지니어는 각 작업 ID에 대한 결과를 검색하고 각 작업이 완료되면 통지를 받을 수 있습니다.

설계 엔지니어는 시뮬레이션 출력 중 하나를 가져와 그래픽 처리 장치 가상 머신(GPU VM)의 ParaView에서 모델링할 수 있습니다. 예를 들어, 모델에는 공기 흐름, 압력, 난류 또는 다른 매개변수가 표시될 수 있습니다.

다음은 run-summary.png에 대한 설명입니다.
그림 run-summary.png에 대한 설명

설계 엔지니어는 빠른 스크립트를 실행하여 나중에 사용할 수 있도록 모델 출력을 Oracle Cloud Infrastructure Object Storage에 저장할 수 있습니다. 엔지니어는 전체 시뮬레이션 프로세스를 자동화하고 오브젝트 스토리지에 업로드할 수 있습니다.

필요한 경우 Oracle Cloud Infrastructure FastConnect를 사용하여 송신 요금 없이 데이터를 다시 로컬로 가져올 수 있습니다.

데이터 표시

이 예에서 Technical Operations Manager는 시뮬레이션이 클라우드에 얼마나 오래 걸렸는지, 얼마나 많은 비용이 들었는지에 관심이 있습니다. HPC 사용 데이터는 비용 분석에 사용되는 데이터베이스에 캡처됩니다.

다음 예는 Oracle Cloud Infrastructure(OCI) HPC에서의 시뮬레이션 시간과 온프레미스 시스템의 시뮬레이션 시간을 비교하며, 온프레미스 대비 OCI에서 HPC를 실행하는 데 소요되는 전체 시간과 관련 비용을 보여줍니다. 예제에서 8노드 OCI HPC 클러스터는 총 2시간, 코어당 0.075달러로 사용되었으며, 이는 시간당 인스턴스당 2.70달러, 2시간 동안 총 21.60달러입니다.

실제 애플리케이션의 경우 클라우드에서 실행하는 데 드는 비용과 시간을 절약하는 것이 이 특정 예의 경우보다 훨씬 중요합니다. 클라우드에서 버스팅하거나 클라우드로 완전히 이전함으로써 온디맨드 용량을 통해 기존 모델을 보다 빠르게 반복하고 개선할 수 있으므로 제품 설계, 성능 및 출시 시간을 단축할 수 있습니다.

다음은 manager-dashboard.png에 대한 설명입니다.
그림 manager-dashboard.png에 대한 설명