펀치 토론: Oracle Cloud에서 HPC(고성능 컴퓨팅) 클러스터 배포

전산 유체 역학 시뮬레이션의 런타임을 가속화하기 위해 이탈리아의 tier-1 엔진 제조업체인 Punch Torino는 CFD 플랫폼을 OCI(Oracle Cloud Infrastructure)로 이동했습니다.

Oracle Cloud Infrastructure HPC(고성능 컴퓨팅)를 사용하면서 Punch Torino의 엔지니어들은 이제 CPU, 메모리, I/O 집약적 시뮬레이션 및 테스트 작업을 최대 24% 더 빠르게 실행하고 컴퓨팅 코어 수를 33% 줄일 수 있습니다.

고성능 컴퓨팅 컨설팅 회사인 Doit Systems와 파트너 관계를 맺은 Punch Torino의 프로덕션 환경은 개념 증명이 완료된 후 10주만에 가동 개시되었습니다.

Oracle Cloud Infrastructure 테넌시에서 Punch Torino는 Abaqus, Converge, StarCCM+, Optistruct 애플리케이션을 실행합니다.

Oracle Cloud Infrastructure에서 Punch Torino의 배포에 대한 고유한 기능은 다음과 같습니다.

  • Oracle 클러스터 네트워킹과 결합된 HPC 베어메탈 서버는 통합 이더넷(RoCE) v2(v2)을 통해 초저 대기 시간 RDMA(2 μs 대기시간)에 접근할 수 있습니다.
  • 베어메탈 서버를 몇 분 안에 확장 및 축소할 수 있는 HPC 자동화 툴에서 사용 편의성
  • Oracle의 플랫 2계층 네트워크 토폴로지는 모든 노드에서 일관된 대역폭과 대기 시간을 제공하여 HPC 클러스터를 선형으로 확장할 수 있도록 합니다.
  • 베어메탈 인스턴스에 로컬로 연결된 6.4TB NVMe SSD를 사용한 고성능 I/O 처리량 스토리지

향후 구축을 위해, Punch Torino도 이를 고려하고 있다:

  • 새로운 유형의 컴퓨트 인스턴스(예: 최적화 X9)
  • GPU 노드의 원격 세션에서 더 많은 데이터를 전송하고 대기 시간을 단축하는 FastConnect

고객 사례

Oracle Cloud를 향한 펀치 토론의 여정에 대해 자세히 알아보십시오.

구조

Punch Torino 사용자는 Altair Access 웹 애플리케이션인 온프레미스 접근 및 제어 센터 웹 애플리케이션에서 VPN(가상 사설망)을 사용하여 애플리케이션에 액세스합니다. 온프레미스 Active Directory 시스템은 Oracle Cloud Infrastructure Identity and Access Management를 사용하여 인증을 수행하므로 사용자는 고성능 컴퓨팅(HPC) 클러스터에 직접 액세스할 수 없습니다.

제어 노드는 요청 시 HPC 클러스터 노드를 가져옵니다. 노드가 준비되면 제어 노드는 작업을 여러 부분으로 분리하고 동시에 처리하기 위해 제출합니다. Control Scheduler는 REST API를 통해 컴퓨트 노드를 자동으로 스케일 조정합니다. HPC 클러스터는 온디맨드로 베어메탈 인스턴스를 프로비저닝합니다. 시뮬레이션은 일반적으로 5~6시간 내에 완료되도록 최적화되었습니다.

펀치 토리노 프로세스 파일은 최대 50GB까지 가능합니다. 스토리지 비용을 최적화하기 위해 다음 세 가지 유형의 스토리지가 사용됩니다.
  • 시뮬레이션에는 베어메탈 인스턴스에 연결된 6.4TB NVMe SSD 로컬 스토리지가 제공하는 핫 스토리지를 사용하여 높은 I/O 처리량이 필요합니다.
  • 결과는 분석을 위해 웜(파일) 스토리지에 저장됩니다.
  • 원격 그래픽 분석 세션은 빠른 렌더링을 위해 VM 인스턴스에 연결된 핫(블록) 스토리지에 파일을 복사합니다.
사용자가 원격 그래픽 세션을 시작한 후에는 Oracle Cloud Infrastructure NVIDIA VM 인스턴스의 결과를 분석할 수 있습니다. 데이터 세트를 분석한 후 컴퓨트 인스턴스 및 연관된 핫 스토리지가 종료되고 삭제됩니다. 분석된 데이터는 콜드 객체 스토리지에 저장되므로 최대 8년 동안 액세스할 수 있습니다.

다음 다이어그램은 이 참조 아키텍처를 보여줍니다.



punch-torino-oci-arch-oracle.zip

다음 다이어그램은 데이터 흐름이 구조를 통과하는 방법을 보여줍니다.



punch-torino-oci-flow-oracle.zip

  1. 사용자는 온프레미스 액세스 및 제어 센터에서 애플리케이션에 대한 접근을 시작합니다.
  2. 온-프레미스 Active Directory가 사용자를 인증합니다.
  3. 온프레미스 라이선스 서버는 사용 가능한 라이선스를 제공합니다.
  4. 온프레미스 액세스 및 제어 센터는 필요에 따라 HPC 클러스터 노드를 가져옵니다.
  5. 사용자가 시뮬레이션 파일(최대 50GB)을 파일("warm") 스토리지에 업로드합니다.
  6. 시뮬레이션 파일이 로컬 SSD("핫") 저장소로 복사되고 결과가 파일 스토리지에 다시 저장됩니다.
  7. 온프레미스 액세스 및 제어 센터는 시각적 노드를 온디맨드로 불러옵니다.
  8. 시뮬레이션 파일은 시각적 노드에서 처리할 수 있도록 파일 스토리지에서 블록("핫") 스토리지로 복사됩니다.
  9. 장기 저장을 위해 객체("cold") 스토리지에 결과가 저장됩니다.

구조에는 다음과 같은 구성 요소가 있습니다.

  • 영역

    Oracle Cloud Infrastructure 지역은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 현지화된 지리적 영역입니다. 지역은 다른 지역에 독립적이며, 거리가 먼 나라 전체나 대륙을 구분할 수 있습니다.

  • ID 및 액세스 관리(IAM)

    Oracle Cloud Infrastructure Identity and Access Management(IAM)를 사용하면 Oracle Cloud Infrastructure에서 리소스에 액세스할 수 있는 사용자 및 이러한 리소스에 대해 수행할 수 있는 작업을 제어할 수 있습니다.

  • 감사

    Oracle Cloud Infrastructure Audit 서비스는 지원되는 모든 Oracle Cloud Infrastructure 공용 API(애플리케이션 프로그래밍 인터페이스) 엔드포인트에 대한 호출을 로그 이벤트로 자동으로 기록합니다. 현재 모든 서비스는 Oracle Cloud Infrastructure Audit의 로깅을 지원합니다.

  • 가용성 도메인

    가용성 도메인은 한 지역 내의 독립형 독립적인 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에 영향을 주지 않습니다.

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정하는 사용자 정의 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 영역 또는 가용성 도메인으로 범위가 지정될 수 있는 서브넷으로 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 보안 목록

    각 서브넷에 대해 서브넷 내부/외부에서 허용해야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.

  • 경로 테이블

    가상 경로 테이블에는 서브넷에서 일반적으로 게이트웨이를 통해 VCN 외부의 대상으로 트래픽을 라우팅하는 규칙이 포함됩니다.

  • DRG(Dynamic Routing Gateway)

    DRG는 VCN과 지역 외부의 네트워크(예: 다른 Oracle Cloud Infrastructure 지역의 VCN, 온프레미스 네트워크 또는 다른 클라우드 제공자의 네트워크) 간 전용 네트워크 트래픽 경로를 제공하는 가상 라우터입니다.

  • 고성능 컴퓨팅

    대규모 병렬 HPC 워크로드를 위해 고주파 프로세서 코어 및 클러스터 네트워킹을 필요로 하는 고성능 컴퓨팅 워크로드를 위해 설계되었습니다.

    Oracle Cloud Infrastructure 베어 메탈 서버는 Oracle 클러스터 네트워킹과 결합되어 통합 이더넷(RoCE) v2을 통해 초저 대기 시간 RDMA(2 μs 대기시간)에 접근할 수 있습니다.

  • 가상 시스템

    Oracle Cloud Infrastructure Compute 서비스를 통해 클라우드에서 컴퓨트 호스트를 프로비전하고 관리할 수 있습니다. CPU, 메모리, 네트워크 대역폭, 스토리지에 대한 리소스 요구사항을 충족하는 구성으로 컴퓨트 인스턴스를 시작할 수 있습니다. 컴퓨트 인스턴스를 만든 후 안전하게 접근하여 다시 시작하고, 볼륨을 연결 및 분리하고, 더 이상 필요하지 않을 경우 종료할 수 있습니다.

    Oracle의 베어메탈 서버는 전용 컴퓨트 인스턴스를 사용하여 격리 환경과 가시성, 제어 기능을 제공합니다. 서버는 높은 코어 수, 많은 양의 메모리, 높은 대역폭이 필요한 응용 프로그램을 지원합니다. 최대 160개 코어(업계에서 최대), 2TB RAM 및 최대 1PB의 블록 스토리지를 확장할 수 있습니다. 고객은 다른 퍼블릭 클라우드 및 온프레미스 데이터 센터보다 훨씬 개선된 성능으로 Oracle의 베어메탈 서버에서 클라우드 환경을 구축할 수 있습니다.

  • 객체 스토리지

    오브젝트 스토리지를 사용하면 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 컨텐츠를 비롯한 모든 컨텐츠 유형의 대규모 정형 및 비정형 데이터에 빠르게 접근할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 신뢰성이 저하되지 않고 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉시 자주 액세스해야 하는 "핫" 스토리지에 대해 표준 스토리지를 사용합니다. 오래 보존되고 거의 액세스되지 않는 "콜드" 스토리지에 대해 아카이브 스토리지를 사용합니다.

  • 파일 저장소

    Oracle Cloud Infrastructure File Storage 서비스는 내구성과 확장성이 우수하고 안전한 엔터프라이즈급 네트워크 파일 시스템을 제공합니다. VCN의 베어메탈, 가상 머신 또는 컨테이너 인스턴스에서 파일 스토리지 서비스 파일 시스템에 연결할 수 있습니다. Oracle Cloud Infrastructure FastConnect 및 IPSec VPN을 사용하여 VCN 외부에서 파일 시스템에 접근할 수도 있습니다.

  • 블록 볼륨

    블록 스토리지 볼륨을 사용하여 스토리지 볼륨 생성, 연결, 연결 및 이동하고 스토리지, 성능 및 애플리케이션 요구 사항에 맞게 볼륨 성능을 변경할 수 있습니다. 볼륨을 인스턴스에 연결하고 연결한 후 일반 하드 드라이브처럼 볼륨을 사용할 수 있습니다. 또한 데이터 손실 없이 볼륨 연결을 해제하고 다른 인스턴스에 연결할 수 있습니다.

빌드 및 배포에서 추천 가져오기

Oracle Cloud Infrastructure에서 구축한 것을 보여주시겠습니까? 클라우드 아키텍처의 글로벌 커뮤니티와 학습한 교훈, 모범 사례 및 참조 아키텍처를 공유해야 합니까? 시작에 도움을 주십시오.

  1. 템플리트(PPTX) 다운로드

    아이콘을 샘플 와이어프레임으로 끌어 놓아 참조 구조를 보여 줍니다.

  2. 구조 자습서 보기

    참조 아키텍처를 생성하는 방법에 대한 단계별 지침을 얻을 수 있습니다.

  3. 다이어그램 제출

    다이어그램으로 이메일을 보내 주십시오. 오라클 클라우드 아키텍트는 귀사의 다이어그램을 검토하고 아키텍처에 대해 논의하십시오.

감사의 글

  • 인증자: Sasha Banks-Louie, Wei Han, Dimitri Manca
  • 기여자: Robert Lies