Oracle Cloud Infrastructure 상에 HPC(고성능 컴퓨팅) 배포

HPC(고성능 컴퓨팅) 를 Oracle Cloud Infrastructure에 배포

이제 시뮬레이션 및 모델링의 병렬 컴퓨팅 워크로드에 대한 요구를 클라우드에서 비용 효율적으로 관리할 수 있습니다.

HPC(고성능 컴퓨팅) 리소스를 온프레미스 HPC 네트워크의 성능을 제공하지만 클라우드 컴퓨팅이 제공하는 비용 및 운영 이점과 함께 대기 시간이 짧은 고성능 클라우드 네트워크에 배포합니다.

클러스터 네트워킹은 HPC 인스턴스가 대기 시간이 짧은 고대역폭 네트워크와 통신할 수 있게 해주는 Oracle Cloud Infrastructure 기술입니다. 클러스터의 각 노드는 다른 노드와의 물리적 근접성에 가까운 베어메탈 시스템입니다. 노드 간 RDMA(Remote Direct Memory Access) 네트워킹은 2마이크로초 미만의 대기 시간을 제공하며 온프레미스 HPC 클러스터와 유사합니다. Oracle는 클러스터 네트워킹에 RDMA over converged ethernet 또는 RoCEv2 프로토콜을 사용합니다.

클러스터 네트워크는 다음을 포함하여 매우 까다로운 병렬 컴퓨팅 워크로드를 위해 설계되었습니다:

자동차 또는 항공 우주 모델링에 대한 계산 유체 역학 시뮬레이션
충돌 시뮬레이션
재무 모델링 및 위험 분석
생의학 시뮬레이션
공간 탐색을 위한 궤적 분석 및 설계
인공 지능 및 빅 데이터 워크로드

클러스터 네트워크는 다음 위치에서 지원됩니다:

가상 클라우드 네트워크
- 공용 서브넷
- 전용 서브넷
- 인터넷 게이트웨이
- NAT 게이트웨이
컴퓨트 노드
- 공용 서브넷의 배스천 호스트
- 전용 서브넷의 HPC 컴퓨트 노드

구조

이 참조 구조는 스케줄러를 실행하고 클러스터에 액세스하기 위한 배스천 서버로 사용할 수 있는 배스천 또는 헤드 노드를 배치합니다.

요구사항에 따라 GPU VM(가상 머신) 또는 베어메탈 시스템과 같은 시각화 노드를 생성할 수 있습니다. 공용 서브넷에 시각화 노드를 배치하는 것이 좋습니다. HPC 워크로드에는 시뮬레이션 출력을 사전/사후 처리, 모니터링 또는 분석하기 위한 시각화 도구가 필요한 경우가 많습니다. Oracle Cloud Marketplace에서 NVIDIA GRID 사용 워크스테이션을 배치할 수 있습니다.

이 아키텍처는 VCN(공용 및 전용 가상 클라우드 네트워크) 을 사용하여 배치됩니다. 고객 네트워크는 IPSec VPN, Oracle Cloud Infrastructure FastConnect 또는 공용 인터넷을 통해서만 헤드 노드 및 시각화 노드에 액세스할 수 있습니다.

아키텍처는 하나의 가용성 도메인과 지역 서브넷이 있는 지역을 사용합니다. 여러 가용성 도메인이 있는 지역에서 동일한 구조를 사용할 수 있습니다. 가용성 도메인 수에 관계없이 배치에 지역별 서브넷을 사용하는 것이 좋습니다.

Oracle Cloud Marketplace에서 이러한 클러스터 네트워크에 액세스하거나 수동으로 배치할 수 있습니다. 어느 경우든 Baseline 참조 구조를 사용한 다음 특정 요구 사항에 맞게 조정하는 것이 좋습니다.

다음 다이어그램은 이 참조 아키텍처를 보여 줍니다.

hpc-oci-architecture.png 그림 설명

hpc-oci-architecture.zip

아키텍처에는 다음과 같은 구성 요소가 있습니다:

지역
Oracle Cloud Infrastructure 지역은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 지역화된 지역입니다. 지역은 다른 지역과 독립적이며 방대한 거리는 국가 또는 대륙에서 분리할 수 있습니다.
가용성 도메인
가용성 도메인은 영역 내의 독립적인 독립형 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 결함 허용 한도를 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인의 실패는 영역의 다른 가용성 도메인에 영향을 주지 않을 수 있습니다.
결함 도메인
장애 도메인은 한 가용성 도메인 내 하드웨어와 인프라의 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어가 있는 3개의 장애 도메인이 있습니다. 여러 장애 도메인에 리소스를 배포하는 경우 애플리케이션은 장애 도메인 내 물리적 서버 장애, 시스템 유지 관리 및 전원 장애를 허용할 수 있습니다.
VCN(가상 클라우드 네트워크) 및 서브넷
VCN는 Oracle Cloud Infrastructure 지역에서 설정하는 사용자정의 가능한 소프트웨어 정의 네트워크입니다. VCN은 기존 데이터 센터 네트워크와 마찬가지로 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN 에는 VCN를 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. 영역 또는 가용성 도메인으로 범위를 지정할 수 있는 서브넷으로 VCN를 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 서브넷의 크기는 생성 후 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
배스천 호스트
배스천 호스트는 클라우드 외부의 토폴로지에 대한 안전한 제어된 시작점 역할을 하는 컴퓨트 인스턴스입니다. 배스천 호스트는 일반적으로 DMZ(완충 영역) 에서 프로비전됩니다. 클라우드 외부에서 직접 액세스할 수 없는 전용 네트워크에 중요한 리소스를 배치하여 보호할 수 있습니다. 토폴로지에는 정기적으로 모니터하고 감사할 수 있는 알려진 단일 시작점이 있습니다. 따라서 위상에 대한 액세스를 손상시키지 않고 위상의 보다 민감한 구성요소가 노출되지 않도록 할 수 있습니다.
HPC 클러스터 노드
헤드 노드는 RDMA 사용 클러스터(100gbps RoCE v2 격리된 네트워크) 인 이러한 컴퓨트 노드를 프로비전 및 프로비전 해제합니다. 파일 저장 영역에 저장된 데이터를 처리하고 결과를 파일 저장 영역으로 반환합니다.
시각화 노드
시각화 노드에는 일반적으로 HPC 클러스터 노드에서 처리된 데이터의 시각적 표현 및 분석을 위해 2D 또는 3D 애플리케이션이 설치되어 있습니다.
보안 목록
각 서브넷에 대해 서브넷에서 허용되어야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.

권장 사항

다음 권장 사항을 Oracle Cloud Infrastructure에 HPC(고성능 컴퓨팅) 를 배포하는 시작점으로 사용하십시오.

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.

VCN
VCN를 생성할 때 VCN의 서브넷에 연결할 리소스 수에 따라 필요한 CIDR 블록 수 및 각 블록 크기를 결정합니다. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.

전용 접속을 설정하려는 다른 네트워크(Oracle Cloud Infrastructure, 온-프레미스 데이터 센터 또는 다른 클라우드 제공자) 와 겹치지 않는 CIDR 블록을 선택합니다.

VCN를 생성한 후 CIDR 블록을 변경, 추가 및 제거할 수 있습니다.

서브넷을 설계할 때 트래픽 흐름 및 보안 요구사항을 고려하십시오. 특정 계층 또는 역할 내의 모든 리소스를 동일한 서브넷에 연결합니다. 이 서브넷은 보안 경계 역할을 할 수 있습니다.

지역 서브넷을 사용합니다.
보안 목록
보안 목록을 사용하여 전체 서브넷에 적용되는 수신 및 송신 규칙을 정의합니다.
배스천 노드
VM.Standard. 2.8 컴퓨트 구성을 사용합니다. 노드가 배스천 호스트로 사용되고 HPC 작업을 예약하기 때문에 로컬로 연결된 스토리지 또는 GPU 처리가 필요하지 않습니다.
시각화 노드 이 노드는 시각화에 사용되며 그래픽 집약적 애플리케이션과 함께 설치되므로 VM.GPU3.2 컴퓨트 구성을 사용합니다.
HPC 클러스터 노드
BM.HPC2.36 컴퓨트 구성을 사용합니다. 이 구성에는 3.7GHz Intel Xeon Gold 6154프로세서 2개, 384GB RAM 및 6.4-TB NVME 로컬 스토리지의 36개 코어가 있습니다. Oracle Cloud Infrastructure에서 사용할 수 있는 강력한 NVIDIA GPU를 사용하면 원격 시각화를 통해 클라우드에서 결과를 사후 처리할 수 있습니다.

고려 사항

Oracle Cloud Infrastructure에 HPC(고성능 컴퓨팅) 를 배포하는 경우 다음 구현 옵션을 고려하십시오.

성능
최상의 성능을 얻으려면 적절한 대역폭을 가진 올바른 컴퓨트 구성을 선택하십시오.
가용성
배포 요구 사항 및 지역에 따라 고가용성 옵션을 사용하는 것이 좋습니다. 옵션에는 영역 및 결함 도메인에서 여러 가용성 도메인 사용이 포함됩니다.
비용
베어메탈 GPU 인스턴스는 더 높은 비용으로 필요한 CPU 전력을 제공합니다. 요구사항을 평가하여 적절한 컴퓨트 구성을 선택합니다.
모니터링 및 경고
필요에 따라 구성을 확장 또는 축소할 수 있도록 노드의 CPU 및 메모리 사용량에 대한 모니터링 및 경보를 설정합니다.

배치

이 참조 아키텍처를 배포하기 위한 Terraform 스택은 Oracle Cloud Marketplace에서 스택으로 사용할 수 있습니다. GitHub에서 코드를 다운로드하고 요구 사항에 맞게 사용자 정의할 수도 있습니다.

Oracle Cloud Marketplace에서 스택을 사용해 배포:
1. Oracle Cloud Marketplace로 이동하십시오.
2. 앱 가져오기를 누릅니다.
3. 화면 프롬프트를 따릅니다.
GitHub의 코드를 사용하여 배치합니다.
1. GitHub로 이동합니다.
2. 저장소를 로컬 컴퓨터에 복제하거나 다운로드합니다.
3. README 문서의 지침을 따릅니다.

자세히 살펴보기

이 아키텍처의 기능에 대해 자세히 알아봅니다.

로그 변경

이 로그에는 중요한 변경 사항이 나열됩니다.

2022년 11월 8일

탐색 추가의 콘텐츠가 향상되었습니다.
편집 가능한 버전()을 다운로드하는 옵션이 추가되었습니다. SVG 및 . DRAWIO) 아키텍처 다이어그램입니다.
Deploy 섹션에 GitHub 저장소를 추가했습니다.