고성능 컴퓨팅: Oracle Cloud Infrastructure상에서 Ansys Fluent 실행

구조

이 아키텍처는 하나의 배스천/헤드 노드를 사용하여 HPC 클러스터에 연결합니다.

헤드 노드에는 Fluent 설치 및 모델이 포함되어 있습니다. 여기에는 MPI(메시지 전달 인터페이스)가 포함되며 작업을 조정 및 실행합니다. 작업 결과는 헤드 노드에 저장됩니다.

다음 다이어그램은 이 참조 아키텍처를 보여줍니다.

그림 아키텍처 설명-hpc.png

architecture-hpc-oracle.zip

구조에는 다음과 같은 구성 요소가 있습니다.

영역
Oracle Cloud Infrastructure 지역은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 현지화된 지리적 영역입니다. 지역은 다른 지역에 독립적이며, 거리가 먼 나라 전체나 대륙을 구분할 수 있습니다.
가용성 도메인
가용성 도메인은 한 지역 내의 독립형 독립적인 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에 영향을 주지 않습니다.
결함 도메인
장애 도메인은 한 가용성 도메인 내 하드웨어와 인프라의 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어의 3개의 장애 도메인이 있습니다. 여러 장애 도메인에 걸쳐 리소스를 분배할 경우 응용 프로그램은 결함 도메인 내에서 물리적 서버 오류, 시스템 유지 관리 및 전원 오류를 허용할 수 있습니다.
VCN(가상 클라우드 네트워크) 및 서브넷
VCN은 Oracle Cloud Infrastructure 지역에서 설정하는 사용자 정의 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 영역 또는 가용성 도메인으로 범위가 지정될 수 있는 서브넷으로 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
보안 목록
각 서브넷에 대해 서브넷 내부/외부에서 허용해야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.
인스턴스 풀
인스턴스 풀을 사용하면 동일한 지역 내에서 하나의 그룹으로 여러 컴퓨트 인스턴스를 생성하고 관리할 수 있습니다. 또한 로드 밸런싱 서비스 및 IAM 서비스 같은 다른 서비스와의 통합을 지원합니다.
배스천 노드/헤드 노드
웹 기반 포털을 사용하여 헤드 노드에 연결하고 HPC 작업을 스케줄링합니다. 작업 요청은 FastConnect 또는 IPSec VPN을 통해 헤드 노드에 전달됩니다. 또한 헤드 노드는 고객 데이터 세트를 파일 스토리지로 전송하고 데이터에 대해 몇 가지 사전 처리를 수행할 수 있습니다.

헤드 노드는 HPC 노드 클러스터를 프로비전하고 작업 완료 시 HPC 클러스터를 삭제합니다.
HPC 클러스터 노드
헤드 노드는 RDMA가 사용으로 설정된 클러스터인 해당 계산 노드를 프로비전하고 종료합니다. 파일 스토리지에 저장된 데이터를 처리하고 결과를 파일 스토리지에 반환합니다.
Cloud Guard
Oracle Cloud Guard를 사용하여 클라우드의 리소스 보안을 모니터링하고 유지보수할 수 있습니다. Cloud Guard는 리소스에 대해 구성과 관련된 보안 취약점을 검토하고 운영자와 사용자의 위험한 활동을 모니터링합니다. 보안 문제 또는 위험이 식별되면 Cloud Guard는 수정 조치를 권장하고 사용자가 정의할 수 있는 보안 레시피를 기반으로 해당 작업을 지원합니다.
NFS 서버
HPC 노드 중 하나가 NFS 서버로 승격됩니다.

권장 사항

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다. 다음 권장 사항을 시작점으로 사용합니다.

VCN
VCN을 생성할 때 VCN의 서브넷에 연결하려는 리소스 수를 기반으로 필요한 CIDR 블록 수 및 각 블록의 크기를 확인하십시오. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.

전용 접속을 설정할 다른 네트워크(Oracle Cloud Infrastructure, 온프레미스 데이터 센터 또는 다른 클라우드 제공자)와 겹치지 않는 CIDR 블록을 선택합니다.

VCN을 생성한 후에는 해당 CIDR 블록을 변경, 추가 및 제거할 수 있습니다.

서브넷을 설계할 때는 트래픽 플로우와 보안 요구사항을 고려하십시오. 특정 계층 또는 역할 내의 모든 리소스를 동일한 서브넷에 연결하여 보안 경계 역할을 할 수 있습니다.
보안
Oracle Cloud Guard를 통해 OCI에서 리소스의 보안을 사전에 모니터링 및 유지 관리할 수 있습니다. Cloud Guard는 리소스에 대한 보안 취약점을 검사하고 운영자와 사용자의 위험한 작업을 모니터하기 위해 정의할 수 있는 감지기 레시피를 사용합니다. 잘못된 구성이나 비보안 활동이 감지되면 Cloud Guard는 사용자가 정의할 수 있는 응답자 레시피를 기반으로 수정 작업을 권장하고 해당 작업을 지원합니다.

최대 보안이 필요한 리소스의 경우 Oracle은 보안 영역을 사용할 것을 권장합니다. 보안 영역은 모범 사례를 기반으로 하는 Oracle 정의 보안 정책의 레시피와 연관된 구획입니다. 예를 들어, 보안 영역의 리소스는 공용 인터넷에서 액세스할 수 없어야 하며 고객 관리 키를 사용하여 암호화해야 합니다. 보안 영역에서 리소스를 생성 및 업데이트할 때 Oracle Cloud Infrastructure는 보안 영역 레시피의 정책에 대해 작업을 검증하고 정책을 위반하는 작업을 거부합니다.
HPC 노드
다음 두 가지 시나리오가 있습니다.
1. 구조 다이어그램에 표시된 대로 인스턴스 풀을 사용하여 VM 구성에 배치합니다. 이 시나리오는 더 낮은 비용으로 더 낮은 성능을 제공합니다.
  파일 스토리지 서비스 에서 VM.Standard.E3.Flex 또는 VM.Standard.E4.Flex를 사용합니다.
2. HPC BARE Metal 구성을 사용하여 배포하여 완벽한 성능을 확보할 수 있습니다.
  6.4-TB 로컬 NVMe SSD 스토리지, 36개 코어 및 노드당 384GB 메모리가 포함된 BM.HPC2.36 구성을 사용합니다.

고려 사항

이 참조 아키텍처를 배포할 때는 다음 사항을 고려하십시오.

성능
작업 로드 크기에 따라 Fluent에서 실행할 코어 수를 결정합니다. 이렇게 하면 시뮬레이션을 적시에 완료할 수 있습니다.

최상의 성능을 얻으려면 적절한 대역폭을 사용하여 올바른 컴퓨트 구성을 선택하십시오.
가용성
배치 요구사항 및 지역에 따라 고가용성 옵션을 사용하는 것이 좋습니다. 옵션에는 영역 및 장애 도메인에 여러 가용성 도메인 사용이 포함됩니다.
비용
베어메탈 GPU 인스턴스는 더 높은 비용으로 필요한 CPU 성능을 제공합니다. 요구사항을 평가하여 적합한 컴퓨트 구성을 선택합니다.

실행 중인 작업이 없을 경우 클러스터를 삭제할 수 있습니다.
모니터링 및 경고
노드의 CPU 및 메모리 사용량에 대한 모니터링 및 경고를 설정하여 필요에 따라 구성을 확장하거나 축소할 수 있습니다.
저장 영역
HPC 구성과 함께 제공되는 NVMe SSD 스토리지 외에도 Oracle의 최고 성능 SLA에 따라 볼륨당 32k IOPS로 블록 볼륨을 연결할 수도 있습니다. 솔루션을 사용하여 인프라를 시작하는 경우 nfs-share는 기본적으로 /mnt의 NVMe SSD 스토리지에 설치됩니다. 성능 요구 사항에 따라 NVMe SSD 스토리지 또는 블록 스토리지 위에 고유한 병렬 파일 시스템을 설치할 수도 있습니다.
시각화자 노드
요구사항에 따라 GPU VM(가상 머신) 또는 베어메탈 노드와 같은 시각화 노드를 생성할 수 있습니다. 이 시각화기 노드는 사용자 배스천 호스트 또는 별도일 수 있습니다. 작업 로드에 대한 보안 요구 사항에 따라 시각화 노드를 전용 또는 공용 서브넷에 배치할 수 있습니다.

배치

이 참조 아키텍처를 배포하는 데 필요한 코드는 GitHub에서 제공됩니다. 한 번의 클릭으로 코드를 Oracle Cloud Infrastructure Resource Manager로 가져와서 스택을 생성하고 배포할 수 있습니다. 또는 GitHub의 코드를 컴퓨터에 다운로드하고, 코드를 사용자 정의하고, Terraform CLI를 사용하여 아키텍처를 배포합니다.

Oracle Cloud Infrastructure Resource Manager를 사용하여 배치합니다.
1. 을 누릅니다.
  아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.
2. 약관을 검토 및 수락합니다.
3. 스택을 배치할 지역을 선택합니다.
4. 화면 프롬프트 및 지침에 따라 스택을 만듭니다.
5. 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
6. 작업이 완료될 때까지 기다린 다음 계획을 검토합니다.
  변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요한 변경을 수행합니다. 그런 다음 계획 작업을 다시 실행합니다.
7. 추가 변경이 필요하지 않은 경우 스택 세부정보 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
GitHub에서 Terraform 코드를 사용하여 배포합니다.
1. GitHub으로 이동합니다.
2. 저장소를 로컬 컴퓨터에 복제하거나 다운로드합니다.
3. README 문서의 지침을 따릅니다.

추가 정보

로그 변경

이 로그에는 중요한 변경 사항이 나열됩니다.

2022년 10월 17일

추가 정보에서 콘텐츠가 향상되었습니다.