정부 AI 워크로드를 위한 고성능 GPU 컴퓨팅 배포

NVIDIA DGX Cloud 및 NVIDIA AI Enterprise를 Oracle Cloud Marketplace에 추가하면 생성형 AI 애플리케이션을 위한 모든 종류의 대규모 모델 교육을 OCI에서 빠르고 쉽게 수행할 수 있습니다. NVIDIA NeMo Framework에 의해 최적화된 워크로드는 생성형 AI를 구축, 맞춤화 및 배포하기 위한 엔드투엔드 클라우드 네이티브 프레임워크입니다.

DGX Cloud의 공유 리소스 환경은 모든 데이터와 리소스를 자체 테넌시의 제어 하에 유지하는 추가 보안이 필요한 미국 정부 지역의 고객에게 덜 적합할 수 있습니다. 우리는 당신을위한 또 다른 해결책을 가지고 있습니다.

Oracle은 이제 Oracle US Government Cloud(FedRAMP High)용 베어메탈 NVIDIA GPU 시스템의 전용 클러스터를 우리 리전에 손쉽게 배포할 수 있게 되었습니다. 모든 클라우드 리소스와 데이터는 클라우드 테넌시에 유지되므로 소프트웨어 버전, 관리 액세스, 암호화 키 및 리소스 공유를 완벽하게 제어할 수 있습니다.

NVIDIA A100 GPU 또는 NVIDIA H100 GPU가 포함된 Oracle GPU 클러스터는 Marketplace에서 HPC 클러스터 스택을 실행하여 배치됩니다. 몇 번의 클릭 및 설정만으로 Terraform 및 Ansible 스크립트는 NVIDIA 네트워킹, 클러스터 네트워킹 드라이버, 작업 일정 잡기용 SLURM, 분산 컨테이너 런타임용 NVIDIA Pyxis 및 Enroot를 기반으로 대기 시간이 매우 짧은 RoCEv2 클러스터 네트워크로 클러스터 환경을 위한 하드웨어 및 소프트웨어를 자동으로 배포합니다. 자체 대규모 언어 모델과 머신 러닝 워크로드를 가져오거나 NVIDIA PyTorch 및 NeMo 컨테이너를 가져와 NVIDIA AI Enterprise 호환 워크로드를 보안 테넌시 내에서 완전히 실행합니다.

RoCEv2 클러스터 네트워크는 다음을 포함하여 매우 까다로운 병렬 처리 워크로드를 위해 설계되었습니다.
  • 대규모 언어 모델
  • 인공 비전
  • 머신 러닝
  • 시뮬레이션

구조

이 아키텍처는 스케줄러를 실행하며 클러스터에 액세스하기 위한 배스천 서버로 사용할 수 있는 배스천 또는 헤드 노드를 배포합니다.

다양한 NVIDIA GPU 인스턴스 유형을 사용하여 처리 요구사항과 함께 컴퓨트 처리 노드를 생성할 수 있습니다. 컴퓨트 처리 노드를 보안 전용 서브넷에 배치하는 것이 좋습니다. Oracle Cloud Marketplace에서 NVIDIA GPU 컴퓨트 클러스터 인스턴스를 배포할 수 있습니다.

이 구조는 공용 및 전용 VCN(가상 클라우드 네트워크)을 사용하여 배치됩니다. 고객 네트워크는 IPSec VPN, Oracle Cloud Infrastructure FastConnect 또는 공용 인터넷을 통해서만 헤드 노드와 컴퓨트 노드에 접근할 수 있습니다.

이 아키텍처는 하나의 가용성 도메인과 지역 서브넷이 있는 지역을 사용합니다. 여러 가용성 도메인이 있는 한 리전에서 동일한 구조를 사용할 수 있습니다. 가용성 도메인 수에 관계없이 배치에 대해 지역별 서브넷을 사용하는 것이 좋습니다. Oracle Cloud Marketplace에서 이러한 클러스터 네트워크에 액세스하거나 수동으로 배치할 수 있습니다. 두 경우 모두 기준선 참조 아키텍처를 사용한 다음 특정 요구 사항에 맞게 조정하는 것이 좋습니다.

다음 다이어그램은 이 참조 아키텍처를 보여 줍니다.

다음은 nvidia-ai-gvt-hpc-oci.png에 대한 설명입니다.
그림 nvidia-ai-gvt-hpc-oci.png에 대한 설명

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

아키텍처의 구성 요소는 다음과 같습니다.

  • 지역

    Oracle Cloud Infrastructure 지역은 가용성 도메인이라고 하는 하나 이상의 데이터 센터를 포함하는 지역화된 지리적 영역입니다. 지역은 다른 지역과는 독립적이며, 거리는 국가 또는 대륙에 걸쳐 분리될 수 있습니다.

  • 가용성 도메인

    가용성 도메인은 한 지역 내의 독립형 독립형 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 결함 허용을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원이나 냉각과 같은 인프라나 내부 가용성 도메인 네트워크를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에는 영향을 미치지 않습니다.

  • 결함 도메인

    장애 도메인은 가용성 도메인 내의 하드웨어와 인프라 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어가 있는 결함 도메인이 3개 있습니다. 여러 장애 도메인에 리소스를 배포할 때 애플리케이션은 장애 도메인 내의 물리적 서버 장애, 시스템 유지 관리 및 전원 장애를 견딜 수 있습니다.

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정한 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN을 통해 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN 생성 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있습니다. 서브넷은 영역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 서브넷을 생성한 후 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 배스천 호스트

    배스천 호스트는 클라우드 외부의 토폴로지에 대해 제어되는 안전한 시작점 역할을 하는 컴퓨팅 인스턴스입니다. Bastion 호스트는 일반적으로 DMZ(Demilitarized Zone)에 프로비저닝됩니다. 이 도구를 사용하면 클라우드 외부에서 직접 액세스할 수 없는 개인 네트워크에 중요한 리소스를 배치하여 보호할 수 있습니다. 위상에는 알려진 단일 시작점이 있으며, 주기적으로 모니터링하고 감사(audit)할 수 있습니다. 따라서 액세스를 방해하지 않으면서 토폴로지의 더 중요한 구성요소가 노출되지 않도록 할 수 있습니다.

  • 컴퓨트 노드

    이 클러스터에서 사용 중인 베어메탈 GPU 구성을 선택합니다. 예를 들어, 위 예와 같이 4 x NVIDIA A100 Tensor 코어 GPU로 구동되는 BM.GPU4.8을 선택하거나 NVIDIA 변압기 엔진을 사용하여 FP8 성능상의 이점을 얻기 위해 8 x NVIDIA H100 Tensor 코어 GPU로 구동되는 BM.GPU.H100.8을 선택합니다.

  • Orchestration node(조정 노드)

    조정 노드는 클러스터 노드 관리, 소프트웨어 구성 프로비전, 프로비전 해제 및 배치를 수행하고 컴퓨트 워크플로우 및 작업 조정을 관리합니다.

  • 보안 목록

    각 서브넷에 대해 서브넷에 들어오고 나가야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.

권장사항

다음 권장사항을 시작점으로 사용하여 Oracle Cloud Infrastructure에 고성능 컴퓨팅(HPC)을 배포하고 필요에 따라 특정 요구 사항을 해결하도록 조정할 수 있습니다.
  • VCN

    VCN을 생성할 때 VCN의 서브넷에 연결할 리소스 수를 기준으로 필요한 CIDR 블록 수와 각 블록의 크기를 결정합니다. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.

    전용 접속을 설정할 다른 네트워크(Oracle Cloud Infrastructure, 온프레미스 데이터 센터 또는 다른 클라우드 제공자)와 겹치지 않는 CIDR 블록을 선택합니다.

    VCN을 생성한 후 해당 CIDR 블록을 변경, 추가 및 제거할 수 있습니다.

    서브넷을 설계할 때 트래픽 흐름 및 보안 요구 사항을 고려합니다. 특정 계층 또는 역할 내의 모든 리소스를 보안 경계로 사용할 수 있는 동일한 서브넷에 연결합니다.

    지역별 서브넷을 사용합니다.

  • 보안 목록

    보안 목록을 사용하여 전체 서브넷에 적용되는 수신 및 송신 규칙을 정의합니다.

  • Bastion node(배스천 노드)

    VM.Standard.E5를 사용합니다. 가변 컴퓨트 구성 노드는 배스천 호스트로 사용되고 HPC 작업 일정을 잡기 때문에 로컬로 연결된 스토리지 또는 GPU 처리가 필요하지 않습니다.

  • GPU 컴퓨트 클러스터 노드

    BM.GPU.A100.-v2.8 컴퓨트 구성은 GPU 컴퓨트 워크플로우 및 고도의 컴퓨트 집중 작업에 사용되므로 사용합니다.

고려사항

Oracle Cloud Infrastructure에 고성능 컴퓨팅(HPC)을 배포할 때는 이러한 구현 옵션을 고려하십시오.

  • 성능

    최상의 성능을 얻으려면 적절한 대역폭의 올바른 컴퓨트 구성을 선택하십시오.

  • 가용성

    배포 요구사항 및 지역에 따라 고가용성 옵션을 사용하는 것이 좋습니다. 옵션에는 지역 및 장애 도메인에서 여러 가용성 도메인 사용이 포함됩니다.

  • 비용

    베어메탈 GPU 인스턴스는 더 높은 비용으로 필요한 CPU 전력을 제공합니다. 요구사항을 평가하여 적절한 컴퓨트 구성을 선택합니다.

  • 모니터링 및 경보

    필요에 따라 구성을 확장하거나 축소할 수 있도록 노드에 대한 CPU 및 메모리 사용량에 대한 모니터링 및 경보를 설정합니다.

배치

이 참조 아키텍처를 배포하기 위한 Terraform 스택은 Oracle Cloud Marketplace에서 스택으로 제공됩니다. GitHub에서 코드를 다운로드하고 요구사항에 맞게 사용자정의할 수도 있습니다.

확인

  • 작성자: Kevin Colwell
  • 제공자: Neil Pierson, George Boateng, Travis Lee, Michael Rutledge