OCI 정부 지역에 NVIDIA AI를 배포하도록 HPC 클러스터 스택 구성

Oracle US Government Cloud(FedRAMP High)에서 베어메탈 NVIDIA GPU 시스템의 전용 클러스터를 구성하고 배포합니다. 모든 클라우드 리소스 및 데이터는 클라우드 테넌시에 유지되므로 소프트웨어 버전, 관리 액세스, 암호화 키 및 리소스 공유를 완벽하게 제어할 수 있습니다.

HPC 클러스터 스택은 Terraform을 사용하여 Oracle Cloud Infrastructure(OCI) 리소스를 배포합니다. 이 스택은 GPU 노드, 스토리지, 표준 네트워킹 및 고성능 클러스터 네트워킹, 클러스터 액세스 및 관리를 위한 배스천/헤드 노드를 생성합니다.

시작하기 전에

Oracle Cloud Infrastructure Government Cloud에 NVIDIA Enterprise를 배포하는 방법에 대해 자세히 알아보십시오. 정부 AI 워크로드를 위한 고성능 GPU 컴퓨팅 배포를 참조하십시오.

구조

이 아키텍처는 스케줄러를 실행하며 클러스터에 액세스하기 위한 배스천 서버로 사용할 수 있는 배스천 또는 헤드 노드를 배포합니다.

다양한 NVIDIA GPU 인스턴스 유형을 사용하여 처리 요구사항과 함께 컴퓨트 처리 노드를 생성할 수 있습니다. 컴퓨트 처리 노드를 보안 전용 서브넷에 배치하는 것이 좋습니다. Oracle Cloud Marketplace에서 NVIDIA GPU 컴퓨트 클러스터 인스턴스를 배포할 수 있습니다.

이 구조는 공용 및 전용 VCN(가상 클라우드 네트워크)을 사용하여 배치됩니다. 고객 네트워크는 IPSec VPN, Oracle Cloud Infrastructure FastConnect 또는 공용 인터넷을 통해서만 헤드 노드와 컴퓨트 노드에 접근할 수 있습니다.

이 아키텍처는 하나의 가용성 도메인과 지역 서브넷이 있는 지역을 사용합니다. 여러 가용성 도메인이 있는 한 리전에서 동일한 구조를 사용할 수 있습니다. 가용성 도메인 수에 관계없이 배치에 지역별 서브넷을 사용하는 것이 좋습니다. Oracle Cloud Marketplace에서 이러한 클러스터 네트워크에 액세스하거나 수동으로 배치할 수 있습니다. 두 경우 모두 기준선 참조 아키텍처를 사용한 다음 특정 요구 사항에 맞게 조정하는 것이 좋습니다.

다음 다이어그램은 이 참조 아키텍처를 보여 줍니다.

다음은 nvidia-ai-gvt-hpc-oci.png에 대한 설명입니다.
그림 nvidia-ai-gvt-hpc-oci.png에 대한 설명

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

아키텍처의 구성 요소는 다음과 같습니다.

  • 지역

    Oracle Cloud Infrastructure 지역은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 지역화된 지리적 영역입니다. 지역은 다른 지역과는 독립적이며, 거리는 국가 또는 대륙에 걸쳐 분리될 수 있습니다.

  • 가용성 도메인

    가용성 도메인은 한 지역 내의 독립형 독립형 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 결함 허용을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원이나 냉각과 같은 인프라나 내부 가용성 도메인 네트워크를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에 영향을 미치지 않습니다.

  • 결함 도메인

    장애 도메인은 가용성 도메인 내 하드웨어와 인프라의 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어가 있는 3개의 장애 도메인이 있습니다. 여러 장애 도메인에 리소스를 배포할 때 애플리케이션은 장애 도메인 내의 물리적 서버 장애, 시스템 유지 관리 및 전원 장애를 견딜 수 있습니다.

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정한 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN을 통해 네트워크 환경을 제어할 수 있습니다. VCN은 VCN 생성 후 변경할 수 있는 겹치지 않는 여러 CIDR 블록을 가질 수 있습니다. VCN을 서브넷으로 분할할 수 있으며, 영역 또는 가용성 도메인으로 범위를 지정할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 서브넷을 생성한 후 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • Bastion 호스트

    배스천 호스트는 클라우드 외부의 토폴로지에 대한 안전하고 제어된 시작점 역할을 하는 컴퓨팅 인스턴스입니다. Bastion 호스트는 일반적으로 DMZ(Demilitarized Zone)에 프로비저닝됩니다. 이 툴을 사용하면 클라우드 외부에서 직접 액세스할 수 없는 전용(Private) 네트워크에 중요한 리소스를 배치하여 보호할 수 있습니다. 위상에는 알려진 단일 시작점이 있으며, 주기적으로 모니터링하고 감사(audit)할 수 있습니다. 따라서 액세스를 방해하지 않으면서 토픽의 더 중요한 구성요소가 노출되지 않도록 할 수 있습니다.

  • 컴퓨트 노드

    이 클러스터에서 사용 중인 베어메탈 GPU 구성을 선택합니다. 예를 들어, 위 예와 같이 4 x NVIDIA A100 Tensor 코어 GPU로 구동되는 BM.GPU4.8을 선택하거나 NVIDIA 변압기 엔진을 사용하여 FP8 성능상의 이점을 얻기 위해 8 x NVIDIA H100 Tensor 코어 GPU로 구동되는 BM.GPU.H100.8을 선택합니다.

  • 조정 노드

    조정 노드는 클러스터 노드 관리, 소프트웨어 구성 프로비전, 프로비전 해제 및 배치를 수행하고 컴퓨트 워크플로우 및 작업 조정을 관리합니다.

  • 보안 목록

    각 서브넷에 대해 서브넷에 들어오고 나가야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.

필수 제품, 서비스 및 역할 정보

이 솔루션에는 다음과 같은 제품, 서비스 및 역할이 필요합니다.

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI 엔터프라이즈
  • NVIDIA NeMo 프레임워크

  • NVIDIA Enroot

  • 엔비디아 은클

각 서비스에 필요한 역할은 다음과 같습니다.

서비스 이름: 롤 필요...
Oracle Cloud Infrastructure Government Cloud: 테넌시에 대한 Oracle Cloud 사용자입니다. OCI(Oracle Cloud Infrastructure)에서 구획을 생성하고, GPU 클러스터를 배치하고, GPU 클러스터를 구성합니다.
OCI Government Cloud: 보안 또는 네트워크 관리자 필요에 따라 클러스터를 빌드할 수 있도록 OCI 정책을 생성하거나 편집합니다.
OCI 정부 기관 클라우드: opc 배스천에 연결하여 구성을 검토하고 OS를 업데이트하며 LLM 교육 작업 로드를 실행합니다.

필요한 내용은 Oracle 제품, 솔루션 및 서비스를 참조하십시오.