OCI에서 대규모 언어 모델 배치 정보

대규모로 대규모 LLM(대형 언어 모델)을 효율적으로 배포하는 것은 까다롭고 리소스 집약적인 작업입니다. Oracle Cloud Infrastructure(OCI)는 LLama2 70B 모델을 실행하는 베어메탈 오퍼링에 AMD Instinct™ MI300X GPU를 제공합니다.
vLLM은 LLM 추론 및 서빙을 위한 빠르고 사용하기 쉬운 라이브러리입니다. PagedAttention는 vLLM의 중심이며, 가상 메모리로 관리함으로써 주의 메커니즘의 효율성을 향상시킵니다. GPU 메모리 활용률을 높이고, 더 긴 시퀀스의 처리를 가능하게 하며, 하드웨어 리소스 제약 조건 내에서의 작업을 지원합니다. 또한 vLLM은 지속적인 일괄 처리를 통해 처리량을 개선하고 대기 시간을 줄일 수 있습니다.

이 솔루션 플레이북에서는 OCI에서 AMD Instinct™ MI300X GPU를 사용하여 LLM을 배포하는 방법에 대해 알아봅니다.

솔루션 워크플로우

Hugging Face는 머신 러닝을 위한 협업 플랫폼이자 허브로, AI 애플리케이션을 위한 사전 학습 AI 모델, 개발 도구 및 호스팅 인프라를 제공하여 전 세계 개발자가 고급 머신 러닝에 액세스할 수 있도록 합니다.

다음 워크플로우 다이어그램은 허깅 면 GitHub 오픈 소스 라이브러리에서 모델 아티팩트를 가져와서 OCI Object Storage에 저장하는 방법을 보여줍니다.


모델에서 구축된 이미지는 모델 이미지 관리, 버전 제어 및 보안 액세스 관리를 위해 OCI 레지스트리에 저장할 수 있습니다. AMD BM GPU 인스턴스를 사용하는 OCI의 Oracle Cloud Infrastructure Kubernetes Engine 고급 클러스터는 CLI 또는 콘솔을 사용하여 실행할 수 있습니다. 마지막으로 네트워크 또는 인터넷을 통해 모델 추론 엔드포인트를 보호할 수 있습니다.

다음은 타사 구성 요소를 나열합니다.

  • AMD Instinct™ GPU

    AMD Instinct™ MI300X GPUAMD ROCm™ 개방형 소프트웨어, BM.GPU.MI300X.8이라는 OCI Compute Supercluster 인스턴스 구동 AMD Instinct MI300X GPU 및 ROCm 소프트웨어는 가장 중요한 OCI AI 워크로드를 지원합니다.

    AMD Instinct MI300X GPU의 추론 기능은 OCI의 광범위한 고성능 베어메탈 인스턴스에 추가되어 AI 인프라에 일반적으로 사용되는 가상화된 컴퓨트의 오버헤드를 제거합니다.

  • 추론 끝점

    추론 엔드포인트는 추론 엔드포인트에서 관리하는 전용 및 자동 스케일링 인프라에서 허브의 모든 변압기, 문장 변환기 및 디퓨저 모델을 쉽게 배포할 수 있는 안전한 프로덕션 솔루션을 제공합니다.

다음은 OCI 구성 요소를 나열한 것입니다.

  • OCI 리전

    OCI 리전은 가용성 도메인을 호스팅하는 데이터 센터가 하나 이상 포함된 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 광대한 거리는 (국가 또는 대륙에 걸쳐) 그들을 분리 할 수 있습니다.

  • OCI 가상 클라우드 네트워크 및 서브넷

    VCN(가상 클라우드 네트워크)은 OCI 리전에 설정하는 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN을 사용하면 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR(클래스리스 도메인 간 경로 지정) 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있으며, 이 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 썸네일의 크기는 생성 이후 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • OCI 블록 볼륨

    Oracle Cloud Infrastructure Block Volumes를 사용하면 스토리지 볼륨을 생성, 연결, 연결 및 이동하고 볼륨 성능을 변경하여 스토리지, 성능 및 애플리케이션 요구 사항을 충족할 수 있습니다. 볼륨을 인스턴스에 연결한 후 일반 하드 드라이브와 같은 볼륨을 사용할 수 있습니다. 또한 데이터 손실 없이 볼륨 연결을 해제하고 다른 인스턴스에 연결할 수 있습니다.

  • OCI Kubernetes 엔진

    Oracle Cloud Infrastructure Kubernetes Engine(OCI Kubernetes Engine 또는 OKE)는 컨테이너화된 애플리케이션을 클라우드에 배치하는 데 사용할 수 있는 확장 가능한 완전 관리형 고가용성의 서비스입니다. 애플리케이션에 필요한 컴퓨트 리소스를 지정하고 OKE가 기존 테넌시의 OCI에서 프로비저닝합니다. OKE는 Kubernetes를 사용하여 호스트 클러스터 전반에 걸쳐 컨테이너화된 애플리케이션의 배포, 확장 및 관리를 자동화합니다.

  • OCI 오브젝트 스토리지

    OCI Object Storage는 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 콘텐츠 등 모든 콘텐츠 유형의 대량의 정형 및 비정형 데이터에 대한 액세스를 제공합니다. 애플리케이션 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장할 수 있습니다. 성능 또는 서비스 안정성이 저하되지 않고 스토리지를 확장할 수 있습니다.

    신속하고 즉각적이며 자주 액세스하는 데 필요한 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보관하며 거의 또는 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.

  • OCI Registry

    Oracle Cloud Infrastructure Registry는 개발-운용 워크플로우를 간소화할 수 있는 Oracle 관리형 서비스입니다. 레지스트리를 사용하면 Docker 이미지와 같은 개발 아티팩트를 쉽게 저장, 공유 및 관리할 수 있습니다.

시작하기 전에

시작하기 전에 다음을 설정해야 합니다.

필수 제품 및 역할 정보

이 솔루션을 사용하려면 다음 제품이 필요합니다.

  • Oracle Cloud Infrastructure Compute 베어메탈(AMD GPU 포함)
  • Oracle Cloud Infrastructure Object Storage
  • Oracle Cloud Infrastructure Block Volumes
  • Oracle Cloud Infrastructure Kubernetes Engine
  • Oracle Cloud Infrastructure Registry

각 제품에 필요한 역할입니다.

서비스 이름: 역할 필수 항목...
Oracle Cloud Instance Launch Using Custom Image 정책
  • ImageUsers 그룹이 ABC 컴파트먼트의 instance-images를 검사하도록 허용합니다.
  • 컴파트먼트 ABC(여기서 target.image.id='')에서 ImageUsers 그룹이 {INSTANCE_IMAGE_READ}이 되도록 허용합니다.
  • ImageUsers 그룹이 ABC 컴파트먼트의 인스턴스를 관리하도록 허용합니다.
  • 테넌시에서 ImageUsers 그룹이 app-catalog-listing을 읽도록 허용
  • 컴파트먼트 ABC에서 ImageUsers 그룹이 volume-family를 사용하도록 허용합니다.
  • 컴파트먼트 XYZ에서 ImageUsers 그룹이 virtual-network-family를 사용하도록 허용합니다.
Oracle Cloud Manage Kubernetes Cluster 정책
  • <location>에서 <group-name> 그룹이 manage cluster-family이 되도록 허용합니다.
  • acme-dev-team-pool-admins 그룹이 <location>에서 cluster-node-pools를 사용하도록 허용합니다.
OCI에서 OKE 클러스터를 생성하려면 테넌시의 Administrators 그룹에 속하거나 정책에서 CLUSTER_MANAGE 권한을 부여하는 그룹에 속해야 합니다.

Policy Configuration for Cluster Creation and Deployment을 참조하십시오.

Oracle Cloud working with Images from Registry 정책
  • acme-pullers 그룹이 테넌시의 저장소를 읽도록 허용합니다.
  • acme-pushers 그룹이 테넌시의 저장소를 관리하도록 허용합니다.

필요한 정보를 얻으려면 Oracle 제품, 솔루션 및 서비스를 참조하십시오.