OCI에서 대규모 언어 모델 배치 정보
PagedAttention
는 vLLM의 중심이며, 가상 메모리로 관리함으로써 주의 메커니즘의 효율성을 향상시킵니다. GPU 메모리 활용률을 높이고, 더 긴 시퀀스의 처리를 가능하게 하며, 하드웨어 리소스 제약 조건 내에서의 작업을 지원합니다. 또한 vLLM은 지속적인 일괄 처리를 통해 처리량을 개선하고 대기 시간을 줄일 수 있습니다.
이 솔루션 플레이북에서는 OCI에서 AMD Instinct™ MI300X GPU를 사용하여 LLM을 배포하는 방법에 대해 알아봅니다.
솔루션 워크플로우
Hugging Face는 머신 러닝을 위한 협업 플랫폼이자 허브로, AI 애플리케이션을 위한 사전 학습 AI 모델, 개발 도구 및 호스팅 인프라를 제공하여 전 세계 개발자가 고급 머신 러닝에 액세스할 수 있도록 합니다.
모델에서 구축된 이미지는 모델 이미지 관리, 버전 제어 및 보안 액세스 관리를 위해 OCI 레지스트리에 저장할 수 있습니다. AMD BM GPU 인스턴스를 사용하는 OCI의 Oracle Cloud Infrastructure Kubernetes Engine 고급 클러스터는 CLI 또는 콘솔을 사용하여 실행할 수 있습니다. 마지막으로 네트워크 또는 인터넷을 통해 모델 추론 엔드포인트를 보호할 수 있습니다.
다음은 타사 구성 요소를 나열합니다.
- AMD Instinct™ GPU
AMD Instinct™ MI300X GPU와 AMD ROCm™ 개방형 소프트웨어, BM.GPU.MI300X.8이라는 OCI Compute Supercluster 인스턴스 구동 AMD Instinct MI300X GPU 및 ROCm 소프트웨어는 가장 중요한 OCI AI 워크로드를 지원합니다.
AMD Instinct MI300X GPU의 추론 기능은 OCI의 광범위한 고성능 베어메탈 인스턴스에 추가되어 AI 인프라에 일반적으로 사용되는 가상화된 컴퓨트의 오버헤드를 제거합니다.
- 추론 끝점
추론 엔드포인트는 추론 엔드포인트에서 관리하는 전용 및 자동 스케일링 인프라에서 허브의 모든 변압기, 문장 변환기 및 디퓨저 모델을 쉽게 배포할 수 있는 안전한 프로덕션 솔루션을 제공합니다.
다음은 OCI 구성 요소를 나열한 것입니다.
- OCI 리전
OCI 리전은 가용성 도메인을 호스팅하는 데이터 센터가 하나 이상 포함된 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 광대한 거리는 (국가 또는 대륙에 걸쳐) 그들을 분리 할 수 있습니다.
- OCI 가상 클라우드 네트워크 및 서브넷
VCN(가상 클라우드 네트워크)은 OCI 리전에 설정하는 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN을 사용하면 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR(클래스리스 도메인 간 경로 지정) 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있으며, 이 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 썸네일의 크기는 생성 이후 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
- OCI 블록 볼륨
Oracle Cloud Infrastructure Block Volumes를 사용하면 스토리지 볼륨을 생성, 연결, 연결 및 이동하고 볼륨 성능을 변경하여 스토리지, 성능 및 애플리케이션 요구 사항을 충족할 수 있습니다. 볼륨을 인스턴스에 연결한 후 일반 하드 드라이브와 같은 볼륨을 사용할 수 있습니다. 또한 데이터 손실 없이 볼륨 연결을 해제하고 다른 인스턴스에 연결할 수 있습니다.
- OCI Kubernetes 엔진
Oracle Cloud Infrastructure Kubernetes Engine(OCI Kubernetes Engine 또는 OKE)는 컨테이너화된 애플리케이션을 클라우드에 배치하는 데 사용할 수 있는 확장 가능한 완전 관리형 고가용성의 서비스입니다. 애플리케이션에 필요한 컴퓨트 리소스를 지정하고 OKE가 기존 테넌시의 OCI에서 프로비저닝합니다. OKE는 Kubernetes를 사용하여 호스트 클러스터 전반에 걸쳐 컨테이너화된 애플리케이션의 배포, 확장 및 관리를 자동화합니다.
- OCI 오브젝트 스토리지
OCI Object Storage는 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 콘텐츠 등 모든 콘텐츠 유형의 대량의 정형 및 비정형 데이터에 대한 액세스를 제공합니다. 애플리케이션 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장할 수 있습니다. 성능 또는 서비스 안정성이 저하되지 않고 스토리지를 확장할 수 있습니다.
신속하고 즉각적이며 자주 액세스하는 데 필요한 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보관하며 거의 또는 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.
- OCI Registry
Oracle Cloud Infrastructure Registry는 개발-운용 워크플로우를 간소화할 수 있는 Oracle 관리형 서비스입니다. 레지스트리를 사용하면 Docker 이미지와 같은 개발 아티팩트를 쉽게 저장, 공유 및 관리할 수 있습니다.
시작하기 전에
- 블로그: AMD Instinct MI300X GPU를 활용한 조기 LLM 서비스 경험 및 성능 결과
- vLLM에 대해 알아봅니다.
BM.GPU.MI300X.8
인스턴스를 실행하려면 컴퓨트 용량 생성을 실행하여 테넌시에서 컴퓨트 용량을 확인하십시오.BM.GPU.MI300X.8
인스턴스를 예약해야 하는 경우 이 단계를 따릅니다.- VCN에서 GPU 인스턴스를 실행하려면 테넌시 및 리전에 있는 기존 VCN을 선택하거나, 생성할 수 있습니다. Oracle Cloud Infrastructure Networking 문서를 참조하십시오.
- 고유의 SSH 키를 사용하여 SSH를 사용하여 인스턴스에 접속하려면 사용하려는 SSH 키 쌍의 퍼블릭 키가 필요합니다. 키는
OpenSSH
형식이어야 합니다. Linux 인스턴스에서 키 쌍 관리를 참조하십시오. - 인스턴스 실행 및 작업 권한 부여는 인스턴스 작업에 필요한 IAM 정책 설명서를 참조하십시오.
필수 제품 및 역할 정보
이 솔루션을 사용하려면 다음 제품이 필요합니다.
- Oracle Cloud Infrastructure Compute 베어메탈(AMD GPU 포함)
- Oracle Cloud Infrastructure Object Storage
- Oracle Cloud Infrastructure Block Volumes
- Oracle Cloud Infrastructure Kubernetes Engine
- Oracle Cloud Infrastructure Registry
각 제품에 필요한 역할입니다.
서비스 이름: 역할 | 필수 항목... |
---|---|
Oracle Cloud Instance Launch Using Custom Image 정책
|
|
Oracle Cloud Manage Kubernetes Cluster 정책
|
Administrators 그룹에 속하거나 정책에서 CLUSTER_MANAGE 권한을 부여하는 그룹에 속해야 합니다.
Policy Configuration for Cluster Creation and Deployment을 참조하십시오. |
Oracle Cloud working with Images from Registry 정책
|
|
필요한 정보를 얻으려면 Oracle 제품, 솔루션 및 서비스를 참조하십시오.