주:
- 이 사용지침서에서는 Oracle Cloud에 액세스해야 합니다. 무료 계정에 등록하려면 Oracle Cloud Infrastructure Free Tier 시작하기를 참조하십시오.
- Oracle Cloud Infrastructure 인증서, 테넌시 및 구획에 대한 예제 값을 사용합니다. 실습을 마치면 이러한 값을 자신의 클라우드 환경과 관련된 값으로 대체합니다.
Oracle Cloud Infrastructure에 GPU 고성능 컴퓨팅 클러스터 배치
소개
강력한 LLM(대형 언어 모델)의 출현으로 인해 미세 조정 작업을 수행하기에 충분한 GPU(그래픽 처리 장치) 메모리가 있는 인프라에 대한 필요성이 높아지고 이를 달성하기 위한 한 가지 방법은 GPU 클러스터를 사용합니다. OCI(Oracle Cloud Infrastructure)는 NVIDIA GPU A100s의 수퍼클러스터를 배포하고 해당 기능을 사용하여 LLM을 실행하거나 미세 조정할 수 있습니다.
구성요소
클러스터 네트워크는 고대역폭 초저 대기 시간 네트워크로 연결된 HPC 및 GPU 시스템의 클러스터를 배포하기 위한 OCI의 강력한 리소스입니다. 클러스터의 각 노드는 다른 노드와 매우 근접한 물리적 위치에 있는 베어 메탈 머신입니다. 노드 간 RDMA(Remote Direct Memory Access) 네트워크는 온프레미스 HPC(고성능 컴퓨팅) 클러스터와 비교할 수 있는 한 자리 마이크로초의 대기 시간을 제공합니다. 자세한 내용은 인스턴스 풀이 있는 클러스터 네트워크를 참조하십시오.
클러스터를 배치하려면 작업 영역 구획 정보, 서비스 및 동적 그룹이 일부 작업을 수행할 수 있는 일련의 정책, 노드 클러스터에서 사용할 Ubuntu ISO 이미지의 사용자정의 이미지, 클러스터 배치를 위해 마켓플레이스 스택을 배치할 수 있는 동적 그룹을 생성해야 합니다. 자세한 내용은 동적 그룹 관리, 정책, 사용자정의 이미지 및 Oracle Cloud Marketplace를 참조하십시오.
목표
- 사전 구성된 스택을 사용하여 OCI에 GPU A100 클러스터를 배포합니다.
필요 조건
-
동적 그룹, 사용자 그룹 및 정책을 생성할 수 있습니다. 액세스 권한에 대해서는 테넌시 관리자에게 문의하십시오.
-
GPU 컴퓨팅 제한. 컴퓨트 GPU 제한이 부족한 경우 서비스 제한 증가 요청을 참조하십시오.
작업 1: 동적 그룹 생성
작업 영역 정보로 동적 그룹 규칙을 생성합니다.
-
OCI 콘솔에 로그인하여 ID 및 보안으로 이동하고 구획을 누릅니다. 작업 구획에서 OCID(Oracle Cloud Identifier)를 복사합니다.
-
동적 그룹 및 동적 그룹 생성을 누릅니다.
-
이름 및 설명을 입력합니다. 이 자습서에서는 이름으로
instance-principal
을 입력합니다. OCID를 갱신하고 생성을 누릅니다.
작업 2: 정책 정의
배치 프로세스에 필요한 정책을 정의합니다.
-
OCI 콘솔로 이동하여 ID 및 보안 및 정책으로 이동합니다.
-
정책 생성을 누르고 이름, 설명을 입력하고 루트 구획을 선택합니다.
-
수동 편집기 표시를 누르고 다음 정책을 입력하고
<>
를 사용자 정보로 바꾸고 생성을 누릅니다.Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
작업 3: (선택 사항) 사용자 정의 이미지 만들기
GPU 시스템용 Ubuntu 이미지에서 커스텀 이미지를 생성합니다. 설치합니다.
-
OCI 콘솔로 이동하여 컴퓨트 및 사용자정의 이미지로 이동합니다.
-
사용자정의 이미지에서 이미지 임포트를 누릅니다.
-
다음 정보를 입력하십시오.
- 구획: 구획을 입력합니다.
- 이름: 이 자습서에서는 이름으로
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
을 입력합니다. - OS(운영 체제): OS를 입력합니다.
- Object Storage URL에서 임포트를 선택하고 다음 URL을 입력합니다.
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
오브젝트 스토리지의 이미지 위치를 입력합니다.
-
다른 구성은 기본적으로 유지하고 Import Image를 누릅니다. 사용자 정의 이미지를 사용할 준비가 되려면 몇 분 정도 걸립니다.
작업 4: HPC 스택 배포
HPC 스택을 쉽고 빠르게 배포하는 방법은 https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-hpc/archive/refs/heads/master.zip
URL을 사용하는 것입니다. 이 URL은 환경을 생성하기 위해 모든 권장 및 업데이트된 스크립트를 사용합니다.
주: 배치 스크립트에 대한 최신 업데이트를 확인하려면 URL(
https://github.com/oracle-quickstart/oci-hpc
)로 이동하십시오. 다음 이미지와 같이README.md
파일에서 Oracle Cloud에 배치를 누릅니다.
또는
OCI 콘솔을 통해 전통적으로 HPC 스택을 배포합니다.
-
OCI 콘솔로 이동하여 마켓플레이스 및 모든 애플리케이션을 누릅니다.
-
검색 모음에
HPC solutions
을 입력합니다. -
HPC 클러스터 선택.
-
스택을 생성하는 데 필요한 정보를 입력합니다.
-
고급 배스천 옵션을 구성하는 데 필요한 값을 입력합니다.
-
클러스터 네트워크 매개변수를 입력합니다.
-
생성을 눌러 스택 배치를 초기화합니다.
스택이 성공적으로 생성되었습니다.
-
생성된 인스턴스를 확인하려면 OCI 콘솔로 이동하여 컴퓨트, 인스턴스를 누릅니다.
확인
- Authors - Douglas Silva(LAD A-Team), Leandro Camargo(LAD A-Team)
추가 학습 자원
docs.oracle.com/learn에서 다른 실습을 살펴보거나 Oracle Learning YouTube 채널에서 더 많은 무료 학습 콘텐츠에 액세스하십시오. 또한 education.oracle.com/learning-explorer를 방문하여 Oracle Learning Explorer가 되십시오.
제품 설명서는 Oracle Help Center를 참조하십시오.
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98233-01
May 2024