주:

이 자습서에서는 Oracle Cloud에 액세스해야 합니다. 무료 계정에 등록하려면 Oracle Cloud Infrastructure Free Tier 시작하기를 참조하십시오.
Oracle Cloud Infrastructure 자격 증명, 테넌시 및 구획에 예제 값을 사용합니다. 실습을 완료했으면 이러한 값을 자신의 클라우드 환경과 관련된 값으로 대체하십시오.

OCI 스택을 사용하여 베어메탈 GPU 노드를 자체 관리 노드로 OKE로 이전

소개

이 사용지침서에서는 Oracle Cloud Infrastructure(OCI) 스택을 사용하여 베어메탈(BM) GPU 노드를 Oracle Cloud Infrastructure Kubernetes Engine(OKE) 자체 관리 노드로 마이그레이션하는 프로세스를 안내합니다.

먼저 자체 관리형 노드가 무엇인지, 그리고 OKE에서 GPU를 실행하는 데 이상적인 이유를 이해해 보겠습니다.

OKE 자체 관리 노드란?

이름에서 알 수 있듯이 자체 관리 노드는 고객이 완전히 제어하고 유지 관리합니다. 여기에는 프로비저닝, 확장, 구성, 업그레이드, OS(운영 체제) 패치 및 노드 교체와 같은 유지 관리 작업이 포함됩니다. 이 접근 방식은 더 많은 수동 관리가 필요하지만 최대의 유연성과 제어 기능을 제공하므로 GPU에서 실행되는 것과 같은 특수 워크로드에 적합합니다.

자체 관리 노드의 주요 기능:

전체 제어: 고객은 프로비저닝, OS 업데이트, 확장 및 종료를 포함하여 노드 수명 주기를 완벽하게 제어할 수 있습니다.
사용자 정의 구성: 고객은 사용자 정의 이미지를 사용하거나, 특정 소프트웨어를 설치하거나, 네트워킹을 구성하거나, 대체 인스턴스 유형을 사용할 수 있습니다.
수동 업그레이드: OKE 관리형 노드 풀과 달리 고객은 Kubernetes 버전, 보안 패치 및 OS 업데이트를 수동으로 업그레이드해야 합니다.
BYON(자체 노드 가져오기): 고객은 OKE 클러스터에서 기존 OCI 컴퓨트 인스턴스를 작업자 노드로 사용할 수 있습니다.
자동 노드 순환 없음: 노드가 실패하면 고객이 수동으로 노드를 바꾸거나 순환해야 합니다.

이 사용지침서에서는 BM A100 GPU 워크로드가 현재 OCI의 Slurm 클러스터에서 실행되고 있으며 이를 OKE 클러스터로 마이그레이션하는 것을 목표로 하는 사용 사례를 다룹니다. HPC(고성능 컴퓨팅) OKE 스택을 사용하여 빈 OKE 클러스터를 배치한 다음 기존 GPU 노드를 추가할 수 있습니다.

목표

HPC OKE 스택을 사용하여 BM A100 GPU 노드를 자체 관리 노드로 OKE로 마이그레이션합니다.

필요 조건

실행 중인 OCI 테넌시 및 OKE 클러스터에 대한 관리자 액세스 권한입니다.
BM A100 노드에 NVIDIA Run:ai를 설치하여 애플리케이션을 컨테이너화합니다. 자세한 내용은 NVIDIA Run:ai를 참조하십시오.
OKE에서 RDMA(Remote Direct Memory Access) GPU 워크로드를 실행합니다. 자세한 내용은 OKE에서 RDMA(원격 직접 메모리 액세스) GPU 워크로드 실행을 참조하십시오.

작업 1: HPC OKE 스택을 사용하여 BM A100 GPU 노드를 OKE로 마이그레이션

GitHub 페이지에서 언급한 대로 OCI 콘솔에 로그인하여 필요한 정책을 생성합니다. Running RDMA (remote direct memory access) GPU workloads on OKE
Oracle Cloud에 배치를 누르고 조항 및 조건을 검토합니다.
스택을 배치할 영역을 선택합니다.
스택 정보 페이지에서 스택에 대한 이름을 입력합니다.
변수 구성 페이지에서 VCN에 대한 이름을 입력합니다.
배스천 및 연산자 섹션에서 배스천 인스턴스의 정보를 입력하고 배스천 인스턴스에 대한 SSH 키를 추가합니다.
(선택 사항) 운영자 구성 구성을 선택하여 작업 모니터링 또는 실행을 위한 운영자 노드를 생성합니다.
OKE Cluster, Workers: Operational 노드 및 Workers: GPU + RDMA 노드의 변수를 구성합니다. Pod 네트워킹에 사용할 플 채널 CNI를 선택해야 합니다.
로컬 NVMe 드라이브를 사용하여 RAID 0 배열 만들기 및 Install Node Problem Detector & Kube Prometheus Stack을 선택합니다.
스택 정보를 검토하고 생성을 누릅니다.
리소스 관리자의 스택 세부정보를 검토하고 OCI 콘솔의 Kubernetes 섹션에서 OKE 클러스터를 확인합니다.
OCI 콘솔을 통해 액세스 클러스터를 사용하여 OKE 클러스터에 로그인하고 계속해서 새 GPU 노드를 추가합니다.
여기에 언급된 모든 단계(Creating a Dynamic Group and a Policy for Self-Managed Nodes)를 따릅니다.
여기에 언급된 1단계 및 2단계를 따릅니다. 자체 관리 노드에 대한 Cloud-init 스크립트 생성.

다음 스크립트를 실행하여 GPU 노드를 OKE 클러스터에 추가합니다.

sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list

sudo apt install -y oci-oke-node-all*

sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args "

다음 명령을 실행하여 노드가 OKE 클러스터에 성공적으로 추가되었는지 확인합니다.
```
kubectl get nodes
```

확인

Authors - Ruzhu Chen(Master Principal Enterprise Cloud Architect), Payal Sharma(Senior Enterprise Cloud Architect)

추가 학습 자원

docs.oracle.com/learn에서 다른 실습을 탐색하거나 Oracle Learning YouTube 채널에서 더 많은 무료 학습 콘텐츠에 액세스하세요. 또한 Oracle Learning Explorer가 되려면 education.oracle.com/learning-explorer을 방문하십시오.

제품 설명서는 Oracle Help Center를 참조하십시오.

제목 및 저작권 정보

Migrate Bare Metal GPU Nodes to OKE as Self-Managed Nodes using an OCI Stack

G31990-01

OCI 스택을 사용하여 베어메탈 GPU 노드를 자체 관리 노드로 OKE로 이전

소개

목표

필요 조건

작업 1: HPC OKE 스택을 사용하여 BM A100 GPU 노드를 OKE로 마이그레이션

관련 링크

확인

추가 학습 자원