오픈 소스 머신 러닝 및 AI 환경 설정
사전 설치된 공통 IDE, 노트북 및 프레임워크와 함께 사전 구성된 GPU 스택을 사용하여 머신 러닝 및 AI(인공 지능) 환경을 신속하게 설정함으로써 결과 작성을 시작할 수 있습니다.
Oracle의 미리 구성된 딥 러닝 환경은 다양한 애플리케이션의 다양한 업계에서 유용합니다.
-
자연어 처리
-
이미지 인식 및 분류
-
금융 서비스에 대한 사기 감지
-
온라인 소매업체를 위한 추천 엔진
-
위험 관리
이 미리 구성된 환경에는 NVIDIA GPU, CUDA 및 cuDNN 드라이버, 공통 Python 및 R IDE(통합 개발 환경), Jupyter Notebooks, 오픈 소스 ML(머신 러닝) 및 DL(딥 러닝) 프레임워크가 포함된 가상 머신(VM)이 포함됩니다.
자동 크기 조정을 사용하여 컴퓨트 리소스를 확장하거나, 필요하지 않은 경우 컴퓨트 인스턴스를 정지하여 비용을 제어할 수 있습니다. VM에는 테스트 및 탐색을 위한 기본 샘플 데이터 및 코드가 포함되어 있습니다.
Oracle Cloud Infrastructure용 AI Datascience VM 이미지는 Oracle Cloud Marketplace에서 제공됩니다.
구조
이 참조 아키텍처는 Oracle Cloud Infrastructure의 한 지역에서 머신 러닝 및 AI(인공 지능) 환경을 구현하는 방법을 보여줍니다.
이 참조 아키텍처는 배스천 호스트, 교육 노드, 추론 노드, 사용자 애플리케이션 VM 및 기타 Oracle Cloud Infrastructure 구성요소에 배포합니다. 아키텍처는 하나의 가용성 도메인 및 지역별 서브넷이 있는 영역을 사용합니다. 한 지역에서 여러 가용성 도메인이 있는 동일한 아키텍처를 사용할 수 있습니다.
이 구조에는 다음 구성요소가 있습니다.
- 배스천 호스트
전용 서브넷의 다른 컴퓨트 인스턴스에 대한 액세스를 제공하는 컴퓨트 인스턴스입니다.
- 교육 노드
고객이 애플리케이션 모델을 개발하고 검증하는 컴퓨팅 인스턴스(예: 신경망 시뮬레이션)입니다. 교육 노드는 오브젝트 스토리지에서 데이터를 검색하고, 사용 중인 모델에 따라 데이터에 대해 작업을 수행하고, 연결된 공유 블록 볼륨 스토리지에 데이터를 저장하는 강력한 인스턴스입니다.
- 추론 서버
교육 노드에서 처리된 블록 볼륨에 저장된 데이터를 사용자 응용 프로그램별로 소비하도록 준비하는 컴퓨트 인스턴스입니다. Inference 서버는 처리된 데이터를 파일 스토리지에 저장합니다.
- 유저 애플리케이션 VM
이 VM은 사용자 애플리케이션을 실행하고 공유 파일 스토리지에 저장된 추론 서버에서 처리한 데이터에 액세스합니다.
- Load balancer
로드 밸런서는 유입 트래픽을 사용자 애플리케이션 VM에 분산시킵니다.
- 파일 저장소
파일 시스템은 추론 서버 및 사용자 애플리케이션 VM에 마운트됩니다.
- 객체 스토리지
오브젝트 스토리지는 교육 노드에 사용되는 데이터를 저장하기 위한 데이터 레이크로 사용됩니다.
- 블록 볼륨
Oracle Cloud Infrastructure Block Volume 서비스를 사용하면 블록 스토리지 볼륨을 동적으로 프로비저닝하고 관리할 수 있습니다. 스토리지, 성능 및 애플리케이션 요구사항에 맞게 볼륨 성능을 변경할 뿐 아니라 볼륨을 생성, 연결(attach), 접속 및 이동할 수 있습니다. 볼륨을 인스턴스에 연결하고 연결한 후 일반 하드 드라이브처럼 볼륨을 사용할 수 있습니다. 또한 데이터 손실 없이 볼륨 연결을 해제하고 다른 인스턴스에 연결할 수 있습니다. 블록 스토리지를 사용하여 저널 또는 로그 파일을 저장합니다.
- VCN(가상 클라우드 네트워크) 및 서브넷
모든 컴퓨트 인스턴스는 서브넷에 세분화될 수 있는 VCN에 배포됩니다.
- 보안 목록
각 서브넷에 대해 서브넷 내부/외부에서 허용해야 하는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.
- 가용성 도메인
가용성 도메인은 한 지역 내의 독립형 독립적인 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에 영향을 주지 않습니다.
- 결함 도메인
장애 도메인은 한 가용성 도메인 내 하드웨어와 인프라의 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어의 3개의 장애 도메인이 있습니다. 여러 장애 도메인에 걸쳐 리소스를 분배할 경우 응용 프로그램은 결함 도메인 내에서 물리적 서버 오류, 시스템 유지 관리 및 전원 오류를 허용할 수 있습니다.
권장사항
요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다. 다음 권장 사항을 시작점으로 사용합니다.
- 배스천 호스트
VM.Standard.1.1 컴퓨트 구성을 사용합니다. 이 호스트는 다른 컴퓨트 노드에 액세스하는 데 사용되며 데이터 처리 또는 기타 작업에 관여하지 않습니다.
- 교육 노드
2x25Gbps의 네트워킹 대역폭과 데이터 과학 애플리케이션을 위한 충분한 GPU(8xV100)를 제공하는 BM.GPU3.8 구성을 사용하십시오. 이 노드는 응용 프로그램 모델을 배치 및 검증하므로 향상된 GPU 전원이 필요합니다. 최대 3개의 노드로 시작하고 자동 크기 조정 기능을 사용하여 필요에 따라 확장 또는 축소합니다.
- 추론 서버
2x25Gbps의 네트워킹 대역폭과 데이터 과학 애플리케이션을 위한 충분한 GPU(2xP100)를 제공하는 BM.GPU2.2 구성을 사용하십시오. 이 노드는 해당 역할의 특성으로 인해 GPU 전력이 약간 적습니다. 하나의 노드로 시작하여 필요에 따라 자동 크기 조정 기능을 사용합니다.
- 유저 애플리케이션 VM
VM.Standard.2.2shape를 사용합니다. 이러한 노드는 사용자 응용 프로그램에 사용되므로 VM으로 충분합니다. VM 노드 2개로 시작하고 자동 크기 조정 기능을 사용하여 필요에 따라 확장 또는 축소합니다.
- 로드 밸런서
로드 밸런서는 유입 트래픽을 사용자 애플리케이션 VM에 분산시킵니다. 100-Mbps 모양을 사용합니다.
- 파일 저장소
파일 스토리지는 필요에 따라 자동으로 확장됩니다.
- 객체 스토리지
데이터 레이크 객체에 대해 사전 인증된 링크가 있는 단일 프라이빗 버킷을 사용합니다.
- 블록 볼륨
로컬에 연결된 스토리지 이외에 다중 연결 기능을 사용하여 3개 이상의 블록 볼륨(1TB)을 사용하십시오. 또한 더 많은 스토리지를 제공합니다.
- VCN
-
VCN을 생성할 때 VCN의 서브넷에 연결하려는 리소스 수를 기반으로 필요한 CIDR 블록 수 및 각 블록의 크기를 확인하십시오. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.
-
전용 접속을 설정할 다른 네트워크(Oracle Cloud Infrastructure, 온프레미스 데이터 센터 또는 다른 클라우드 제공자)와 겹치지 않는 CIDR 블록을 선택합니다.
-
VCN을 생성한 후에는 해당 CIDR 블록을 변경, 추가 및 제거할 수 있습니다.
-
서브넷을 설계할 때는 기능과 보안 요구사항을 고려하십시오. 동일한 계층 또는 역할 내의 모든 컴퓨트 인스턴스를 동일한 서브넷에 연결합니다.
-
지역별 서브넷 사용.
-
- 보안 목록
보안 목록을 사용하여 전체 서브넷에 적용되는 수신 및 송신 규칙을 정의합니다. 예를 들어, 이 아키텍처는 전체 전용 서브넷에 대해 내부적으로 ICMP를 허용합니다.
고려 사항
이 참조 아키텍처를 배포할 때는 다음 사항을 고려하십시오.
- 성능
최상의 성능을 얻으려면 적절한 대역폭을 사용하여 올바른 컴퓨트 구성을 선택하십시오.
- 가용성
배치 요구사항 및 지역을 기반으로 고가용성 옵션을 사용하는 것이 좋습니다. 옵션에는 영역 및 장애 도메인에 여러 가용성 도메인 사용이 포함됩니다.
- 비용
베어메탈 GPU 인스턴스는 더 높은 비용으로 필요한 CPU 성능을 제공합니다. 요구사항을 평가하여 적합한 컴퓨트 구성을 선택합니다.
- 모니터링 및 알림
노드의 CPU 및 메모리 사용량에 대한 모니터링 및 경고를 설정하여 필요에 따라 구성을 확장하거나 축소할 수 있습니다.
배치
이 참조 아키텍처에 대한 Terraform 코드는 Oracle Cloud Marketplace에서 스택으로 제공됩니다.
- Oracle Cloud Marketplace로 이동합니다.
- 앱 가져오기를 누릅니다.
- 화면 프롬프트를 따릅니다.
