Oracle Interconnect for Google Cloud를 사용하여 멀티클라우드 분산 AI 워크로드 배포 정보

LLM(Large Language Models) 학습에는 한 지역의 여러 클라우드 제공업체가 제공하는 대량의 GPU가 필요할 수 있습니다. 이 설계 솔루션은 Google Kubernetes Engine(GKE)에서 실행되는 애플리케이션 프론트 엔드와 함께 Oracle Interconnect for Google Cloud를 사용하여 필요에 따라 Oracle Cloud Infrastructure(OCI) AI 인프라에서 LLM 교육 및 추론을 실행하는 멀티클라우드 접근 방식을 도입했습니다.

OCI AI Cluster는 대규모 언어 모델 학습을 위한 강력한 플랫폼을 제공합니다. 인간 품질의 텍스트, 번역 및 코드를 생성할 수 있는 이 모델에는 엄청난 계산 능력과 방대한 양의 데이터가 필요합니다. OCI AI Cluster는 고성능 컴퓨팅 리소스 및 최적화된 네트워킹을 통해 필요한 인프라를 제공하여 LLM 교육을 가속화합니다. 전용 AI 클러스터는 커스텀 모델을 미세 조정하거나 OCI Generative AI의 사전 학습된 기본 모델 및 커스텀 모델을 위한 엔드포인트를 호스팅하는 데 사용할 수 있는 컴퓨트 리소스입니다. 클러스터는 모델 전용이며 다른 테넌시의 사용자와 공유되지 않습니다.

생성형 AI 및 Google Kubernetes Engine 정보

이 솔루션은 익숙한 Kubernetes 통합관리 툴을 사용하면서 GPU 가속 모델 교육을 위해 Oracle Cloud의 AI 인프라를 활용합니다.

생성형 AI는 채팅, 텍스트 생성, 요약, 텍스트 임베딩 생성 등 광범위한 사용 사례를 포괄하는 맞춤형 최신 LLM 세트를 제공하는 완전 관리형 OCI 서비스입니다. 놀이터를 사용하여 즉시 사용 가능한 사전 학습 모델을 시험해 보거나 전용 AI 클러스터의 자체 데이터를 기반으로 미세 조정된 맞춤형 모델을 생성 및 호스팅할 수 있습니다.

GKE 클러스터는 노드라는 제어 플레인 및 작업자 시스템으로 구성됩니다. 제어 플레인 및 노드는 Kubernetes 클러스터 통합관리 시스템을 구성합니다. GKE Autopilot은 제어 플레인, 노드 및 모든 시스템 구성 요소를 포함하여 클러스터의 전체 기본 기반구조를 관리합니다. GKE 표준 모드를 사용하는 경우 GKE는 제어 플레인 및 시스템 구성 요소를 관리하고 노드를 관리합니다.

이 아키텍처의 이점 정보

OCI AI Cluster for LLM 교육을 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

  • 확장성: 교육 요구에 맞게 컴퓨팅 리소스를 쉽게 조정할 수 있습니다.
  • 성능: 고성능 네트워킹 및 GPU 가속 컴퓨팅 인스턴스를 활용합니다.
  • 비용 효율성: 리소스 활용도를 최적화하고 사용한 만큼만 비용을 지불합니다.
  • 보안: Oracle의 강력한 보안 조치를 활용하여 민감한 데이터를 보호합니다.
  • 통합: 데이터 관리 및 모델 배포를 위해 다른 OCI 서비스와 원활하게 통합됩니다.

OCI AI 클러스터의 파워를 활용함으로써 조직은 정교한 LLM을 개발 및 배포하여 혁신과 비즈니스 가치를 창출할 수 있습니다.

OCI AI 클러스터의 LLM 교육과 관련된 단계 이해

OCI AI 클러스터에서 LLM 학습에 필요한 단계는 다음과 같습니다.

  1. AI 클러스터 환경을 설정합니다.
  2. 교육 데이터 준비 및 사전 처리
  3. LLM 구조를 선택하고 구성합니다.
  4. 교육 파이프라인 및 하이퍼파라미터 튜닝을 구현합니다.
  5. 모델 성능 및 미세 조정을 평가합니다.