구조 정보

이 아키텍처에는 Google Cloud 및 OCI가 탑재된 멀티클라우드 솔루션이 포함됩니다. GKE는 전체 교육 및 추론 프로세스를 통합관리하고, 동시에 컴퓨팅 집약적인 부분을 온디맨드 OCI AI 인프라로 오프로드합니다. 두 클라우드 간에 데이터가 전송되고 추가 처리를 위해 결과가 GKE로 반환됩니다.

다음 다이어그램은 참조 아키텍처를 보여 줍니다.


다음은 gke-oci.png에 대한 설명입니다.
그림 gke-oci.png에 대한 설명

gke-oci-oracle.zip

구조 구성 요소

이 아키텍처에는 다음 구성요소가 포함됩니다.

  • GKE 클러스터(Google Kubernetes Engine)

    GKE 클러스터는 컨테이너화된 모델 학습 작업을 관리하고 Kubernetes 클러스터에 교육 작업을 제출합니다.

  • 모델 교육 작업 정의

    모델 학습 작업 정의는 학습 스크립트, 데이터 위치(클라우드 스토리지), 모델 매개변수 및 원하는 수의 워커 노드를 지정합니다.

  • 컨테이너화된 학습 스크립트

    컨테이너화된 교육 스크립트는 작업자 노드에서 실행되며 OCI AI 인프라에서 실행되는 모델을 사용하여 실제 모델 교육을 수행합니다.

  • Kubernetes Operator(선택사항)

    Kubernetes Operator는 GKE에서 교육 작업의 배치 및 관리를 자동화하는 선택적 매개변수입니다.

  • 클라우드 스토리지

    Cloud Storage는 학습 데이터 및 모델 아티팩트를 저장합니다.

  • 클라우드 모니터링(선택사항)

    클라우드 모니터링은 작업 상태, 리소스 활용도 및 교육 측정지표를 모니터링하는 선택적 구성요소입니다.

  • 모델 결과

    모델 결과는 평가, 저장 또는 배포를 위해 GKE로 다시 전송됩니다.

  • 가용성 도메인

    가용성 도메인은 한 지역 내의 독립형 독립 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 결함 허용을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인의 장애가 해당 영역의 다른 가용성 도메인에 영향을 미치지 않아야 합니다.

  • FastConnect

    Oracle Cloud Infrastructure FastConnect는 데이터 센터 및 Oracle Cloud Infrastructure 간 전용, 개인 연결을 생성할 수 있는 쉬운 방법을 제공합니다. FastConnect는 인터넷 기반 연결과 비교할 때 더 높은 대역폭 옵션과 더 안정적인 네트워킹 환경을 제공합니다.

  • 지역

    Oracle Cloud Infrastructure 리전은 가용성 도메인이라고 하는 데이터 센터가 하나 이상 포함된 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 먼 거리가 그들을 분리 할 수 있습니다 (국가 또는 대륙에 걸쳐).

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정한 맞춤형 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN을 통해 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN 생성 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있습니다. 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 서브넷 생성 후 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 계산

    Oracle Cloud Infrastructure Compute 서비스를 사용하면 클라우드에서 컴퓨트 호스트를 프로비전하고 관리할 수 있습니다. CPU, 메모리, 네트워크 대역폭 및 스토리지에 대한 리소스 요구사항을 충족하는 구성을 사용하여 컴퓨트 인스턴스를 실행할 수 있습니다. 컴퓨트 인스턴스를 생성한 후에는 해당 인스턴스에 안전하게 액세스하고, 재시작하고, 볼륨을 연결 및 분리하고, 더 이상 필요하지 않을 때 이를 종료할 수 있습니다.

  • Kubernetes용 컨테이너 엔진

    Oracle Cloud Infrastructure Container Engine for Kubernetes(OKE)는 확장 가능한 고가용성 전담 관리 서비스로, 컨테이너화된 애플리케이션을 클라우드에 배포하는 데 사용할 수 있습니다. 애플리케이션에 필요한 컴퓨트 리소스를 지정하면 Container Engine for Kubernetes가 기존 테넌시의 Oracle Cloud Infrastructure에서 프로비저닝합니다. Container Engine for Kubernetes는 Kubernetes를 사용하여 호스트 클러스터 전반에서 컨테이너화된 애플리케이션의 배포, 확장 및 관리를 자동화합니다.

  • Oracle Interconnect for Google Cloud

    Oracle Interconnect for Google Cloud는 OCI FastConnect 파트너 연결과 Google Cloud Partner Interconnects를 결합한 전용 프라이빗 상호 연결 서비스로, 멀티클라우드 고객이 2개의 클라우드에서 혁신을 이루고, 기존 및 친숙한 툴을 적용하여 워크로드를 지원할 수 있도록 지원합니다.

통신 흐름

이 아키텍처에서는 데이터 트래픽이 다음과 같이 흐릅니다.

  1. 고객은 GKE를 통해 모델 학습 작업 정의를 제출합니다.
  2. 작업 정의는 컨테이너화된 학습 스크립트, 데이터 위치 및 원하는 작업자 노드를 지정합니다.
  3. 작업자 노드는 Cloud Storage에서 학습 스크립트 및 데이터를 가져옵니다. 교육 스크립트는 OCI AI 인프라에서 실행되는 GPU를 활용하여 모델을 학습시킵니다.
  4. 교육 결과는 Cloud Storage에 업로드되거나 추가 처리를 위해 GKE로 다시 전송됩니다.
  5. 선택적 클라우드 모니터링은 성능 분석을 위해 교육 작업에서 측정항목을 수집합니다.

추가 추론 사용 사례

위에서 설명한 사용 사례 외에도 이 아키텍처는 두 가지 추론 사용 사례도 지원합니다.

  • 짧은 대기 시간 요구 사항으로 실시간 추론.
  • 큰 데이터 세트에 대한 뱃치 추론입니다.

짧은 대기 시간 요구 사항을 통한 실시간 추론

이 사용 사례에서 고객은 챗봇, 가상 도우미 또는 실시간 번역과 같은 애플리케이션에 대해 LLM 모델의 즉각적인 응답을 요구합니다. 이 솔루션은 다음과 같은 데이터 흐름을 설계합니다.

  1. 사용자 입력은 GCP에서 실행되는 GKE 환경으로 전송됩니다.
  2. GKE는 OCI AI 인프라스트럭처에 대한 요청을 통합관리합니다.
  3. OCI AI Infrastructure는 배포된 LLM 모델을 사용하여 입력을 처리합니다.
  4. 추론 결과가 GKE로 반환됩니다.
  5. GKE는 응답을 포맷하고 사용자에게 보냅니다.
이 솔루션의 이점은 세 가지입니다.
  • Oracle Interconnect for Google Cloud로 인해 짧은 대기 시간 추론을 제공하여 애플리케이션에 대한 추론 인프라의 근접성을 줄입니다.
  • OCI AI Infrastructure의 탄력적 기능을 통해 다양한 추론 로드를 처리할 수 있는 충분한 확장성을 제공합니다.
  • 추론 하드웨어 및 소프트웨어를 최적화하여 잠재적인 비용 절감을 제공합니다.

대형 데이터 세트에 대한 뱃치 추론

이 경우 고객은 대규모 데이터세트에 대한 감성 분석 또는 대규모 문서 조합에 대한 요약 생성과 같은 일괄 처리 모드로 LLM 모델을 통해 대량의 데이터를 처리해야 합니다. 이 데이터 플로우를 구현하여 이 사례를 해결할 수 있습니다.

  1. 데이터는 Google Cloud 스토리지 버킷에 준비되어 저장됩니다.
  2. 일괄 처리 작업은 GKE에서 시작되며 Cloud Scheduler 또는 Cloud Functions에 의해 트리거됩니다.
  3. GKE는 데이터 전송을 OCI AI 인프라로 조정합니다.
  4. OCI AI Infrastructure는 LLM 모델을 사용하여 데이터를 일괄 처리합니다.
  5. 추론 결과는 Google Cloud 스토리지 버킷에 저장됩니다.
  6. 필요한 경우 사후 처리가 GKE에서 수행됩니다.
이 솔루션의 이점은 세 가지입니다.
  • OCI AI Infrastructure의 컴퓨팅 성능을 활용하여 대규모 데이터세트를 비용 효율적으로 처리합니다.
  • GKE에서만 추론을 실행할 때보다 향상된 성능을 제공합니다.
  • 다양한 데이터 형식과 크기를 처리할 수 있습니다.