이 다이어그램은 추론을 위해 TorchServe에서 Hugging Face 모델을 배포하고 실행하기 위한 아키텍처를 보여줍니다. TorchServe는 Oracle Cloud Infrastructure Kubernetes Engine(OKE)을 사용하여 Oracle Cloud Infrastructure(OCI)에 배포됩니다.
- 인터넷의 사용자 그룹이 추론 요청을 수행합니다. 요청은 인터넷 게이트웨이를 통해 OCI 리전에 배포된 VCN에 들어가서 퍼블릭 서브넷에 배포된 OCI 로드 밸런싱으로 라우팅됩니다.
- OCI 로드 밸런싱은 트래픽을 전용 서브넷에 배포된 OKE 클러스터로 전달합니다. 이 클러스터는 UI 및 Worker CPU, Rabbit MQ CPU 및 TorchServe GPU 머신의 세 가지 주요 구성요소로 구성됩니다.
- 모델을 배포하기 위해 Hugging Face는 OCI 오브젝트 스토리지 또는 OCI 파일 스토리지에 저장된 모델 파일을 제공합니다. 그런 다음 이러한 스토리지 서비스는 TorchServe GPU 시스템에 모델 파일을 제공합니다.
- 클러스터는 OCI 서비스 게이트웨이를 통해 필요한 서비스에 액세스합니다.
- 추가 OCI 서비스로는 OCI 레지스트리, OCI 로깅, OCI 모니터링, OCI ID 및 액세스 관리 정책, OCI Vault 등이 있습니다.