이 다이어그램은 추론을 위해 TorchServe에서 Hugging Face 모델을 배포하고 실행하기 위한 아키텍처를 보여줍니다. TorchServe는 Oracle Cloud Infrastructure Kubernetes Engine(OKE)을 사용하여 Oracle Cloud Infrastructure(OCI)에 배포됩니다.

인터넷의 사용자 그룹이 추론 요청을 수행합니다. 요청은 인터넷 게이트웨이를 통해 OCI 리전에 배포된 VCN에 들어가서 퍼블릭 서브넷에 배포된 OCI 로드 밸런싱으로 라우팅됩니다.
OCI 로드 밸런싱은 트래픽을 전용 서브넷에 배포된 OKE 클러스터로 전달합니다. 이 클러스터는 UI 및 Worker CPU, Rabbit MQ CPU 및 TorchServe GPU 머신의 세 가지 주요 구성요소로 구성됩니다.
모델을 배포하기 위해 Hugging Face는 OCI 오브젝트 스토리지 또는 OCI 파일 스토리지에 저장된 모델 파일을 제공합니다. 그런 다음 이러한 스토리지 서비스는 TorchServe GPU 시스템에 모델 파일을 제공합니다.
클러스터는 OCI 서비스 게이트웨이를 통해 필요한 서비스에 액세스합니다.
추가 OCI 서비스로는 OCI 레지스트리, OCI 로깅, OCI 모니터링, OCI ID 및 액세스 관리 정책, OCI Vault 등이 있습니다.