此圖說明在 TorchServe 上部署和執行 Hugging Face 模型以進行推論的架構。TorchServe 是使用 Oracle Cloud Infrastructure Kubernetes Engine (OKE) 在 Oracle Cloud Infrastructure (OCI) 上部署的。

網際網路的使用者群組會提出推論要求。要求會透過網際網路閘道輸入在 OCI 區域中部署的 VCN，然後遞送至公用子網路中部署的 OCI 負載平衡。
OCI Load Balancing 會將流量導向部署在專用子網路中的 OKE 叢集。此叢集由三個主要元件組成：UI 和 Workers CPU、Rabbit MQ CPU 和 TorchServe GPU 機器。
為了部署模型，Hugging Face 提供儲存在 OCI 物件儲存或 OCI 檔案儲存中的模型檔案。這些儲存體服務接著會提供模型檔案給 TorchServe GPU 機器。
叢集會透過 OCI 服務閘道存取必要的服務。
其他 OCI 服務包括： OCI Registry 、 OCI Logging 、 OCI Monitoring 、 OCI Identity and Access Management 原則及 OCI Vault 。