下图说明了用于在 TorchServe 上部署和运行 Hugging Face 模型以进行推断的体系结构。TorchServe 使用 Oracle Cloud Infrastructure Kubernetes Engine (OKE) 部署在 Oracle Cloud Infrastructure (OCI) 上。
- 来自 Internet 的用户组发出推断请求。这些请求通过 Internet 网关输入部署在 OCI 区域中的 VCN,并路由到部署在公共子网中的 OCI 负载平衡。
- OCI Load Balancing 将流量定向到在专用子网中部署的 OKE 集群。此集群由三个主要组件组成:UI 和 Workers CPU、Rabbit MQ CPU 和 TorchServe GPU 计算机。
- 为了部署模型,Hugging Face 提供了存储在 OCI Object Storage 或 OCI File Storage 中的模型文件。然后,这些存储服务向 TorchServe GPU 计算机提供模型文件。
- 集群通过 OCI 服务网关访问必要的服务。
- 其他 OCI 服务包括: OCI 注册表、 OCI 日志、 OCI 监视、 OCI 身份和访问管理策略以及 OCI Vault 。