Este diagrama ilustra uma arquitetura para implantar e executar modelos Hugging Face no TorchServe para inferência. O TorchServe é implantado na Oracle Cloud Infrastructure (OCI) usando o Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Um Grupo de Usuários da Internet faz solicitações de inferência. As solicitações informam uma VCN implantada em uma Região do OCI por meio de um gateway de Internet e são roteadas para o OCI Load Balancing implantado em uma sub-rede pública.
O serviço OCI Load Balancing direciona o tráfego para um Cluster do OKE implantado em uma sub-rede privada. Este cluster consiste em três componentes principais: uma CPU UI e Workers, uma CPU Rabbit MQ e uma Máquina de GPU TorchServe.
Para implantar modelos, o Hugging Face fornece Arquivos de Modelo que são armazenados no OCI Object Storage ou no OCI File Storage. Esses serviços de armazenamento fornecem arquivos de modelo para a Máquina de GPU TorchServe.
O cluster acessa os serviços necessários por meio de um OCI Service Gateway.
Os serviços adicionais da OCI incluem: OCI Registry, OCI Logging, OCI Monitoring, Políticas do OCI Identity and Access Management e OCI Vault.