Este diagrama ilustra uma arquitetura para implantar e executar modelos Hugging Face no TorchServe para inferência. O TorchServe é implantado na Oracle Cloud Infrastructure (OCI) usando o Oracle Cloud Infrastructure Kubernetes Engine (OKE).
- Um Grupo de Usuários da Internet faz solicitações de inferência. As solicitações informam uma VCN implantada em uma Região do OCI por meio de um gateway de Internet e são roteadas para o OCI Load Balancing implantado em uma sub-rede pública.
- O serviço OCI Load Balancing direciona o tráfego para um Cluster do OKE implantado em uma sub-rede privada. Este cluster consiste em três componentes principais: uma CPU UI e Workers, uma CPU Rabbit MQ e uma Máquina de GPU TorchServe.
- Para implantar modelos, o Hugging Face fornece Arquivos de Modelo que são armazenados no OCI Object Storage ou no OCI File Storage. Esses serviços de armazenamento fornecem arquivos de modelo para a Máquina de GPU TorchServe.
- O cluster acessa os serviços necessários por meio de um OCI Service Gateway.
- Os serviços adicionais da OCI incluem: OCI Registry, OCI Logging, OCI Monitoring, Políticas do OCI Identity and Access Management e OCI Vault.