Este diagrama ilustra una arquitectura para desplegar y ejecutar modelos de Hugging Face en TorchServe para inferencia. TorchServe se despliega en Oracle Cloud Infrastructure (OCI) mediante Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Un grupo de usuarios de Internet realiza solicitudes de inferencia. Las solicitudes introducen una VCN desplegada en una región de OCI a través de un gateway de Internet y se enrutan al equilibrio de carga de OCI desplegado en una subred pública.
Equilibrio de carga de OCI dirige el tráfico a un cluster de OKE desplegado en una subred privada. Este cluster consta de tres componentes principales: una CPU UI y Workers, una CPU Rabbit MQ y una máquina de GPU TorchServe.
Para desplegar modelos, Hugging Face proporciona archivos de modelo que se almacenan en OCI Object Storage u OCI File Storage. Estos servicios de almacenamiento luego suministran archivos de modelo a la máquina de GPU TorchServe.
El cluster accede a los servicios necesarios a través de un gateway de servicios de OCI.
Entre los servicios adicionales de OCI se incluyen: OCI Registry, OCI Logging, OCI Monitoring, políticas de OCI Identity and Access Management y OCI Vault.