Este diagrama ilustra una arquitectura para desplegar y ejecutar modelos de Hugging Face en TorchServe para inferencia. TorchServe se despliega en Oracle Cloud Infrastructure (OCI) mediante Oracle Cloud Infrastructure Kubernetes Engine (OKE).
- Un grupo de usuarios de Internet realiza solicitudes de inferencia. Las solicitudes introducen una VCN desplegada en una región de OCI a través de un gateway de Internet y se enrutan al equilibrio de carga de OCI desplegado en una subred pública.
- Equilibrio de carga de OCI dirige el tráfico a un cluster de OKE desplegado en una subred privada. Este cluster consta de tres componentes principales: una CPU UI y Workers, una CPU Rabbit MQ y una máquina de GPU TorchServe.
- Para desplegar modelos, Hugging Face proporciona archivos de modelo que se almacenan en OCI Object Storage u OCI File Storage. Estos servicios de almacenamiento luego suministran archivos de modelo a la máquina de GPU TorchServe.
- El cluster accede a los servicios necesarios a través de un gateway de servicios de OCI.
- Entre los servicios adicionales de OCI se incluyen: OCI Registry, OCI Logging, OCI Monitoring, políticas de OCI Identity and Access Management y OCI Vault.