Ce diagramme illustre une architecture permettant de déployer et d'exécuter des modèles Hugging Face sur TorchServe pour l'inférence. TorchServe est déployé sur Oracle Cloud Infrastructure (OCI) à l'aide d'Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Un groupe d'utilisateurs d'Internet effectue des demandes d'inférence. Les demandes entrent dans un VCN déployé dans une région OCI via une passerelle Internet et sont acheminées vers l'équilibrage de charge OCI déployé dans un sous-réseau public.
L'équilibrage de charge OCI dirige le trafic vers un cluster OKE déployé dans un sous-réseau privé. Ce cluster se compose de trois composants principaux : une interface utilisateur et une CPU Workers, une CPU Rabbit MQ et une machine GPU TorchServe.
Pour déployer des modèles, Hugging Face fournit des fichiers de modèle stockés dans OCI Object Storage ou OCI File Storage. Ces services de stockage fournissent ensuite des fichiers de modèle à la machine GPU TorchServe.
Le cluster accède aux services nécessaires via une passerelle de service OCI.
Les services OCI supplémentaires sont les suivants : stratégies OCI Registry, OCI Logging, OCI Monitoring, OCI Identity and Access Management et OCI Vault.