Ce diagramme illustre une architecture pour déployer et exécuter des modèles Hugging Face sur TorchServe à des fins d'inférence. TorchServe est déployé sur Oracle Cloud Infrastructure (OCI) à l'aide d'Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Un groupe d'utilisateurs d'Internet effectue des demandes d'inférence. Les demandes entrent un VCN déployé dans une région OCI au moyen d'une passerelle Internet et sont acheminées vers le service Équilibrage de charge OCI déployé dans un sous-réseau public.
Le service Équilibrage de charge pour OCI dirige le trafic vers une grappe OKE déployée dans un sous-réseau privé. Cette grappe se compose de trois composants principaux : une interface utilisateur et une unité centrale de traitement Workers, une unité centrale Rabbit MQ et une machine GPU TorchServe.
Pour déployer des modèles, Hugging Face fournit des fichiers de modèle qui sont stockés dans le stockage d'objets OCI ou le stockage de fichiers OCI. Ces services de stockage fournissent ensuite des fichiers de modèle à la machine GPU TorchServe.
La grappe accède aux services nécessaires au moyen d'une passerelle de service OCI.
Les services OCI supplémentaires sont les suivants : Registre OCI, Journalisation OCI, Surveillance OCI, politiques du service Gestion des identités et des accès OCI et Chambre forte OCI.