Questo diagramma illustra un'architettura per la distribuzione e l'esecuzione di modelli Hugging Face su TorchServe per l'inferenza. TorchServe viene distribuito su Oracle Cloud Infrastructure (OCI) utilizzando Oracle Cloud Infrastructure Kubernetes Engine (OKE).

Un gruppo di utenti da Internet effettua richieste di inferenza. Le richieste immettono una VCN distribuita in un'area OCI tramite un gateway Internet e vengono instradate al bilanciamento del carico OCI distribuito in una subnet pubblica.
Il bilanciamento del carico OCI indirizza il traffico a un cluster OKE distribuito in una subnet privata. Questo cluster è composto da tre componenti principali: un'interfaccia utente e una CPU Workers, una CPU Rabbit MQ e una GPU Machine TorchServe.
Per distribuire i modelli, Hugging Face fornisce i file modello memorizzati in Storage degli oggetti OCI o Storage di file OCI. Questi servizi di storage forniscono quindi i file del modello al computer GPU TorchServe.
Il cluster accede ai servizi necessari tramite un Gateway del servizio OCI.
Ulteriori servizi OCI includono: criteri OCI Registry, OCI Logging, OCI Monitoring, OCI Identity and Access Management e OCI Vault.