Questo diagramma illustra un'architettura per la distribuzione e l'esecuzione di modelli Hugging Face su TorchServe per l'inferenza. TorchServe viene distribuito su Oracle Cloud Infrastructure (OCI) utilizzando Oracle Cloud Infrastructure Kubernetes Engine (OKE).
- Un gruppo di utenti da Internet effettua richieste di inferenza. Le richieste immettono una VCN distribuita in un'area OCI tramite un gateway Internet e vengono instradate al bilanciamento del carico OCI distribuito in una subnet pubblica.
- Il bilanciamento del carico OCI indirizza il traffico a un cluster OKE distribuito in una subnet privata. Questo cluster è composto da tre componenti principali: un'interfaccia utente e una CPU Workers, una CPU Rabbit MQ e una GPU Machine TorchServe.
- Per distribuire i modelli, Hugging Face fornisce i file modello memorizzati in Storage degli oggetti OCI o Storage di file OCI. Questi servizi di storage forniscono quindi i file del modello al computer GPU TorchServe.
- Il cluster accede ai servizi necessari tramite un Gateway del servizio OCI.
- Ulteriori servizi OCI includono: criteri OCI Registry, OCI Logging, OCI Monitoring, OCI Identity and Access Management e OCI Vault.