Dieses Diagramm veranschaulicht eine Architektur zum Bereitstellen und Ausführen von Hugging Face-Modellen auf TorchServe zur Inferenz. TorchServe wird mit Oracle Cloud Infrastructure Kubernetes Engine (OKE) auf Oracle Cloud Infrastructure (OCI) bereitgestellt.

Eine Benutzergruppe aus dem Internet stellt Inferenzanfragen. Die Anforderungen treten in ein in einer OCI-Region über ein Internetgateway bereitgestelltes VCN ein und werden an OCI Load Balancing weitergeleitet, das in einem öffentlichen Subnetz bereitgestellt ist.
OCI Load Balancing leitet Traffic an ein OKE-Cluster weiter, das in einem privaten Subnetz bereitgestellt ist. Dieses Cluster besteht aus drei Hauptkomponenten: einer UI und Worker CPU, einer Rabbit MQ CPU und einem TorchServe GPU Machine.
Um Modelle bereitzustellen, stellt Hugging Face Modelldateien bereit, die entweder in OCI Object Storage oder OCI File Storage gespeichert sind. Diese Speicherservices stellen dann Modelldateien für den GPU-Rechner TorchServe bereit.
Das Cluster greift über ein OCI Service Gateway auf die erforderlichen Services zu.
Weitere OCI-Services umfassen: OCI Registry, OCI Logging, OCI Monitoring, OCI Identity and Access Management-Policys und OCI Vault.