Dieses Diagramm veranschaulicht eine Architektur zum Bereitstellen und Ausführen von Hugging Face-Modellen auf TorchServe zur Inferenz. TorchServe wird mit Oracle Cloud Infrastructure Kubernetes Engine (OKE) auf Oracle Cloud Infrastructure (OCI) bereitgestellt.
- Eine Benutzergruppe aus dem Internet stellt Inferenzanfragen. Die Anforderungen treten in ein in einer OCI-Region über ein Internetgateway bereitgestelltes VCN ein und werden an OCI Load Balancing weitergeleitet, das in einem öffentlichen Subnetz bereitgestellt ist.
- OCI Load Balancing leitet Traffic an ein OKE-Cluster weiter, das in einem privaten Subnetz bereitgestellt ist. Dieses Cluster besteht aus drei Hauptkomponenten: einer UI und Worker CPU, einer Rabbit MQ CPU und einem TorchServe GPU Machine.
- Um Modelle bereitzustellen, stellt Hugging Face Modelldateien bereit, die entweder in OCI Object Storage oder OCI File Storage gespeichert sind. Diese Speicherservices stellen dann Modelldateien für den GPU-Rechner TorchServe bereit.
- Das Cluster greift über ein OCI Service Gateway auf die erforderlichen Services zu.
- Weitere OCI-Services umfassen: OCI Registry, OCI Logging, OCI Monitoring, OCI Identity and Access Management-Policys und OCI Vault.