この図は、推論のためにTorchServeでHugging Faceモデルをデプロイおよび実行するためのアーキテクチャを示しています。TorchServeは、Oracle Cloud Infrastructure Kubernetes Engine (OKE)を使用してOracle Cloud Infrastructure (OCI)にデプロイされます。

インターネットのユーザー・グループが推論要求を行います。リクエストは、インターネット・ゲートウェイを介してOCIリージョンにデプロイされたVCNに入り、パブリック・サブネットにデプロイされたOCIロード・バランシングにルーティングされます。
OCIロード・バランシングは、プライベート・サブネットにデプロイされたOKEクラスタにトラフィックを転送します。このクラスタは、UIとワーカーCPU、ラビットMQ CPUおよびTorchServe GPUマシンの3つの主要コンポーネントで構成されます。
モデルをデプロイするために、Hugging Faceには、OCIオブジェクト・ストレージまたはOCIファイル・ストレージに格納されているモデル・ファイルが用意されています。これらのストレージ・サービスは、モデル・ファイルをTorchServe GPUマシンに提供します。
クラスタは、OCIサービス・ゲートウェイを介して必要なサービスにアクセスします。
追加のOCIサービスには、OCIレジストリ、OCIロギング、OCIモニタリング、OCI Identity and Access ManagementポリシーおよびOCI Vaultが含まれます。