關於架構
此架構涉及 Google Cloud 和 OCI 的多雲端解決方案,其中 GKE 會協調整體訓練和推論流程,同時視需要將運算密集部分卸載至 OCI AI 基礎架構。資料會在兩個雲端之間傳輸,結果會傳回 GKE 以供進一步處理。
下圖說明參考架構:
架構元件
此架構包含下列元件:
- GKE 叢集 (Google Kubernetes 引擎)
GKE 叢集可管理容器化模型訓練工作,並將訓練工作送出至 Kubernetes 叢集。
- 模型訓練工作定義
「模型訓練工作定義」指定訓練命令檔、資料位置 (雲端儲存)、模型參數以及想要的工作節點數目。
- 容器化訓練命令檔
「容器化訓練命令檔」會在工作節點上執行,使用在 OCI AI 基礎架構上執行的模型執行實際的模型訓練。
- Kubernetes Operator (選擇性)
Kubernetes Operator 是選擇性參數,可自動部署及管理 GKE 上的訓練工作。
- 雲端儲存體
Cloud Storage 會儲存訓練資料和模型使用者自建物件。
- 雲端監控 (選擇性)
雲端監控是監控工作狀態、資源使用率及訓練指標的選用元件。
- 模型結果
模型結果會傳回 GKE 進行評估、儲存或部署。
- 可用性網域
可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域的故障不應影響該區域中的其他可用性網域。
- FastConnect
Oracle Cloud Infrastructure FastConnect 提供一個在您的資料中心與 Oracle Cloud Infrastructure 之間建立專屬私人連線的簡便方式。與網際網路型連線相比,FastConnect 提供更高的頻寬選項和更可靠的網路體驗。
- 地區
Oracle Cloud Infrastructure 區域是一個本地化地理區域,其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域,而廣大的距離可以將其分開 (跨國家或大陸)。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路,此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
- 計算
Oracle Cloud Infrastructure Compute 服務可讓您在雲端中佈建與管理運算主機。您可以使用資源配置啟動運算執行處理,以滿足 CPU、記憶體、網路頻寬及儲存的資源需求。建立運算執行處理之後,您可以安全地存取、重新啟動、連附及取消連附磁碟區,以及在不再需要時將其終止。
- Kubernetes 容器引擎
Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) 是一項完全託管、可擴展且高可用性的服務,可用來將容器化應用系統部署到雲端。您可以指定應用程式所需的運算資源,而 Container Engine for Kubernetes 則在現有租用戶的 Oracle Cloud Infrastructure 上佈建這些資源。Container Engine for Kubernetes 使用 Kubernetes 將跨主機叢集的容器化應用程式部署、調整規模及管理自動化。
- Oracle Interconnect for Google Cloud
Oracle Interconnect for Google Cloud 是一項專用的私有互連服務,結合了 OCI FastConnect 合作夥伴連線和 Google Cloud Partner Interconnect,可協助多雲端客戶在兩個雲端進行創新,並套用現有和熟悉的工具來支援工作負載。
通訊流程
在此架構中,資料流量因此流向:
- 客戶透過 GKE 提交模型訓練工作定義。
- 工作定義會指定容器化的訓練命令檔、資料位置以及想要的工作節點。
- 工作節點會從雲端儲存提取訓練命令檔和資料。訓練命令檔會利用 OCI AI 基礎架構上執行的 GPU 來訓練模型。
- 訓練結果會上傳到雲端儲存,或傳回 GKE 以進行進一步的處理。
- 選擇性雲端監控會從訓練工作收集度量,以進行效能分析。
其他推論使用案例
除了上述使用案例之外,此架構還支援兩個推論使用案例:
- 具有低延遲需求的即時推論。
- 大型資料集的批次推論。
具有低延遲需求的即時推論
在此使用案例中,客戶需要立即回應聊天機器人、虛擬助理或即時翻譯等應用系統的 LLM 模型。解決方案會工程師下列資料流程:
- 使用者輸入會傳送至 GCP 上執行的 GKE 環境。
- GKE 會協調對 OCI AI 基礎架構的要求。
- OCI AI Infrastructure 使用部署的 LLM 模型處理輸入。
- 推論結果會傳回 GKE。
- GKE 格式並傳送回應給使用者。
- 它提供因 Oracle Interconnect for Google Cloud 而導致的低延遲推論,可降低對應用程式的推論基礎架構的鄰近程度。
- 它具有足夠的擴展性,可透過 OCI AI 基礎架構的彈性功能處理不同推論負載。
- 它透過最佳化推論硬體和軟體來節省潛在成本。
大型資料集的批次推論
在此情況下,客戶需要以批次模式透過 LLM 模型處理大量資料,例如大量資料集的情感分析或產生大型文件語料庫的摘要。您可以透過實行此資料流程來解決此情況:
- 資料會準備並儲存在 Google Cloud 儲存的儲存桶中。
- 批次工作是在 GKE 中啟動,由 Cloud Scheduler 或 Cloud Functions 觸發。
- GKE 協調將資料傳輸至 OCI AI 基礎架構。
- OCI AI Infrastructure 使用 LLM 模型分批處理資料。
- 推論結果儲存在 Google Cloud 儲存的儲存桶中。
- 視需要在 GKE 中執行後處理。
- 它運用 OCI AI 基礎架構的運算能力,提供符合成本效益的大型資料集處理。
- 與單獨在 GKE 上執行推論相比,它可提高效能。
- 它能夠處理各種資料格式和大小。