關於架構

此架構涉及 Google Cloud 和 OCI 的多雲端解決方案,其中 GKE 會協調整體訓練和推論流程,同時視需要將運算密集部分卸載至 OCI AI 基礎架構。資料會在兩個雲端之間傳輸,結果會傳回 GKE 以供進一步處理。

下圖說明參考架構:


gke-oci.png 的描述如下
gke-oci.png 圖解描述

gke-oci-oracle.zip

架構元件

此架構包含下列元件:

  • GKE 叢集 (Google Kubernetes 引擎)

    GKE 叢集可管理容器化模型訓練工作,並將訓練工作送出至 Kubernetes 叢集。

  • 模型訓練工作定義

    「模型訓練工作定義」指定訓練命令檔、資料位置 (雲端儲存)、模型參數以及想要的工作節點數目。

  • 容器化訓練命令檔

    「容器化訓練命令檔」會在工作節點上執行,使用在 OCI AI 基礎架構上執行的模型執行實際的模型訓練。

  • Kubernetes Operator (選擇性)

    Kubernetes Operator 是選擇性參數,可自動部署及管理 GKE 上的訓練工作。

  • 雲端儲存體

    Cloud Storage 會儲存訓練資料和模型使用者自建物件。

  • 雲端監控 (選擇性)

    雲端監控是監控工作狀態、資源使用率及訓練指標的選用元件。

  • 模型結果

    模型結果會傳回 GKE 進行評估、儲存或部署。

  • 可用性網域

    可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域的故障不應影響該區域中的其他可用性網域。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 提供一個在您的資料中心與 Oracle Cloud Infrastructure 之間建立專屬私人連線的簡便方式。與網際網路型連線相比,FastConnect 提供更高的頻寬選項和更可靠的網路體驗。

  • 地區

    Oracle Cloud Infrastructure 區域是一個本地化地理區域,其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域,而廣大的距離可以將其分開 (跨國家或大陸)。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路,此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。

  • 計算

    Oracle Cloud Infrastructure Compute 服務可讓您在雲端中佈建與管理運算主機。您可以使用資源配置啟動運算執行處理,以滿足 CPU、記憶體、網路頻寬及儲存的資源需求。建立運算執行處理之後,您可以安全地存取、重新啟動、連附及取消連附磁碟區,以及在不再需要時將其終止。

  • Kubernetes 容器引擎

    Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) 是一項完全託管、可擴展且高可用性的服務,可用來將容器化應用系統部署到雲端。您可以指定應用程式所需的運算資源,而 Container Engine for Kubernetes 則在現有租用戶的 Oracle Cloud Infrastructure 上佈建這些資源。Container Engine for Kubernetes 使用 Kubernetes 將跨主機叢集的容器化應用程式部署、調整規模及管理自動化。

  • Oracle Interconnect for Google Cloud

    Oracle Interconnect for Google Cloud 是一項專用的私有互連服務,結合了 OCI FastConnect 合作夥伴連線和 Google Cloud Partner Interconnect,可協助多雲端客戶在兩個雲端進行創新,並套用現有和熟悉的工具來支援工作負載。

通訊流程

在此架構中,資料流量因此流向:

  1. 客戶透過 GKE 提交模型訓練工作定義。
  2. 工作定義會指定容器化的訓練命令檔、資料位置以及想要的工作節點。
  3. 工作節點會從雲端儲存提取訓練命令檔和資料。訓練命令檔會利用 OCI AI 基礎架構上執行的 GPU 來訓練模型。
  4. 訓練結果會上傳到雲端儲存,或傳回 GKE 以進行進一步的處理。
  5. 選擇性雲端監控會從訓練工作收集度量,以進行效能分析。

其他推論使用案例

除了上述使用案例之外,此架構還支援兩個推論使用案例:

  • 具有低延遲需求的即時推論。
  • 大型資料集的批次推論。

具有低延遲需求的即時推論

在此使用案例中,客戶需要立即回應聊天機器人、虛擬助理或即時翻譯等應用系統的 LLM 模型。解決方案會工程師下列資料流程:

  1. 使用者輸入會傳送至 GCP 上執行的 GKE 環境。
  2. GKE 會協調對 OCI AI 基礎架構的要求。
  3. OCI AI Infrastructure 使用部署的 LLM 模型處理輸入。
  4. 推論結果會傳回 GKE。
  5. GKE 格式並傳送回應給使用者。
此解決方案的優點包括三倍:
  • 它提供因 Oracle Interconnect for Google Cloud 而導致的低延遲推論,可降低對應用程式的推論基礎架構的鄰近程度。
  • 它具有足夠的擴展性,可透過 OCI AI 基礎架構的彈性功能處理不同推論負載。
  • 它透過最佳化推論硬體和軟體來節省潛在成本。

大型資料集的批次推論

在此情況下,客戶需要以批次模式透過 LLM 模型處理大量資料,例如大量資料集的情感分析或產生大型文件語料庫的摘要。您可以透過實行此資料流程來解決此情況:

  1. 資料會準備並儲存在 Google Cloud 儲存的儲存桶中。
  2. 批次工作是在 GKE 中啟動,由 Cloud Scheduler 或 Cloud Functions 觸發。
  3. GKE 協調將資料傳輸至 OCI AI 基礎架構。
  4. OCI AI Infrastructure 使用 LLM 模型分批處理資料。
  5. 推論結果儲存在 Google Cloud 儲存的儲存桶中。
  6. 視需要在 GKE 中執行後處理。
此解決方案的優點包括三倍:
  • 它運用 OCI AI 基礎架構的運算能力,提供符合成本效益的大型資料集處理。
  • 與單獨在 GKE 上執行推論相比,它可提高效能。
  • 它能夠處理各種資料格式和大小。