關於架構

此架構涉及 Google Cloud 和 OCI 的多雲端解決方案，其中 GKE 會協調整體訓練和推論流程，同時視需要將運算密集部分卸載至 OCI AI 基礎架構。資料會在兩個雲端之間傳輸，結果會傳回 GKE 以供進一步處理。

下圖說明參考架構：

gke-oci.png 的描述如下
gke-oci.png 圖解描述

gke-oci-oracle.zip

架構元件

此架構包含下列元件：

GKE 叢集 (Google Kubernetes 引擎)
GKE 叢集可管理容器化模型訓練工作，並將訓練工作送出至 Kubernetes 叢集。
模型訓練工作定義
「模型訓練工作定義」指定訓練命令檔、資料位置 (雲端儲存)、模型參數以及想要的工作節點數目。
容器化訓練命令檔
「容器化訓練命令檔」會在工作節點上執行，使用在 OCI AI 基礎架構上執行的模型執行實際的模型訓練。
Kubernetes Operator (選擇性)
Kubernetes Operator 是選擇性參數，可自動部署及管理 GKE 上的訓練工作。
雲端儲存體
Cloud Storage 會儲存訓練資料和模型使用者自建物件。
雲端監控 (選擇性)
雲端監控是監控工作狀態、資源使用率及訓練指標的選用元件。
模型結果
模型結果會傳回 GKE 進行評估、儲存或部署。
可用性網域
可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離，以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此，一個可用性網域的故障不應影響該區域中的其他可用性網域。
FastConnect
Oracle Cloud Infrastructure FastConnect 提供一個在您的資料中心與 Oracle Cloud Infrastructure 之間建立專屬私人連線的簡便方式。與網際網路型連線相比，FastConnect 提供更高的頻寬選項和更可靠的網路體驗。
地區
Oracle Cloud Infrastructure 區域是一個本地化地理區域，其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域，而廣大的距離可以將其分開 (跨國家或大陸)。
虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣，VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊，您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路，此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成，這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
計算
Oracle Cloud Infrastructure Compute 服務可讓您在雲端中佈建與管理運算主機。您可以使用資源配置啟動運算執行處理，以滿足 CPU、記憶體、網路頻寬及儲存的資源需求。建立運算執行處理之後，您可以安全地存取、重新啟動、連附及取消連附磁碟區，以及在不再需要時將其終止。
Kubernetes 容器引擎
Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE) 是一項完全託管、可擴展且高可用性的服務，可用來將容器化應用系統部署到雲端。您可以指定應用程式所需的運算資源，而 Container Engine for Kubernetes 則在現有租用戶的 Oracle Cloud Infrastructure 上佈建這些資源。Container Engine for Kubernetes 使用 Kubernetes 將跨主機叢集的容器化應用程式部署、調整規模及管理自動化。

Oracle Interconnect for Google Cloud
Oracle Interconnect for Google Cloud 是一項專用的私有互連服務，結合了 OCI FastConnect 合作夥伴連線和 Google Cloud Partner Interconnect，可協助多雲端客戶在兩個雲端進行創新，並套用現有和熟悉的工具來支援工作負載。

通訊流程

在此架構中，資料流量因此流向：

客戶透過 GKE 提交模型訓練工作定義。
工作定義會指定容器化的訓練命令檔、資料位置以及想要的工作節點。
工作節點會從雲端儲存提取訓練命令檔和資料。訓練命令檔會利用 OCI AI 基礎架構上執行的 GPU 來訓練模型。
訓練結果會上傳到雲端儲存，或傳回 GKE 以進行進一步的處理。
選擇性雲端監控會從訓練工作收集度量，以進行效能分析。

其他推論使用案例

除了上述使用案例之外，此架構還支援兩個推論使用案例：

具有低延遲需求的即時推論。
大型資料集的批次推論。

具有低延遲需求的即時推論

在此使用案例中，客戶需要立即回應聊天機器人、虛擬助理或即時翻譯等應用系統的 LLM 模型。解決方案會工程師下列資料流程：

使用者輸入會傳送至 GCP 上執行的 GKE 環境。
GKE 會協調對 OCI AI 基礎架構的要求。
OCI AI Infrastructure 使用部署的 LLM 模型處理輸入。
推論結果會傳回 GKE。
GKE 格式並傳送回應給使用者。

此解決方案的優點包括三倍：

它提供因 Oracle Interconnect for Google Cloud 而導致的低延遲推論，可降低對應用程式的推論基礎架構的鄰近程度。
它具有足夠的擴展性，可透過 OCI AI 基礎架構的彈性功能處理不同推論負載。
它透過最佳化推論硬體和軟體來節省潛在成本。

大型資料集的批次推論

在此情況下，客戶需要以批次模式透過 LLM 模型處理大量資料，例如大量資料集的情感分析或產生大型文件語料庫的摘要。您可以透過實行此資料流程來解決此情況：

資料會準備並儲存在 Google Cloud 儲存的儲存桶中。
批次工作是在 GKE 中啟動，由 Cloud Scheduler 或 Cloud Functions 觸發。
GKE 協調將資料傳輸至 OCI AI 基礎架構。
OCI AI Infrastructure 使用 LLM 模型分批處理資料。
推論結果儲存在 Google Cloud 儲存的儲存桶中。
視需要在 GKE 中執行後處理。

此解決方案的優點包括三倍：

它運用 OCI AI 基礎架構的運算能力，提供符合成本效益的大型資料集處理。
與單獨在 GKE 上執行推論相比，它可提高效能。
它能夠處理各種資料格式和大小。