關於使用 Oracle Interconnect for Google Cloud 部署多雲端分散式 AI 工作負載

訓練大型語言模型 (LLM) 可能需要來自區域內多個雲端提供者的大量 GPU。此設計解決方案引進了在 Google Kubernetes Engine (GKE) 上執行 Oracle Interconnect for Google Cloud 的隨選 Oracle Cloud Infrastructure (OCI) AI 基礎架構,以執行 LLM 訓練和推論的多雲端方法。

OCI AI Cluster 為大型語言模型提供強大的訓練平台。這些模型能夠產生人類品質的文字、翻譯和程式碼,需要龐大的運算能力和大量資料。OCI AI Cluster 為必要的基礎架構提供高效能運算資源和最佳化網路,以加速 LLM 訓練。專用 AI 叢集是運算資源,可用來微調自訂模型,或為 OCI Generative AI 中預先訓練的基礎模型和自訂模型代管端點。叢集專供您的模型使用,不會與其他租用戶中的使用者共用。

關於生成式 AI 和 Google Kubernetes 引擎

此解決方案運用 Oracle Cloud 的 AI 基礎架構進行 GPU 加速模型訓練,同時使用熟悉的 Kubernetes 協調工具。

生成式 AI 是一項完全託管的 OCI 服務,提供一組最先進的可自訂 LLM,涵蓋各種使用案例,包括交談、文字產生、摘要及建立文字內嵌。您可以使用遊樂場試用立即可用的預先訓練模型,或根據專屬 AI 叢集上的自己資料建立和託管自己的微調自訂模型。

GKE 叢集是由稱為節點的控制層和工作機器所組成。控制層和節點構成了 Kubernetes 叢集協調系統。GKE Autopilot 可管理叢集的整個基礎基礎架構,包括控制層、節點及所有系統元件。如果您使用 GKE 標準模式,GKE 會管理控制層和系統元件,並管理節點。

關於此架構的優點

使用 OCI AI Cluster for LLM 訓練的主要優點包括:

  • 擴展性:輕鬆調整運算資源以符合訓練需求。
  • 效能:運用高效能網路和 GPU 加速運算執行處理。
  • 成本效益:最佳化資源使用率,且只需依據使用量付費。
  • 安全性:利用 Oracle 強大的安全措施來保護機密資料。
  • 整合:與其他 OCI 服務緊密整合,以進行資料管理和模型部署。

透過利用 OCI AI Cluster 的強大功能,組織可以開發和部署複雜的 LLM,以推動創新和商業價值。

瞭解在 OCI AI 叢集上訓練 LLM 所涉及的步驟

在 OCI AI 叢集上訓練 LLM 所需的步驟如下:

  1. 設定 AI 叢集環境。
  2. 準備並預先處理訓練資料。
  3. 選取並設定 LLM 架構。
  4. 導入訓練管道和超參數調整。
  5. 評估模型效能與微調。