關於使用 Oracle Interconnect for Google Cloud 部署多雲端分散式 AI 工作負載
訓練大型語言模型 (LLM) 可能需要來自區域內多個雲端提供者的大量 GPU。此設計解決方案引進了在 Google Kubernetes Engine (GKE) 上執行 Oracle Interconnect for Google Cloud 的隨選 Oracle Cloud Infrastructure (OCI) AI 基礎架構,以執行 LLM 訓練和推論的多雲端方法。
OCI AI Cluster 為大型語言模型提供強大的訓練平台。這些模型能夠產生人類品質的文字、翻譯和程式碼,需要龐大的運算能力和大量資料。OCI AI Cluster 為必要的基礎架構提供高效能運算資源和最佳化網路,以加速 LLM 訓練。專用 AI 叢集是運算資源,可用來微調自訂模型,或為 OCI Generative AI 中預先訓練的基礎模型和自訂模型代管端點。叢集專供您的模型使用,不會與其他租用戶中的使用者共用。
關於生成式 AI 和 Google Kubernetes 引擎
此解決方案運用 Oracle Cloud 的 AI 基礎架構進行 GPU 加速模型訓練,同時使用熟悉的 Kubernetes 協調工具。
生成式 AI 是一項完全託管的 OCI 服務,提供一組最先進的可自訂 LLM,涵蓋各種使用案例,包括交談、文字產生、摘要及建立文字內嵌。您可以使用遊樂場試用立即可用的預先訓練模型,或根據專屬 AI 叢集上的自己資料建立和託管自己的微調自訂模型。
GKE 叢集是由稱為節點的控制層和工作機器所組成。控制層和節點構成了 Kubernetes 叢集協調系統。GKE Autopilot 可管理叢集的整個基礎基礎架構,包括控制層、節點及所有系統元件。如果您使用 GKE 標準模式,GKE 會管理控制層和系統元件,並管理節點。