部署適用於政府 AI 工作負載的高效能 GPU 運算

將 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 加入 Oracle Cloud Marketplace 可讓您快速輕鬆地為 OCI 上的生成式 AI 應用程式執行任何種類的大型模型訓練,包括用於由 NVIDIA NeMo Framework 最佳化的工作負載、用來建置、自訂及部署生成式 AI 的端對端雲端原生架構

DGX Cloud 的共用資源環境可能較不適合美國政府區域的客戶,因為這類客戶需要額外的安全性,才能控管自己的租用戶的所有資料和資源。我們還有您其他的解決方案。

Oracle 現在可以在我們的 Oracle US Government Cloud (FedRAMP High) 區域輕鬆部署裸機 NVIDIA GPU 系統的專用叢集。所有雲端資源和資料都留在您的雲端租用戶之下,可讓您完全控制軟體版本、管理存取、加密金鑰以及資源共用。

使用 NVIDIA A100 GPU 或 NVIDIA H100 GPU 的 Oracle GPU 叢集是透過從市集啟動 HPC 叢集堆疊進行部署。只要按幾下滑鼠和設定值,Terraform 和 Ansible 命令檔就會自動為具有超低延遲 RoCEv2 叢集網路 (以 NVIDIA 網路為基礎)、叢集網路驅動程式、工作排程 SLURM、分散式容器程式實際執行的 NVIDIA Pyxis 和 Enroot 的叢集環境部署硬體和軟體。自備大型語言模型和機器學習工作負載,或提取 NVIDIA PyTorch 和 NeMo 容器,以完全在您的安全租用戶內執行 NVIDIA AI Enterprise 相容的工作負載。

RoCEv2 叢集網路是專為高度要求的平行處理工作負載所設計,包括下列各項:
  • 大型語言模型
  • 人工視覺
  • 機器學習
  • 模擬

架構

此架構會部署執行排程器的堡壘主機或標頭節點,並可作為堡壘主機伺服器以存取叢集。

您可以根據處理需求,使用各種 NVIDIA GPU 實例類型來建立運算處理節點。建議您將運算處理節點置於安全的專用子網路中。您可以從 Oracle Cloud Marketplace 部署 NVIDIA GPU 運算叢集執行處理。

此架構是使用公用和專用虛擬雲端網路 (VCN) 部署。客戶網路只能透過 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公用網際網路存取前端節點和運算節點。

此架構使用的區域只有一個可用性網域和區域子網路。您可以在具有多個可用性網域的區域中使用相同的架構。建議您為部署使用區域子網路,不論可用性網域數目為何。您可以從 Oracle Cloud Marketplace 存取這些叢集網路,或手動部署這些叢集網路。無論是哪一種情況,我們都建議您使用基準參照架構,然後加以調整以符合您的特定需求。

下圖說明此參照架構。

nvidia-ai-gvt-hpc-oci.png 的描述如下
nvidia-ai-gvt-hpc-oci.png 圖解描述

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip - nvidia-ngc-ai-gvt-hpc 關聯

此架構具有下列元件:

  • 地區

    Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關,且遠距離可加以區分 (跨國家,甚至是大陸)。

  • 可用性網域

    可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,提供容錯能力。可用性網域不共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域發生故障不應影響區域中的其他可用性網域。

  • 容錯域

    容錯網域是可用性網域內的一組硬體和基礎設施。每個可用性網域都有三個容錯域,分別具備獨立的電源和硬體。當您將資源分配給多個容錯域時,您的應用程式可以容忍容錯域內的實體伺服器失敗、系統維護,以及電源失敗。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。就像傳統的資料中心網路一樣,VCN 也可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後加以變更。您可以將 VCN 分割成子網路,子網路可以限定為區域或可用性網域。每個子網路都是由不與 VCN 中其他子網路重疊的連續位址範圍所組成。您可以在建立子網路後變更其大小。子網路可以是公用或專用。

  • 堡壘主機

    堡壘主機是運算執行處理,可作為安全、受控制的進入點,可從雲端外部拓樸。堡壘主機通常在解密區域 (DMZ) 中佈建。它可讓您將機密資源放在無法直接從雲端存取的專用網路中,以保護機密資源。拓樸具有單一的已知進入點,您可以定期監督和稽核。因此,您可以避免讓拓樸的敏感元件暴露,而不影響拓樸的存取。

  • 計算節點

    選取您在此叢集中使用的裸機 GPU 資源配置。例如,選取由 4 個 NVIDIA A100 Tensor Core GPU 提供的 BM.GPU4.8 (如上例所示),或選取由 8 個 NVIDIA H100 Tensor Core GPU 提供的 BM.GPU.H100.8 (使用 NVIDIA Transformer Engine 提供的 8 個 NVIDIA H100 Tensor Core GPU),即可享有 FP8 效能優勢。

  • 協調節點 (Orchestration node)

    協調流程節點會執行叢集節點管理、佈建、取消佈建及部署軟體組態,以及管理運算工作流程和工作協調流程。

  • 安全清單

    您可以為每個子網路建立安全規則,指定子網路中必須允許進出的流量來源、目的地和類型。

建議

使用下列建議作為在 Oracle Cloud Infrastructure 上部署高效能運算 (HPC) 的起點,並視需要量身打造以符合您的特定需求。
  • VCN

    建立 VCN 時,請根據計畫要連附至 VCN 中子網路的資源數目,決定所需的 CIDR 區塊數目和每個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。

    選取未與任何其他網路 (在 Oracle Cloud Infrastructure 中、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊,以設定專用連線。

    建立 VCN 之後,您可以變更、新增及移除其 CIDR 區塊。

    設計子網路時,請考慮流量和安全性需求。將特定層或角色內的所有資源連附至相同的子網路,以作為安全界限。

    使用區域子網路。

  • 安全清單

    使用安全清單定義適用於整個子網路的傳入和傳出規則。

  • 堡壘主機節點

    Use the VM.Standard.E5.Flex Compute shape.由於節點是用來作為堡壘主機並排定 HPC 工作,因此不需要本機連附儲存體或 GPU 處理。

  • GPU 運算叢集節點

    使用 BM.GPU.A100.-v2.8 運算資源配置,因為此節點用於 GPU 運算工作流程和需要大量運算的工作。

注意事項

Oracle Cloud Infrastructure 上部署高效能運算 (HPC) 時,請考慮這些導入選項。

  • 效能

    若要獲得最佳效能,請選擇具有適當頻寬的正確運算資源配置。

  • 使用狀態

    請考慮根據您的部署需求和區域使用高可用性選項。選項包括在一個區域和容錯域中使用多個可用性網域。

  • 成本

    裸機 GPU 執行處理可提供更高成本的必要 CPU 電源。評估您的需求以選擇適當的運算資源配置。

  • 監督和警示

    設定節點的 CPU 和記憶體使用量監控和警示,以便視需要縱向擴展或縮減資源配置。

部署

部署此參考架構的 Terraform 堆疊可做為 Oracle Cloud Marketplace 中的堆疊提供。您也可以從 GitHub 下載程式碼,並根據需求加以自訂。

認可

  • 作者Kevin Colwell
  • 貢獻者Neil Pierson, George Boateng, Travis Lee, Michael Rutledge