設定 HPC 叢集堆疊,在 OCI 政府區域部署 NVIDIA AI

在 Oracle US Government Cloud (FedRAMP High) 中設定及部署裸機 NVIDIA GPU 系統的專用叢集。所有雲端資源和資料都保留在您的雲端租用戶中,可讓您完全控制軟體版本、管理存取、加密金鑰以及資源共用。

HPC 叢集堆疊使用 Terraform 部署 Oracle Cloud Infrastructure (OCI) 資源。此堆疊會建立 GPU 節點、儲存體、標準網路和高效能叢集網路,以及用於存取和管理叢集的堡壘主機 / 前端節點。

Before You Begin - 開始之前

深入瞭解如何在 Oracle Cloud Infrastructure Government Cloud 上部署 NVIDIA Enterprise。請參閱為政府 AI 工作負載部署高效能 GPU 運算

架構

此架構會部署執行排程器的堡壘主機或標頭節點,並可作為堡壘主機伺服器以存取叢集。

您可以根據處理需求,使用各種 NVIDIA GPU 實例類型來建立運算處理節點。建議您將運算處理節點置於安全的專用子網路中。您可以從 Oracle Cloud Marketplace 部署 NVIDIA GPU 運算叢集執行處理。

此架構是使用公用和專用虛擬雲端網路 (VCN) 部署。客戶網路只能透過 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公用網際網路存取節點和運算節點。

此架構使用的區域只有一個可用性網域和區域子網路。您可以在具有多個可用性網域的區域中使用相同的架構。建議您為部署使用區域子網路,不論可用性網域數目為何。您可以從 Oracle Cloud Marketplace 存取這些叢集網路,或手動部署這些叢集網路。無論是哪一種情況,我們都建議您使用基準參照架構,然後加以調整以符合您的特定需求。

下圖說明此參照架構。

nvidia-ai-gvt-hpc-oci.png 的說明如下
nvidia-ai-gvt-hpc-oci.png 圖解描述

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip - nvidia-ngc-ai-gvt-h

此架構具有下列元件:

  • 地區

    Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關,且遠距離可加以區分 (跨國家,甚至是大陸)。

  • 可用性網域

    可用性網域是區域內獨立的資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,提供容錯能力。可用性網域不共用基礎設施 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域發生故障不應影響區域中的其他可用性網域。

  • 容錯域

    故障領域是可用性領域內的一組硬體和基礎設施。每個可用性網域都有三個容錯域,分別具備獨立的電源和硬體。當您將資源分配給多個容錯域時,您的應用程式可以容忍容錯域內的實體伺服器失敗、系統維護,以及電源失敗。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。就像傳統的資料中心網路一樣,VCN 也可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後加以變更。您可以將 VCN 分割成子網路,子網路可以限定為區域或可用性網域。每個子網路都是由不與 VCN 中其他子網路重疊的連續位址範圍所組成。您可以在建立子網路後變更其大小。子網路可以是公用或專用。

  • 堡壘主機

    堡壘主機是運算執行處理,可作為雲端外部拓樸的安全受控制進入點。堡壘主機通常在解密區域 (DMZ) 中佈建。它可讓您將機密資源放在無法直接從雲端存取的專用網路中,以保護機密資源。拓樸具有單一的已知進入點,您可以定期監督和稽核。因此,您可以避免讓拓樸的敏感元件暴露,而不影響拓樸的存取。

  • 計算節點

    選取您在此叢集中使用的裸機 GPU 資源配置。例如,選取由 4 個 NVIDIA A100 Tensor Core GPU 提供的 BM.GPU4.8 (如上例所示),或選取由 8 個 NVIDIA H100 Tensor Core GPU 提供的 BM.GPU.H100.8 (使用 NVIDIA Transformer Engine 提供的 8 個 NVIDIA H100 Tensor Core GPU),即可享有 FP8 效能優勢。

  • 協調節點

    協調流程節點會執行叢集節點管理、佈建、取消佈建及部署軟體組態,以及管理運算工作流程和工作協調流程。

  • 安全清單

    您可以為每個子網路建立安全規則,指定子網路中必須允許進出的流量來源、目的地和類型。

關於必要產品、服務及角色

此解決方案需要下列產品、服務和角色:

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI 企業版
  • NVIDIA NeMo 架構

  • NVIDIA Enroot

  • NVIDIA NCCL

這些是每項服務所需的角色。

服務名稱:角色 需要 ...
Oracle Cloud Infrastructure Government Cloud:租用戶的 Oracle Cloud 使用者 在 Oracle Cloud Infrastructure (OCI) 中建立區間、部署 GPU 叢集及設定 GPU 叢集。
OCI 政府雲:安全性或網路管理員 視需要建立或編輯 OCI 原則,以供您建立叢集。
OCI 政府雲:opc 連線至堡壘主機以複查組態、更新作業系統,以及執行 LLM 訓練工作負載。

請參閱 Oracle 產品、解決方案和服務,以瞭解您的需求。