設定 HPC 叢集堆疊,在 OCI 政府區域部署 NVIDIA AI
HPC 叢集堆疊使用 Terraform 部署 Oracle Cloud Infrastructure (OCI) 資源。此堆疊會建立 GPU 節點、儲存體、標準網路和高效能叢集網路,以及用於存取和管理叢集的堡壘主機 / 前端節點。
Before You Begin - 開始之前
架構
此架構會部署執行排程器的堡壘主機或標頭節點,並可作為堡壘主機伺服器以存取叢集。
您可以根據處理需求,使用各種 NVIDIA GPU 實例類型來建立運算處理節點。建議您將運算處理節點置於安全的專用子網路中。您可以從 Oracle Cloud Marketplace 部署 NVIDIA GPU 運算叢集執行處理。
此架構是使用公用和專用虛擬雲端網路 (VCN) 部署。客戶網路只能透過 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公用網際網路存取節點和運算節點。
此架構使用的區域只有一個可用性網域和區域子網路。您可以在具有多個可用性網域的區域中使用相同的架構。建議您為部署使用區域子網路,不論可用性網域數目為何。您可以從 Oracle Cloud Marketplace 存取這些叢集網路,或手動部署這些叢集網路。無論是哪一種情況,我們都建議您使用基準參照架構,然後加以調整以符合您的特定需求。
下圖說明此參照架構。
![nvidia-ai-gvt-hpc-oci.png 的說明如下 nvidia-ai-gvt-hpc-oci.png 的說明如下](img/nvidia-ai-gvt-hpc-oci.png)
nvidia-ai-gvt-hpc-oci.png 圖解描述
nvidia-ngc-ai-gvt-hpc-oci-oracle.zip - nvidia-ngc-ai-gvt-h
此架構具有下列元件:
- 地區
Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關,且遠距離可加以區分 (跨國家,甚至是大陸)。
- 可用性網域
可用性網域是區域內獨立的資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,提供容錯能力。可用性網域不共用基礎設施 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域發生故障不應影響區域中的其他可用性網域。
- 容錯域
故障領域是可用性領域內的一組硬體和基礎設施。每個可用性網域都有三個容錯域,分別具備獨立的電源和硬體。當您將資源分配給多個容錯域時,您的應用程式可以容忍容錯域內的實體伺服器失敗、系統維護,以及電源失敗。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。就像傳統的資料中心網路一樣,VCN 也可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後加以變更。您可以將 VCN 分割成子網路,子網路可以限定為區域或可用性網域。每個子網路都是由不與 VCN 中其他子網路重疊的連續位址範圍所組成。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
- 堡壘主機
堡壘主機是運算執行處理,可作為雲端外部拓樸的安全受控制進入點。堡壘主機通常在解密區域 (DMZ) 中佈建。它可讓您將機密資源放在無法直接從雲端存取的專用網路中,以保護機密資源。拓樸具有單一的已知進入點,您可以定期監督和稽核。因此,您可以避免讓拓樸的敏感元件暴露,而不影響拓樸的存取。
- 計算節點
選取您在此叢集中使用的裸機 GPU 資源配置。例如,選取由 4 個 NVIDIA A100 Tensor Core GPU 提供的 BM.GPU4.8 (如上例所示),或選取由 8 個 NVIDIA H100 Tensor Core GPU 提供的 BM.GPU.H100.8 (使用 NVIDIA Transformer Engine 提供的 8 個 NVIDIA H100 Tensor Core GPU),即可享有 FP8 效能優勢。
- 協調節點
協調流程節點會執行叢集節點管理、佈建、取消佈建及部署軟體組態,以及管理運算工作流程和工作協調流程。
- 安全清單
您可以為每個子網路建立安全規則,指定子網路中必須允許進出的流量來源、目的地和類型。
關於必要產品、服務及角色
此解決方案需要下列產品、服務和角色:
-
Oracle Cloud Infrastructure Government Cloud
- NVIDIA AI 企業版
-
NVIDIA NeMo 架構
-
NVIDIA Enroot
- NVIDIA NCCL
這些是每項服務所需的角色。
服務名稱:角色 | 需要 ... |
---|---|
Oracle Cloud Infrastructure Government Cloud:租用戶的 Oracle Cloud 使用者 | 在 Oracle Cloud Infrastructure (OCI) 中建立區間、部署 GPU 叢集及設定 GPU 叢集。 |
OCI 政府雲:安全性或網路管理員 | 視需要建立或編輯 OCI 原則,以供您建立叢集。 |
OCI 政府雲:opc |
連線至堡壘主機以複查組態、更新作業系統,以及執行 LLM 訓練工作負載。 |
請參閱 Oracle 產品、解決方案和服務,以瞭解您的需求。