部署適用於政府 AI 工作負載的高效能 GPU 運算

將 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 加入 Oracle Cloud Marketplace 可讓您快速輕鬆地為 OCI 上的生成式 AI 應用程式執行任何種類的大型模型訓練，包括用於由 NVIDIA NeMo Framework 最佳化的工作負載、用來建置、自訂及部署生成式 AI 的端對端雲端原生架構。

DGX Cloud 的共用資源環境可能較不適合美國政府區域的客戶，因為這類客戶需要額外的安全性，才能控管自己的租用戶的所有資料和資源。我們還有您其他的解決方案。

Oracle 現在可以在我們的 Oracle US Government Cloud (FedRAMP High) 區域輕鬆部署裸機 NVIDIA GPU 系統的專用叢集。所有雲端資源和資料都留在您的雲端租用戶之下，可讓您完全控制軟體版本、管理存取、加密金鑰以及資源共用。

使用 NVIDIA A100 GPU 或 NVIDIA H100 GPU 的 Oracle GPU 叢集是透過從市集啟動 HPC 叢集堆疊進行部署。只要按幾下滑鼠和設定值，Terraform 和 Ansible 命令檔就會自動為具有超低延遲 RoCEv2 叢集網路 (以 NVIDIA 網路為基礎)、叢集網路驅動程式、工作排程 SLURM、分散式容器程式實際執行的 NVIDIA Pyxis 和 Enroot 的叢集環境部署硬體和軟體。自備大型語言模型和機器學習工作負載，或提取 NVIDIA PyTorch 和 NeMo 容器，以完全在您的安全租用戶內執行 NVIDIA AI Enterprise 相容的工作負載。

RoCEv2 叢集網路是專為高度要求的平行處理工作負載所設計，包括下列各項：

大型語言模型
人工視覺
機器學習
模擬

架構

此架構會部署執行排程器的堡壘主機或標頭節點，並可作為堡壘主機伺服器以存取叢集。

您可以根據處理需求，使用各種 NVIDIA GPU 實例類型來建立運算處理節點。建議您將運算處理節點置於安全的專用子網路中。您可以從 Oracle Cloud Marketplace 部署 NVIDIA GPU 運算叢集執行處理。

此架構是使用公用和專用虛擬雲端網路 (VCN) 部署。客戶網路只能透過 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公用網際網路存取前端節點和運算節點。

此架構使用的區域只有一個可用性網域和區域子網路。您可以在具有多個可用性網域的區域中使用相同的架構。建議您為部署使用區域子網路，不論可用性網域數目為何。您可以從 Oracle Cloud Marketplace 存取這些叢集網路，或手動部署這些叢集網路。無論是哪一種情況，我們都建議您使用基準參照架構，然後加以調整以符合您的特定需求。

下圖說明此參照架構。

nvidia-ai-gvt-hpc-oci.png 圖解描述

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip - nvidia-ngc-ai-gvt-hpc 關聯

此架構具有下列元件：

地區
Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關，且遠距離可加以區分 (跨國家，甚至是大陸)。
可用性網域
可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離，提供容錯能力。可用性網域不共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此，一個可用性網域發生故障不應影響區域中的其他可用性網域。
容錯域
容錯網域是可用性網域內的一組硬體和基礎設施。每個可用性網域都有三個容錯域，分別具備獨立的電源和硬體。當您將資源分配給多個容錯域時，您的應用程式可以容忍容錯域內的實體伺服器失敗、系統維護，以及電源失敗。
虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。就像傳統的資料中心網路一樣，VCN 也可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊，您可以在建立 VCN 之後加以變更。您可以將 VCN 分割成子網路，子網路可以限定為區域或可用性網域。每個子網路都是由不與 VCN 中其他子網路重疊的連續位址範圍所組成。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
堡壘主機
堡壘主機是運算執行處理，可作為安全、受控制的進入點，可從雲端外部拓樸。堡壘主機通常在解密區域 (DMZ) 中佈建。它可讓您將機密資源放在無法直接從雲端存取的專用網路中，以保護機密資源。拓樸具有單一的已知進入點，您可以定期監督和稽核。因此，您可以避免讓拓樸的敏感元件暴露，而不影響拓樸的存取。
計算節點
選取您在此叢集中使用的裸機 GPU 資源配置。例如，選取由 4 個 NVIDIA A100 Tensor Core GPU 提供的 BM.GPU4.8 (如上例所示)，或選取由 8 個 NVIDIA H100 Tensor Core GPU 提供的 BM.GPU.H100.8 (使用 NVIDIA Transformer Engine 提供的 8 個 NVIDIA H100 Tensor Core GPU)，即可享有 FP8 效能優勢。
協調節點 (Orchestration node)
協調流程節點會執行叢集節點管理、佈建、取消佈建及部署軟體組態，以及管理運算工作流程和工作協調流程。
安全清單
您可以為每個子網路建立安全規則，指定子網路中必須允許進出的流量來源、目的地和類型。

建議

使用下列建議作為在 Oracle Cloud Infrastructure 上部署高效能運算 (HPC) 的起點，並視需要量身打造以符合您的特定需求。

VCN
建立 VCN 時，請根據計畫要連附至 VCN 中子網路的資源數目，決定所需的 CIDR 區塊數目和每個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。

選取未與任何其他網路 (在 Oracle Cloud Infrastructure 中、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊，以設定專用連線。

建立 VCN 之後，您可以變更、新增及移除其 CIDR 區塊。

設計子網路時，請考慮流量和安全性需求。將特定層或角色內的所有資源連附至相同的子網路，以作為安全界限。

使用區域子網路。
安全清單
使用安全清單定義適用於整個子網路的傳入和傳出規則。
堡壘主機節點
Use the VM.Standard.E5.Flex Compute shape.由於節點是用來作為堡壘主機並排定 HPC 工作，因此不需要本機連附儲存體或 GPU 處理。
GPU 運算叢集節點
使用 BM.GPU.A100.-v2.8 運算資源配置，因為此節點用於 GPU 運算工作流程和需要大量運算的工作。

注意事項

在 Oracle Cloud Infrastructure 上部署高效能運算 (HPC) 時，請考慮這些導入選項。

效能
若要獲得最佳效能，請選擇具有適當頻寬的正確運算資源配置。
使用狀態
請考慮根據您的部署需求和區域使用高可用性選項。選項包括在一個區域和容錯域中使用多個可用性網域。
成本
裸機 GPU 執行處理可提供更高成本的必要 CPU 電源。評估您的需求以選擇適當的運算資源配置。
監督和警示
設定節點的 CPU 和記憶體使用量監控和警示，以便視需要縱向擴展或縮減資源配置。

部署

部署此參考架構的 Terraform 堆疊可做為 Oracle Cloud Marketplace 中的堆疊提供。您也可以從 GitHub 下載程式碼，並根據需求加以自訂。

使用 Oracle Cloud Marketplace 中的堆疊進行部署：
1. 前往 Oracle Cloud Marketplace 。
2. 按一下取得 App 。
3. 遵循畫面上的提示執行。如需政府需求和作業環境的資訊，請參閱設定 HPC 叢集堆疊以在 OCI 政府區域部署 NVIDIA AI。
4. 接受「一般使用者授權合約」。
使用 GitHub 中的程式碼進行部署：
1. 請前往 GitHub 。
2. 複製或下載儲存區域。
3. 遵循 README 文件中的指示。

探索更多

進一步瞭解此架構的功能。

認可

作者：Kevin Colwell
貢獻者：Neil Pierson, George Boateng, Travis Lee, Michael Rutledge