在 Oracle Cloud Infrastructure 上部署高效能運算 (HPC)

現在可以在雲端中以成本效益管理模擬和模型設計中平行運算工作負載的需求。

在高頻寬低延遲的雲端網路中部署高效能運算 (HPC) 資源,提升企業內部部署 HPC 網路的效能,但雲端運算提供的成本和作業優勢。

「叢集網路」是一種 Oracle Cloud Infrastructure 技術,可讓 HPC 執行處理與高頻寬、低延遲的網路通訊。叢集中的每個節點都是位於與其他節點鄰近的裸機機器。節點之間的遠端直接記憶體存取 (RDMA) 網路提供兩秒以下的延遲,可供內部部署 HPC 叢集比較。Oracle 使用 RDMA over converged ethernet 或 RoCEv2 Protocol 來進行叢集網路。

叢集網路是針對高要求的平行工作負載所設計,包括下列各項:

  • 汽車或航太建模的計算流體動力模擬

  • 損毀模擬

  • 財務模型設定與風險分析

  • 生物醫學模擬

  • 空間探索的彈道分析與設計

  • 人工智慧和大數據工作負載

下列項目支援叢集網路:

  • 虛擬雲端網路

    • 公用子網路

    • 專用子網路

    • 網際網路閘道

    • NAT 閘道

  • 計算節點

    • 公用子網路中的防禦主機

    • 專用子網路中的 HPC 運算節點

架構

此參照架構會建置執行排程器的防禦主機或標頭節點,並可用來作為存取叢集的防禦主機伺服器。

您可以視需要建立視覺化節點,例如 GPU 虛擬機器 (VM) 或裸機機器。建議您將視覺化節點放在公用子網路中。HPC 工作負載通常需要視覺化工具,才能進行預先處理、監督或分析模擬的輸出。您可以從 Oracle Cloud Marketplace 建置啟用 NVIDIA GRID 的工作站。

此架構使用公用和專用虛擬雲端網路 (VCN) 部署。客戶網路只能透過 IPSec VPN、Oracle Cloud Infrastructure FastConnect 或公用網際網路存取標頭節點和視覺化節點。

架構使用具有一個可用性網域和區域子網路的區域。您可以在具有多個可用性網域的區域中使用相同的架構。不論可用性網域數目為何,建議您使用區域子網路進行部署。

您可以從 Oracle Cloud Marketplace 存取這些叢集網路,或是手動部署網路。不論是哪一種情況,都建議您使用基準參照架構進行調整,以符合您的特定需求。

下圖說明此參考架構。



hpc-oci-architecture.zip

架構包含下列元件:

  • 區域

    Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關,而且大型距離可以區隔 (跨國家或甚至洲)。

  • 可用性網域

    可用性網域是區域內獨立的獨立資料中心。每個可用性網域中的實體資源都會與其他可用性網域中的資源隔離,以提供容錯。可用性網域不會共用基礎架構,例如電源、冷卻或內部可用性網域網路。因此,一個可用性網域的失敗並不會影響區域中的其他可用性網域。

  • 容錯域

    容錯域是可用性網域內的一組硬體和基礎設施。每個可用性網域都有三個具有獨立電源和硬體的容錯域。在多個容錯域間分配資源時,您的應用程式可以容許容錯容錯區域內的實體伺服器故障、系統維護和電源故障。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。VCN 就像傳統資料中心網路一樣,可讓您完全控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後進行變更。您可以將 VCN 區隔為子網路,子網路範圍可設為某個區域或可用性網域。每個子網路均包含一個不與 VCN 中其他子網路重疊的連續位址範圍。您可以在建立子網路之後變更子網路的大小。子網路可以是公用或專用。

  • 防禦主機

    防禦主機是一個運算執行處理,可作為雲端外部拓樸的安全、受控制的進入點。防禦主機通常是在非軍事區域 (DMZ) 中啟動設定。它可讓您將機密資源放在無法直接從雲端存取的專用網路中,以保護機密資源。拓樸有一個您可以定期監督及稽核的單一已知進入點。因此,您可以避免暴露拓樸的更敏感元件,而不會暴露它們的存取權。

  • HPC 叢集節點

    標頭節點會佈建及取消佈建這些已啟用 RDMA 的叢集 (100 gbps RoCE v2 隔離網路) 的運算節點。它們會處理儲存在檔案儲存體中的資料,並將結果傳回檔案儲存體。

  • 視覺化節點

    視覺化節點通常會安裝 2D 或 3D 應用程式,以視覺化呈現及分析 HPC 叢集節點所處理的資料。

  • 安全清單

    您可以為每個子網路建立安全規則,以指定子網路中必須允許的來源、目的地以及流量類型。

推薦

使用下列建議作為在 Oracle Cloud Infrastructure 上部署高效能運算 (HPC) 的起點。

您的需求可能會與此處描述的架構不同。

  • VCN

    建立 VCN 時,請根據計畫連附至 VCN 中子網路的資源數目,判斷所需的 CIDR 區塊數目和各個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。

    選取未與想要設定專用連線之任何其他網路 (在 Oracle Cloud Infrastructure 中、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊。

    建立 VCN 之後,您可以變更、新增及移除其 CIDR 區塊。

    設計子網路時,請考量您的流量和安全需求。將特定層或角色內的所有資源連附至可作為安全界限的相同子網路。

    使用區域子網路。

  • 安全清單

    您可以使用安全清單來定義套用至整個子網路的傳入和傳出規則。

  • 防禦主機節點

    使用 VM.Standard。2.8 Compute 資源配置。由於節點是用來作為防禦主機並排定 HPC 工作,因此不需要在本機連附的儲存體或 GPU 處理。

  • 視覺化節點使用 VM.GPU3.2 Compute 資源配置,因為此節點用於視覺化,且可能是以密集圖形的應用程式安裝。
  • HPC 叢集節點

    使用 BM.HPC2.36 Compute 資源配置。此資源配置有 36 個來自兩個 3.7GHz Intel Xeon Gold 6154 處理器、384-GB RAM 以及 6.4-TB NVME 本機儲存的核心。使用 Oracle Cloud Infrastructure 上功能強大的 NVIDIA GPU,即可透過遠端視覺化在雲端上進行後續處理結果。

考量

Oracle Cloud Infrastructure 上部署高效能運算 (HPC) 時,請考慮這些實作選項。

  • 效能

    若要獲得最佳效能,請選擇具有適當頻寬的正確運算資源配置。

  • 使用狀態

    請考慮根據您的建置需求和區域使用高可用性選項。選項包括使用區域與容錯域內的多個可用性網域。

  • 成本

    裸機 GPU 執行處理可為更高的成本提供必要的 CPU 電源。評估您的需求以選擇適當的運算資源配置。

  • 監督和警示

    設定您節點之 CPU 和記憶體使用狀況的監督和警示,讓您可以視需要擴大或縮小資源配置。

建置

您可以在 Oracle Cloud Marketplace 中以堆疊方式提供部署此參照架構的 Terraform 堆疊。您也可以從 GitHub 下載程式碼,並依需求加以自訂。

  • 使用 Oracle Cloud Marketplace 中的堆疊進行部署:
    1. 前往 Oracle Cloud Marketplace
    2. 按一下取得 App
    3. 遵循畫面上的提示執行。
  • 使用 GitHub 中的程式碼進行部署:
    1. 前往 GitHub
    2. 複製或下載儲存庫至本機電腦。
    3. 依照 README 文件中的指示進行。

變更日誌

此日誌列出重大變更: