高效能運算:Oracle Cloud Infrastructure 上的 STAR-CCM+

Siemens Simcenter STAR-CCM +是產品與設計模擬的完整多重實體解決方案。

架構

架構使用一個防禦主機節點來連線 HPC 叢集。

標頭節點包含 START-CCM +安裝和模型。它包含訊息傳遞介面 (MPI),以及協調和執行工作。工作結果會儲存在標頭節點上。

下圖說明此參考架構。

架構描述 - hpc.png 如下
圖解架構的描述 - hpc.png

architecture-hpc-oracle.zip

架構包含下列元件:

  • 區域

    Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關,而且大型距離可以區隔 (跨國家或甚至洲)。

  • 可用性網域

    可用性網域是區域內獨立的獨立資料中心。每個可用性網域中的實體資源都會與其他可用性網域中的資源隔離,以提供容錯。可用性網域不會共用基礎設施 (例如電力或散熱冷卻系統) 或內部可用性網域網路。因此,一個可用網域發生故障並不會影響該區域中的其他可用網域。

  • 容錯域

    容錯域是可用性網域內的一組硬體和基礎設施。每個可用性網域都有三個具有獨立電源和硬體的容錯域。當您將資源分配到多個容錯域時,應用程式可能會容許容錯域內的實體伺服器故障、系統維護和電源故障。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。VCN 就像傳統資料中心網路一樣,可讓您完整控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,供您在建立 VCN 之後變更。您可以將 VCN 區隔為子網路,子網路範圍可為區域或可用性網域。每個子網路均包含一個未與 VCN 中其他子網路重疊的連續位址範圍。您可以在建立子網路之後變更子網路的大小。子網路可以是公用或專用。

  • 安全清單

    您可以為每個子網路建立安全規則,以指定子網路中必須允許的來源、目的地以及流量類型。

  • 執行處理集區

    執行處理集區可讓您在與群組相同的區域內建立及管理多個運算執行處理。它們也會啟用與其他服務 (例如負載平衡服務和 IAM 服務) 的整合。

  • 防禦主機節點/標頭節點

    使用 Web 式入口網站連線至標頭節點並排定 HPC 工作。工作要求會透過 FastConnect 或 IPSec VPN 傳送至標頭節點。標頭節點也會將客戶資料集傳送至檔案儲存,而且可以對資料進行部分預先處理。

    標頭節點會在工作完成時佈建 HPC 節點叢集並刪除 HPC 叢集。

  • HPC 叢集節點

    標頭節點會佈建並終止這些啟用 RDMA 的叢集運算節點。它們會處理儲存在檔案儲存體中的資料,並將結果傳回檔案儲存體。

  • 雲端保全

    您可以使用 Oracle Cloud Guard 在雲端監督及維護資源的安全。雲端保全會檢查您的資源是否有與組態相關的安全弱點,並監督操作員和使用者是否有風險活動。識別出任何安全問題或風險時,雲端保全會建議更正動作,並根據您可以定義的安全處方協助您執行這些動作。

  • NFS 伺服器

    其中一個 HPC 節點將升級為 NFS 伺服器。

建議

您的需求可能會與此處描述的架構不同。使用下列建議作為起點。

  • VCN

    建立 VCN 時,請根據計畫連附至 VCN 中子網路的資源數目,判斷所需的 CIDR 區塊數目和各個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。

    選取未與想要設定專用連線之任何其他網路 (在 Oracle Cloud Infrastructure 中、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊。

    建立 VCN 之後,您可以變更、新增及移除其 CIDR 區塊。

    設計子網路時,請考量您的流量和安全需求。將特定層或角色內的所有資源連附至可作為安全界限的相同子網路。

  • 安全

    使用 Oracle Cloud Guard 主動監督及維護 OCI 中資源的安全。「雲端保全」使用可定義的偵測器方法來檢查安全弱點的資源,以及監督操作員和使用者是否有風險活動。偵測到任何組態錯誤或不安全的活動時,雲端保全會建議更正動作,並根據您可以定義的回應器方法協助這些動作。

    對於需要最高安全性的資源,Oracle 建議您使用安全區域。安全區域是與以最佳做法為基礎之 Oracle 定義的安全原則方法關聯的區間。例如,安全區域中的資源不得從公用網際網路存取,且必須使用客戶管理的金鑰加密。當您在安全區域中建立及更新資源時,Oracle Cloud Infrastructure 會根據 security-zone 處方中的原則驗證作業,並拒絕違反任何原則的作業。

  • HPC 節點

    有兩種案例:

    1. 使用執行處理集區在 VM 資源配置上部署,如架構圖表所示。此案例提供較低的成本,但效能也較低。

      將 VM.Standard。E3。Flex 或 VM.Standard。E4。Flex 與檔案儲存服務搭配使用。

    2. 使用 HPC BARE Metal 資源配置進行部署,以獲得完整的效能。

      使用 BM.HPC2.36 資源配置搭配 6.4-TB 本機 NVMe SSD 儲存、每個節點 36 個核心以及 384-GB 記憶體。

注意事項

部署此參照架構時,請注意下列幾點。

  • 效能

    根據工作負載大小的不同,決定 OpenFOAM 要執行的核心數目。此決策可確保模擬及時完成。

    若要獲得最佳效能,請選擇具有適當頻寬的正確運算資源配置。

  • 使用狀態

    根據您的建置需求和區域,考慮使用高可用性選項。選項包括使用區域與容錯域內的多個可用性網域。

  • 成本

    裸機 GPU 執行處理可為更高的成本提供必要的 CPU 電源。評估您的需求以選擇適當的運算資源配置。

    沒有執行中的工作時,您可以刪除叢集。

  • 監督和警示

    設定您節點之 CPU 和記憶體使用狀況的監督和警示,讓您可以視需要擴大或縮小資源配置。

  • 儲存體

    在 HPC 資源配置隨附的 NVMe SSD 儲存上,您也可以連附每個磁碟區 32k IOPS 且後面接著 Oracle 最高效能 SLA 的區塊磁碟區。如果您使用我們的解決方案來啟動基礎架構,預設會在/mnt 的 NVMe SSD 儲存體上安裝 nfs-shis。您也可以根據效能需求,在 NVMe SSD 儲存體或區塊儲存體之上安裝自己的平行檔案系統。

  • Visualizer 節點

    您可以視需求建立視覺化程式節點,例如 GPU 虛擬機器 (VM) 或裸機節點。此視覺化程式節點可以是您的防禦主機或個別節點。視工作負載的安全需求而定,視覺化程式節點可以放置在專用或公用子網路中。

部署

GitHub 中提供部署此參照架構所需的程式碼。只要按一下即可將程式碼提取至 Oracle Cloud Infrastructure Resource Manager,然後建立堆疊並加以部署。或者,從 GitHub 下載程式碼至您的電腦、自訂程式碼,以及使用 Terraform CLI 建置架構。

  • 使用 Oracle Cloud Infrastructure Resource Manager 進行部署:
    1. 一下部署至 Oracle Cloud

      如果您尚未登入,請輸入租用戶和使用者證明資料。

    2. 檢閱並接受條款與條件。
    3. 選取您要在其中部署堆疊的區域。
    4. 依照畫面上的提示和指示建立堆疊。
    5. 建立堆疊之後,請按一下 Terraform 動作,然後選取畫。
    6. 等待工作完成,然後複查計畫。

      若要進行任何變更,請返回「堆疊詳細資訊」頁面,按一下編輯堆疊,然後進行必要的變更。然後,再次執行「劃」動作。

    7. 如果不需要進一步的變更,請返回「堆疊詳細資訊」頁面,按一下 Terraform 動作,然後選取用。
  • 使用 GitHub 中的 Terraform 程式碼部署:
    1. 前往 GitHub
    2. 將儲存區域複製或下載到您的本機電腦。
    3. 依照 README 文件中的指示進行。

變更日誌

此日誌會列出重大變更: