使用為 OCI 設定的資源連線器部署 IBM Spectrum LSF

使用 IBM Spectrum LSF 資源連接器自動調整功能,根據實際需求動態調整配置給工作負載的資源數目,以解決固定資源配置的問題。最佳化資源使用狀況、降低成本,以及提升高效能運算 (HPC) 環境的整體效率。

IBM Spectrum LSF (負載共用設施) 是用於分散式運算環境的工作負載管理平台。它可讓使用者跨電腦或運算叢集的網路管理和排程電腦工作,確保工作能有效率地完成且不會中斷。

IBM Spectrum LSF 功能的資源連接器 (先前稱為主機工廠) 可讓 LSF 叢集借用來自支援資源提供者的資源。當工作負載低時,LSF 會使用資源連接器來減少配置的資源數量,從而節省成本並改善使用率。當工作負載很高時,會向雲端提供者要求更多資源。

請注意,部署此架構需要管理權限。

架構

此參照架構顯示部署在現有子網路中的 IBM Spectrum LSF 叢集,其中包含主要主機、叢集節點 (在資源連線器呼叫 OCI API 時依需求建立) 以及堡壘主機服務。

LSF 主要主機需要 instance_principal 授權才能與 OCI API 互動,並且具有預設組態 (VM.Standard.E4)。建立堆疊時可調整的彈性 / 2 個 OCPU/ 8 GB。

LSF resource_connector 已針對動態佇列預先設定,可以從 OCI API 要求兩種類型的運算資源 (amd2 - VM.Standard.E3)。彈性 / 2 個 OCPU / 4 GB 以及 amd4 - VM.Standard.E4。彈性 / 2 個 OCPU / 8 GBs),視工作需求而定。resource_connector 可用的樣板可以在 LSF 組態檔 (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json<lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json) 中修改,然後重新載入叢集組態,使用下列命令重新載入叢集組態:

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

每個可用樣板 resource_connector 可向 OCI 要求的預設主機數目上限為 8 個 (如果需要更多節點,則可以在 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json 檔案中變更 maxNumber)。

建議的部署方式是透過 Oracle Cloud Infrastructure Resource Manager 使用一鍵部署連結。

下圖說明此參考架構。



oci-ibm-lfs- 架構 -oracle.zip

架構具有下列元件:

  • Tenancy

    租用戶是 Oracle 在您註冊 Oracle Cloud Infrastructure 時設定在 Oracle Cloud 內的安全隔離分割區。您可以在租用戶內的 Oracle Cloud 中建立、組織及管理您的資源。租用戶與公司或組織同義。通常,公司會擁有單一租用戶,並在該租用戶內反映其組織結構。單一租用戶通常與單一訂閱相關聯,單一訂閱通常只有一個租用戶。

  • 地區

    Oracle Cloud Infrastructure 區域是一個本地化地理區域,其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域,而廣大的距離可以將其分開 (跨國家或大陸)。

  • 區間

    區間是 Oracle Cloud Infrastructure 租用戶內的跨區域邏輯分割區。使用區間來組織、控制存取,以及為您的 Oracle Cloud 資源設定使用配額。在指定的區間中,您可以定義控制存取及設定資源權限的原則。

  • 可用性網域

    可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域的故障不應影響該區域中的其他可用性網域。

  • 容錯域

    容錯網域是可用性網域內的一組硬體和基礎架構。每個可用性網域都有三個具有獨立電源和硬體的容錯域。當您將資源分散到多個容錯域時,您的應用程式可以容忍容錯域內的實體伺服器故障、系統維護和電源故障。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路,此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。

  • 安全清單

    您可以為每個子網路建立安全規則,以指定必須允許進出子網路的來源、目的地和流量類型。

  • 網路位址轉譯 (NAT) 閘道

    NAT 閘道可讓 VCN 中的專用資源存取網際網路上的主機,而無須向內送網際網路連線公開這些資源。

  • 服務閘道

    服務閘道可讓您從 VCN 存取其他服務,例如 Oracle Cloud Infrastructure Object Storage 。從 VCN 到 Oracle 服務的流量會透過 Oracle 網路結構傳送,不會周遊網際網路。

  • 網際網路閘道

    網際網路網關允許 VCN 中公共子網路與公共網際網路之間的流量。

  • 堡壘主機服務

    Oracle Cloud Infrastructure Bastion 可針對沒有公用端點且需要嚴格資源存取控制的資源,例如裸機和虛擬機器、Oracle MySQL Database ServiceAutonomous Transaction Processing (ATP)、Oracle Cloud Infrastructure Kubernetes Engine ( OKE),以及允許 Secure Shell 通訊協定 (SSH) 存取的任何其他資源,提供有限且具時限的安全存取。有了 OCI 堡壘主機服務,您便可以存取專用主機,無須部署和維護跳躍主機。此外,您還可以透過識別權限以及集中式、稽核及時間導向 SSH 階段作業來改善安全態勢。OCI 堡壘主機可免除對堡壘主機存取的公用 IP 需求,在提供遠端存取時消除麻煩和潛在攻擊面。

  • 身分識別與存取管理 (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的存取控制層。IAM API 和使用者介面可讓您管理識別網域和識別網域內的資源。每個 OCI IAM 識別網域都代表獨立的識別與存取管理解決方案,或代表不同的使用者群體。

  • Oracle Cloud Infrastructure Resource Manager

    OCI Resource Manager 可將所有 OCI 資源的部署和作業自動化。此服務使用基礎架構即程式碼 (IaC) 模型,以 Terraform 為基礎。

建議

使用下列建議作為起點,以確保 LSF 叢集的可擴充性和可用性:您的需求可能與此處所述的架構不同。
  • VCN 和子網路

    當您選取現有的子網路時,必須考量一個夠大的 CIDR 區塊,以容納 LSF 資源連接器要求的所有運算資源。

    使用區域子網路 (若為多重區域)。

    允許子網路內的所有通訊 (新增至子網路的安全清單規則,允許從子網路 CIDR 區塊連至所有目的地連接埠的所有傳入連線)。

注意事項

啟動設定時,請考量下列層面。

  • IBM Spectrum LSF 二進位檔

    不包括二進位檔和安裝 / 執行 LSF 所需的授權。此部署已使用 LSF 版本 10.1 和修補程式版本 601088 進行測試。

    在部署之前,您可以從 IBM 支援入口網站下載下列檔案,將其載入 OCI 物件存放區儲存桶並建立預先認證的要求。

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    必須為用於 LSF 主要節點的 VCN 和子網路啟用 DNS 解析。

部署

GitHub 中提供部署解決方案的 Terraform 程式碼。

  1. 移至 GitHub
  2. 複製或下載儲存區域至您的本機電腦。
  3. 遵循 README 文件中的指示。

探索更多

深入瞭解 IBM Spectrium LSF、IBM Spectrium LSF 資源連接器及 OCI。

複查這些額外資源:

確認

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok