使用為 OCI 設定的資源連線器部署 IBM Spectrum LSF
使用 IBM Spectrum LSF 資源連接器自動調整功能,根據實際需求動態調整配置給工作負載的資源數目,以解決固定資源配置的問題。最佳化資源使用狀況、降低成本,以及提升高效能運算 (HPC) 環境的整體效率。
IBM Spectrum LSF (負載共用設施) 是用於分散式運算環境的工作負載管理平台。它可讓使用者跨電腦或運算叢集的網路管理和排程電腦工作,確保工作能有效率地完成且不會中斷。
IBM Spectrum LSF 功能的資源連接器 (先前稱為主機工廠) 可讓 LSF 叢集借用來自支援資源提供者的資源。當工作負載低時,LSF 會使用資源連接器來減少配置的資源數量,從而節省成本並改善使用率。當工作負載很高時,會向雲端提供者要求更多資源。
請注意,部署此架構需要管理權限。
架構
此參照架構顯示部署在現有子網路中的 IBM Spectrum LSF 叢集,其中包含主要主機、叢集節點 (在資源連線器呼叫 OCI API 時依需求建立) 以及堡壘主機服務。
LSF 主要主機需要 instance_principal 授權才能與 OCI API 互動,並且具有預設組態 (VM.Standard.E4)。建立堆疊時可調整的彈性 / 2 個 OCPU/ 8 GB。
LSF resource_connector 已針對動態佇列預先設定,可以從 OCI API 要求兩種類型的運算資源 (amd2 - VM.Standard.E3)。彈性 / 2 個 OCPU / 4 GB 以及 amd4 - VM.Standard.E4。彈性 / 2 個 OCPU / 8 GBs),視工作需求而定。resource_connector 可用的樣板可以在 LSF 組態檔 (<lsf_top>/conf/resource_connector/oci/conf/oci_config.json
和 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json
) 中修改,然後重新載入叢集組態,使用下列命令重新載入叢集組態:
$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart
每個可用樣板 resource_connector 可向 OCI 要求的預設主機數目上限為 8 個 (如果需要更多節點,則可以在 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json
檔案中變更 maxNumber)。
建議的部署方式是透過 Oracle Cloud Infrastructure Resource Manager 使用一鍵部署連結。
下圖說明此參考架構。
架構具有下列元件:
- Tenancy
租用戶是 Oracle 在您註冊 Oracle Cloud Infrastructure 時設定在 Oracle Cloud 內的安全隔離分割區。您可以在租用戶內的 Oracle Cloud 中建立、組織及管理您的資源。租用戶與公司或組織同義。通常,公司會擁有單一租用戶,並在該租用戶內反映其組織結構。單一租用戶通常與單一訂閱相關聯,單一訂閱通常只有一個租用戶。
- 地區
Oracle Cloud Infrastructure 區域是一個本地化地理區域,其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域,而廣大的距離可以將其分開 (跨國家或大陸)。
- 區間
區間是 Oracle Cloud Infrastructure 租用戶內的跨區域邏輯分割區。使用區間來組織、控制存取,以及為您的 Oracle Cloud 資源設定使用配額。在指定的區間中,您可以定義控制存取及設定資源權限的原則。
- 可用性網域
可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域的故障不應影響該區域中的其他可用性網域。
- 容錯域
容錯網域是可用性網域內的一組硬體和基礎架構。每個可用性網域都有三個具有獨立電源和硬體的容錯域。當您將資源分散到多個容錯域時,您的應用程式可以容忍容錯域內的實體伺服器故障、系統維護和電源故障。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路,此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
- 安全清單
您可以為每個子網路建立安全規則,以指定必須允許進出子網路的來源、目的地和流量類型。
- 網路位址轉譯 (NAT) 閘道
NAT 閘道可讓 VCN 中的專用資源存取網際網路上的主機,而無須向內送網際網路連線公開這些資源。
- 服務閘道
服務閘道可讓您從 VCN 存取其他服務,例如 Oracle Cloud Infrastructure Object Storage 。從 VCN 到 Oracle 服務的流量會透過 Oracle 網路結構傳送,不會周遊網際網路。
- 網際網路閘道
網際網路網關允許 VCN 中公共子網路與公共網際網路之間的流量。
- 堡壘主機服務
Oracle Cloud Infrastructure Bastion 可針對沒有公用端點且需要嚴格資源存取控制的資源,例如裸機和虛擬機器、Oracle MySQL Database Service 、Autonomous Transaction Processing (ATP)、Oracle Cloud Infrastructure Kubernetes Engine ( OKE),以及允許 Secure Shell 通訊協定 (SSH) 存取的任何其他資源,提供有限且具時限的安全存取。有了 OCI 堡壘主機服務,您便可以存取專用主機,無須部署和維護跳躍主機。此外,您還可以透過識別權限以及集中式、稽核及時間導向 SSH 階段作業來改善安全態勢。OCI 堡壘主機可免除對堡壘主機存取的公用 IP 需求,在提供遠端存取時消除麻煩和潛在攻擊面。
- 身分識別與存取管理 (IAM)
Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的存取控制層。IAM API 和使用者介面可讓您管理識別網域和識別網域內的資源。每個 OCI IAM 識別網域都代表獨立的識別與存取管理解決方案,或代表不同的使用者群體。
- Oracle Cloud Infrastructure Resource Manager
OCI Resource Manager 可將所有 OCI 資源的部署和作業自動化。此服務使用基礎架構即程式碼 (IaC) 模型,以 Terraform 為基礎。
建議
- VCN 和子網路
當您選取現有的子網路時,必須考量一個夠大的 CIDR 區塊,以容納 LSF 資源連接器要求的所有運算資源。
使用區域子網路 (若為多重區域)。
允許子網路內的所有通訊 (新增至子網路的安全清單規則,允許從子網路 CIDR 區塊連至所有目的地連接埠的所有傳入連線)。
注意事項
啟動設定時,請考量下列層面。
- IBM Spectrum LSF 二進位檔
不包括二進位檔和安裝 / 執行 LSF 所需的授權。此部署已使用 LSF 版本 10.1 和修補程式版本 601088 進行測試。
在部署之前,您可以從 IBM 支援入口網站下載下列檔案,將其載入 OCI 物件存放區儲存桶並建立預先認證的要求。
lsf10.1_lsfinstall.tar.Z
lsf10.1_lnx310-lib217-x86_64.tar.Z
lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
lsf_entitlement.dat
- VCN
必須為用於 LSF 主要節點的 VCN 和子網路啟用 DNS 解析。