使用为 OCI 配置的资源连接器部署 IBM Spectrum LSF
通过使用 IBM Spectrum LSF 资源连接器自动缩放,根据实际需求动态调整分配给工作负载的资源数量,从而解决固定资源分配问题。在高性能计算 (High-Performance Computing,HPC) 环境中优化资源使用、降低成本并提高整体效率。
IBM Spectrum LSF (Load Sharing Facility,负载共享工具)是一个用于分布式计算环境的工作负载管理平台。它允许用户通过计算机或计算集群网络管理和调度计算机作业,确保作业高效地完成,而不会中断。
IBM Spectrum LSF 功能(以前称为主机工厂)的资源连接器使 LSF 群集能够从受支持的资源提供者借用资源。当工作量较低时,LSF 正在使用资源连接器来减少分配的资源数量,从而节省成本并提高利用率。当负载过高时,云提供商会请求更多资源。
请注意,部署此体系结构需要管理权限。
体系结构
此参考架构显示部署在现有子网中的 IBM Spectrum LSF 集群,其中包含主主机、集群节点(在资源连接器调用 OCI API 时按需创建)和堡垒服务。
LSF 主主机需要 instance_principal 授权才能与 OCI API 交互并具有默认配置 (VM.Standard.E4)。可在堆栈创建期间调整的弹性/2 个 OCPU/8 GB。
LSF resource_connector 为动态队列预配置,可以从 OCI API 请求两种类型的计算资源 (amd2 - VM.Standard.E3)。弹性 / 2 个 OCPU / 4 GB 和 amd4 - VM.Standard.E4。可以根据工作要求提供弹性/2 个 OCPU/8 GB。可用于 resource_connector 的模板可以在 LSF 配置文件(<lsf_top>/conf/resource_connector/oci/conf/oci_config.json
和 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json
)中修改,然后重新加载群集配置,然后使用以下命令重新加载群集配置:
$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart
对于每个可用模板,resource_connector 可以从 OCI 请求的最大主机数默认为八个(如果需要更多节点,可以在文件 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json
中更改 maxNumber)。
建议的部署方法是通过 Oracle Cloud Infrastructure Resource Manager 使用一键部署链接。
下图说明了此引用体系结构。
oci-ibm-lfs-architecture-oracle.zip
该体系结构具有以下组件:
- Tenancy
租户是 Oracle 在您注册 Oracle Cloud Infrastructure 时在 Oracle Cloud 中设置的安全隔离分区。您可以在您的租户内的 Oracle Cloud 中创建、组织和管理资源。租户是公司或组织的同义词。通常,公司将具有单个租户并反映其在该租户中的组织结构。单个租户通常与单个订阅关联,单个订阅通常只有一个租户。
- 区域
Oracle Cloud Infrastructure 区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。地区独立于其他地区,远距离可以把它们分开(跨越国家甚至大陆)。
- 区间
区间是 Oracle Cloud Infrastructure 租户中的跨区域逻辑分区。使用区间来组织、控制访问并设置 Oracle Cloud 资源的使用限额。在给定的区间中,您可以定义用于控制资源访问和设置权限的策略。
- 可用性域
可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共享电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。
- 容错域
容错域是可用性域内的一组硬件和基础设施。每个可用性域都有三个容错域,它们具有独立的电源和硬件。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。
- 虚拟云网络 (VCN) 和子网
VCN 是一个可定制的软件定义网络,您可以在 Oracle Cloud Infrastructure 区域中设置。与传统的数据中心网络一样,VCN 允许您控制您的网络环境。VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 划分为子网,子网可以限定为区域或可用性域。每个子网都包含一系列不与 VCN 中的其他子网重叠的连续地址。可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。
- 安全列表
对于每个子网,可以创建安全规则来指定必须允许进出子网的通信的源、目标和类型。
- 网络地址转换 (NAT) 网关
通过 NAT 网关,VCN 中的专用资源可以访问 Internet 上的主机,而不会向传入的 Internet 连接公开这些资源。
- 服务网关
通过服务网关,您可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage 。从 VCN 到 Oracle 服务的流量通过 Oracle 网络结构传输,不会通过互联网传输。
- Internet 网关
通过互联网网关,可以在 VCN 中的公共子网与公共互联网之间进行流量传输。
- 堡垒服务
Oracle Cloud Infrastructure Bastion 提供对没有公共端点且需要严格资源访问控制的资源(例如裸金属和虚拟机、Oracle MySQL Database Service 、 Autonomous Transaction Processing (ATP)、Oracle Cloud Infrastructure Kubernetes Engine ( OKE ) 以及允许安全 Shell 协议 (SSH) 访问的任何其他资源)的受限和限时安全访问。通过 OCI Bastion 服务,您可以启用对专用主机的访问,而无需部署和维护跳转主机。此外,您还可以利用基于身份的权限以及集中、经过审计和有时限的 SSH 会话来改善安全状况。OCI Bastion 消除了对堡垒访问的公共 IP 的需求,消除了提供远程访问的麻烦和潜在攻击面。
- 身份和访问管理 (IAM)
Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的访问控制层。通过 IAM API 和用户界面,您可以管理身份域和身份域中的资源。每个 OCI IAM 身份域代表一个独立的身份和访问管理解决方案或不同的用户群体。
- Oracle Cloud Infrastructure 资源管理器
OCI Resource Manager 可自动部署和运营所有 OCI 资源。该服务使用基础设施即代码 (IaC) 模型,基于 Terraform。
推荐
- VCN 和子网
选择现有子网时,需要考虑足够大的 CIDR 块来容纳 LSF 资源连接器请求的所有计算资源。
使用区域子网(对于多 AD 区域)。
允许子网内的所有通信(将允许从子网 CIDR 块到所有目标端口的所有入站连接的规则添加到子网的安全列表中)。
注意事项
预配时,请考虑以下方面。
- IBM Spectrum LSF 二进制文件
不包括二进制文件和安装/运行 LSF 所需的许可证。此部署已使用 LSF 版本 10.1 和修补程序版本 601088 进行测试。
在部署之前,您可以从 IBM 支持门户下载以下文件,将它们加载到 OCI 对象存储存储桶中并创建预先验证的请求。
lsf10.1_lsfinstall.tar.Z
lsf10.1_lnx310-lib217-x86_64.tar.Z
lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
lsf_entitlement.dat
- VCN
必须为用于 LSF 主节点的 VCN 和子网启用 DNS 解析。