使用为 OCI 配置的资源连接器部署 IBM Spectrum LSF

通过使用 IBM Spectrum LSF 资源连接器自动缩放,根据实际需求动态调整分配给工作负载的资源数量,从而解决固定资源分配问题。在高性能计算 (High-Performance Computing,HPC) 环境中优化资源使用、降低成本并提高整体效率。

IBM Spectrum LSF (Load Sharing Facility,负载共享工具)是一个用于分布式计算环境的工作负载管理平台。它允许用户通过计算机或计算集群网络管理和调度计算机作业,确保作业高效地完成,而不会中断。

IBM Spectrum LSF 功能(以前称为主机工厂)的资源连接器使 LSF 群集能够从受支持的资源提供者借用资源。当工作量较低时,LSF 正在使用资源连接器来减少分配的资源数量,从而节省成本并提高利用率。当负载过高时,云提供商会请求更多资源。

请注意,部署此体系结构需要管理权限。

体系结构

此参考架构显示部署在现有子网中的 IBM Spectrum LSF 集群,其中包含主主机、集群节点(在资源连接器调用 OCI API 时按需创建)和堡垒服务。

LSF 主主机需要 instance_principal 授权才能与 OCI API 交互并具有默认配置 (VM.Standard.E4)。可在堆栈创建期间调整的弹性/2 个 OCPU/8 GB。

LSF resource_connector 为动态队列预配置,可以从 OCI API 请求两种类型的计算资源 (amd2 - VM.Standard.E3)。弹性 / 2 个 OCPU / 4 GB 和 amd4 - VM.Standard.E4。可以根据工作要求提供弹性/2 个 OCPU/8 GB。可用于 resource_connector 的模板可以在 LSF 配置文件(<lsf_top>/conf/resource_connector/oci/conf/oci_config.json<lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json)中修改,然后重新加载群集配置,然后使用以下命令重新加载群集配置:

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

对于每个可用模板,resource_connector 可以从 OCI 请求的最大主机数默认为八个(如果需要更多节点,可以在文件 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json 中更改 maxNumber)。

建议的部署方法是通过 Oracle Cloud Infrastructure Resource Manager 使用一键部署链接。

下图说明了此引用体系结构。



oci-ibm-lfs-architecture-oracle.zip

该体系结构具有以下组件:

  • Tenancy

    租户是 Oracle 在您注册 Oracle Cloud Infrastructure 时在 Oracle Cloud 中设置的安全隔离分区。您可以在您的租户内的 Oracle Cloud 中创建、组织和管理资源。租户是公司或组织的同义词。通常,公司将具有单个租户并反映其在该租户中的组织结构。单个租户通常与单个订阅关联,单个订阅通常只有一个租户。

  • 区域

    Oracle Cloud Infrastructure 区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。地区独立于其他地区,远距离可以把它们分开(跨越国家甚至大陆)。

  • 区间

    区间是 Oracle Cloud Infrastructure 租户中的跨区域逻辑分区。使用区间来组织、控制访问并设置 Oracle Cloud 资源的使用限额。在给定的区间中,您可以定义用于控制资源访问和设置权限的策略。

  • 可用性域

    可用性域是区域中的独立数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共享电源或冷却设备等基础设施,也不共享内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。

  • 容错域

    容错域是可用性域内的一组硬件和基础设施。每个可用性域都有三个容错域,它们具有独立的电源和硬件。在多个容错域之间分配资源时,应用可以承受容错域内的物理服务器故障、系统维护和电源故障。

  • 虚拟云网络 (VCN) 和子网

    VCN 是一个可定制的软件定义网络,您可以在 Oracle Cloud Infrastructure 区域中设置。与传统的数据中心网络一样,VCN 允许您控制您的网络环境。VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后更改这些块。您可以将 VCN 划分为子网,子网可以限定为区域或可用性域。每个子网都包含一系列不与 VCN 中的其他子网重叠的连续地址。可以在创建后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 安全列表

    对于每个子网,可以创建安全规则来指定必须允许进出子网的通信的源、目标和类型。

  • 网络地址转换 (NAT) 网关

    通过 NAT 网关,VCN 中的专用资源可以访问 Internet 上的主机,而不会向传入的 Internet 连接公开这些资源。

  • 服务网关

    通过服务网关,您可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage 。从 VCN 到 Oracle 服务的流量通过 Oracle 网络结构传输,不会通过互联网传输。

  • Internet 网关

    通过互联网网关,可以在 VCN 中的公共子网与公共互联网之间进行流量传输。

  • 堡垒服务

    Oracle Cloud Infrastructure Bastion 提供对没有公共端点且需要严格资源访问控制的资源(例如裸金属和虚拟机、Oracle MySQL Database ServiceAutonomous Transaction Processing (ATP)、Oracle Cloud Infrastructure Kubernetes Engine ( OKE ) 以及允许安全 Shell 协议 (SSH) 访问的任何其他资源)的受限和限时安全访问。通过 OCI Bastion 服务,您可以启用对专用主机的访问,而无需部署和维护跳转主机。此外,您还可以利用基于身份的权限以及集中、经过审计和有时限的 SSH 会话来改善安全状况。OCI Bastion 消除了对堡垒访问的公共 IP 的需求,消除了提供远程访问的麻烦和潜在攻击面。

  • 身份和访问管理 (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的访问控制层。通过 IAM API 和用户界面,您可以管理身份域和身份域中的资源。每个 OCI IAM 身份域代表一个独立的身份和访问管理解决方案或不同的用户群体。

  • Oracle Cloud Infrastructure 资源管理器

    OCI Resource Manager 可自动部署和运营所有 OCI 资源。该服务使用基础设施即代码 (IaC) 模型,基于 Terraform。

推荐

使用以下建议作为起点来确保 LSF 集群的可伸缩性和可用性:您的要求可能不同于此处介绍的体系结构。
  • VCN 和子网

    选择现有子网时,需要考虑足够大的 CIDR 块来容纳 LSF 资源连接器请求的所有计算资源。

    使用区域子网(对于多 AD 区域)。

    允许子网内的所有通信(将允许从子网 CIDR 块到所有目标端口的所有入站连接的规则添加到子网的安全列表中)。

注意事项

预配时,请考虑以下方面。

  • IBM Spectrum LSF 二进制文件

    不包括二进制文件和安装/运行 LSF 所需的许可证。此部署已使用 LSF 版本 10.1 和修补程序版本 601088 进行测试。

    在部署之前,您可以从 IBM 支持门户下载以下文件,将它们加载到 OCI 对象存储存储桶中并创建预先验证的请求。

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    必须为用于 LSF 主节点的 VCN 和子网启用 DNS 解析。

部署

可从 GitHub 获取用于部署解决方案的 Terraform 代码。

  1. 转至 GitHub
  2. 将资料档案库克隆或下载到本地计算机。
  3. 按照 README 文档中的说明进行操作。

浏览更多

详细了解 IBM Spectrium LSF、IBM Spectrium LSF 资源连接器和 OCI。

查看以下附加资源:

确认

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok