OCI用に構成されたリソース・コネクタを使用したIBM Spectrum LSFのデプロイ

IBM Spectrum LSFリソース・コネクタの自動スケーリングを使用して、ワークロードに割り当てられたリソース数を実際の需要に基づいて動的に調整することで、固定リソース割当ての問題を解決します。高パフォーマンス・コンピューティング(HPC)環境のリソース使用率を最適化し、コストを削減し、全体的な効率を向上させます。

IBM Spectrum LSF (ロード共有機能)は、分散コンピューティング環境に使用されるワークロード管理プラットフォームです。ユーザーは、コンピュータまたはコンピュート・クラスタのネットワーク全体でコンピュータ・ジョブを管理およびスケジュールできるため、ジョブが効率的かつ中断なく完了します。

IBM Spectrum LSF機能(以前はホストファクトリと呼ばれていました)のリソースコネクタを使用すると、LSFクラスタはサポートされているリソースプロバイダからリソースを借用できます。ワークロードが低い場合、LSFはリソース・コネクタを使用して割り当てられるリソースの数を減らし、コストを削減して使用率を向上させています。ワークロードが高い場合、クラウド・プロバイダからより多くのリソースがリクエストされます。

このアーキテクチャのデプロイには管理権限が必要です。

アーキテクチャ

このリファレンス・アーキテクチャは、プライマリ・ホスト、クラスタ・ノード(リソース・コネクタがOCI APIをコールしたときにオンデマンドで作成)および要塞サービスを持つ既存のサブネットにデプロイされたIBM Spectrum LSFクラスタを示しています。

LSFプライマリ・ホストは、OCI APIと対話するためにinstance_principal認可を必要とし、デフォルト構成(VM.Standard.E4)を持ちます。スタックの作成中に調整できるフレックス/2 OCPU/8 GB。

LSF resource_connectorは、動的キュー用に事前構成されており、OCI APIから2つのタイプのコンピュート・リソース(amd2 - VM.Standard.E3)をリクエストできます。Flex / 2 OCPU/4 GBおよびamd4 - VM.Standard.E4。ジョブ要件に応じて、フレックス/2 OCPU/8 GB)。resource_connectorで使用可能なテンプレートは、LSF構成ファイル(<lsf_top>/conf/resource_connector/oci/conf/oci_config.jsonおよび<lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json)で変更し、クラスタ構成を再ロードして、次のコマンドを使用してクラスタ構成を再ロードできます。

$ lsadmin reconfig
$ badmin reconfig
$ badmin mbdrestart

resource_connectorがOCIからリクエストできるホストのデフォルトの最大数は、使用可能なテンプレートごとに8です(maxNumberは、追加のノードが必要な場合はファイル<lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.jsonで変更できます)。

推奨されるデプロイメント・アプローチでは、Oracle Cloud Infrastructure Resource Managerを介してワンクリックのデプロイメント・リンクを使用します。

次の図は、このリファレンス・アーキテクチャを示しています。



oci-ibm-lfs-architecture-oracle.zip

このアーキテクチャには、次のコンポーネントがあります。

  • Tenancy

    テナンシは、Oracle Cloud Infrastructureのサインアップ時にOracle Cloud内でOracleによって設定される、セキュアで分離されたパーティションです。テナンシ内のOracle Cloudでリソースを作成、編成および管理できます。テナンシは、会社または組織と同義です。通常、会社は1つのテナンシを持ち、そのテナンシ内の組織構造を反映します。通常、1つのテナンシは1つのサブスクリプションに関連付けられ、1つのサブスクリプションには通常、1つのテナンシのみが含まれます。

  • リージョン

    Oracle Cloud Infrastructureリージョンとは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含む、ローカライズされた地理的領域です。リージョンは他のリージョンから独立し、長距離の場合は(複数の国または大陸にまたがって)分離できます。

  • コンパートメント

    コンパートメントは、Oracle Cloud Infrastructureテナンシ内のリージョン間論理パーティションです。Oracle Cloudリソースの使用割当てを編成、制御および設定するには、コンパートメントを使用します。特定のコンパートメントでは、アクセスを制御し、リソースの権限を設定するポリシーを定義します。

  • 可用性ドメイン

    可用性ドメインは、リージョン内の独立したスタンドアロン・データ・センターです。各可用性ドメイン内の物理リソースは、他の可用性ドメイン内のリソースから分離されているため、フォルト・トレランスが提供されます。可用性ドメインどうしは、電力や冷却、内部可用性ドメイン・ネットワークなどのインフラを共有しません。そのため、ある可用性ドメインでの障害は、リージョン内の他の可用性ドメインには影響しません。

  • フォルト・ドメイン

    フォルト・ドメインは、可用性ドメイン内のハードウェアおよびインフラストラクチャのグループです。各アベイラビリティ・ドメインに3つのフォルト・ドメインがあり、電源とハードウェアは独立しています。複数のフォルト・ドメインにリソースを分散する場合、アプリケーションは、物理サーバーの障害、システム・メンテナンスおよびフォルト・ドメイン内の電源障害を許容できます。

  • 仮想クラウド・ネットワーク(VCN)およびサブネット

    VCNは、Oracle Cloud Infrastructureリージョンで設定する、カスタマイズ可能なソフトウェア定義のネットワークです。従来のデータ・センター・ネットワークと同様に、VCNを使用するとネットワーク環境を制御できます。VCNには重複しない複数のCIDRブロックを含めることができ、VCNの作成後にそれらを変更できます。VCNをサブネットにセグメント化して、そのスコープをリージョンまたは可用性ドメインに設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックにもプライベートにもできます。

  • セキュリティ・リスト

    サブネットごとに、サブネット内外で許可する必要があるトラフィックのソース、宛先およびタイプを指定するセキュリティ・ルールを作成できます。

  • ネットワークアドレス変換(NAT)ゲートウェイ

    NATゲートウェイを使用すると、VCN内のプライベート・リソースは、受信インターネット接続にこれらのリソースを公開することなく、インターネット上のホストにアクセスできます。

  • サービス・ゲートウェイ

    サービス・ゲートウェイは、VCNからOracle Cloud Infrastructure Object Storageなどの他のサービスへのアクセスを提供します。The traffic from the VCN to the Oracle service travels over the Oracle network fabric and does not traverse the internet.

  • インターネット・ゲートウェイ

    インターネット・ゲートウェイは、VCN内のパブリック・サブネットとパブリック・インターネット間のトラフィックを許可します。

  • 要塞サービス

    Oracle Cloud Infrastructure Bastionは、パブリック・エンドポイントがなく、ベア・メタルや仮想マシン、Oracle MySQL Database ServiceAutonomous Transaction Processing (ATP)、Oracle Cloud Infrastructure Kubernetes Engine (OKE)、およびSecure Shell Protocol (SSH)アクセスを許可するその他のリソースなど、厳密なリソース・アクセス制御を必要とするリソースへの制限付きで時間制限付きのセキュアなアクセスを提供します。OCI Bastionサービスを使用すると、ジャンプ・ホストをデプロイおよびメンテナンスせずにプライベート・ホストへのアクセスを有効にできます。さらに、アイデンティティベースの権限と一元化された監査済みの期限付きSSHセッションにより、セキュリティ・ポスチャが向上します。OCI Bastionは、要塞アクセスのパブリックIPの必要性をなくし、リモート・アクセスを提供する際の手間と潜在的な攻撃対象領域を排除します。

  • アイデンティティおよびアクセス管理(IAM)

    Oracle Cloud Infrastructure Identity and Access Management(IAM)は、Oracle Cloud Infrastructure(OCI)およびOracle Cloud Applicationsのアクセス・コントロール・プレーンです。IAM APIおよびユーザー・インタフェースを使用すると、アイデンティティ・ドメインおよびアイデンティティ・ドメイン内のリソースを管理できます。各OCI IAMアイデンティティ・ドメインは、スタンドアロンのアイデンティティおよびアクセス管理ソリューション、または異なるユーザー集団を表します。

  • Oracle Cloud Infrastructure Resource Manager

    OCI Resource Managerは、すべてのOCIリソースのデプロイメントと運用を自動化します。Infrastructure as Code (IaC)モデルを使用して、サービスはTerraformに基づいています。

レコメンデーション

LSFクラスタのスケーラビリティと可用性を確保するには、次の推奨事項を開始点として使用します。要件は、ここで説明するアーキテクチャとは異なる場合があります。
  • VCNおよびサブネット

    既存のサブネットを選択する場合は、LSFリソース・コネクタによってリクエストされたすべてのコンピュート・リソースに対応できる十分な大きさのCIDRブロックを考慮する必要があります。

    リージョナル・サブネット(複数アド・リージョンの場合)を使用します。

    サブネット内のすべての通信を許可します(サブネットCIDRブロックからすべての宛先ポートへのすべてのイングレス接続を許可するルールをサブネットのセキュリティ・リストに追加)。

考慮事項

プロビジョニング時には、次の側面を考慮します。

  • IBM Spectrum LSFバイナリ

    LSFのインストール/実行に必要なバイナリおよびライセンスは含まれません。このデプロイメントは、LSFバージョン10.1およびパッチ・バージョン601088でテストされました。

    デプロイメントの前に、IBMサポート・ポータルから次のファイルをダウンロードし、OCIオブジェクト・ストア・バケットにロードして、事前認証済リクエストを作成できます。

    • lsf10.1_lsfinstall.tar.Z
    • lsf10.1_lnx310-lib217-x86_64.tar.Z
    • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
    • lsf_entitlement.dat
  • VCN

    DNS解決は、LSFマスター・ノードに使用されるVCNおよびサブネットに対して有効にする必要があります。

デプロイ

ソリューションをデプロイするTerraformコードは、GitHubにあります。

  1. GitHubに移動します。
  2. リポジトリをローカル・コンピュータにクローニングまたはダウンロードします。
  3. READMEドキュメントの手順に従います。

詳細の参照

IBM Spectrium LSF、IBM Spectrium LSFリソース・コネクタおよびOCIについてさらに学習します。

次の追加リソースを確認します。

確認

Authors: Chandrashekar Avadhani, Andrei Ilas

Contributors: John Sulyok