Lustreファイル・システムのデプロイについて

AI/MLトレーニング、推論、および高性能コンピューティングのニーズの高まりに伴い、拡張可能なフルマネージド・ファイル・システム・ソリューションを検討する必要があります。将来の成長をサポートする堅牢なクラウドベースのファイル・システムをデプロイする方法をご紹介します。

Oracle Cloud Infrastructure(OCI)File Storage with Lustreは、導入、スケーリング、メンテナンスのタスクを自動化し、Lustreインフラストラクチャ管理ではなくアプリケーションに集中できるようにします。OCIのサービスは、オープン・ソースのLustreをサービスとして実装します。Lustreファイル・システムは、高速なデータ処理と高スループットを実現するために、1秒当たり複数テラバイトの速度を実現するように拡張できます。

OCIコンソール、API、SDK、コマンドライン・インタフェース(CLI)およびメトリックを使用して、Lustreファイル・システムを作成、管理および監視できます。システムにインストールされているLustreクライアントは、Lustreファイル・システム(特に、サブネットを使用するLustreストレージ・サーバー)と通信します。セキュリティ・リスト、ルーティング表、セキュリティ・グループおよびその他のVCN関連構成の管理を担当します。

このソリューション・プレイブックでは、Lustreファイル・システムを作成、マウントおよび監視する手順とともに、OCI File Storage with Lustreのベスト・プラクティスについて説明します。目標は、Lustreファイル・システムの使用を開始し、Lustreクライアントからアクセスすることです。

開始する前に

開始する前に、Lustreのドキュメントを参照して、Lustreを使用したOCI File Storageの詳細を確認してください。

アーキテクチャ

このアーキテクチャは、仮想クラウド・ネットワーク(VCN)内のLustre通信を示します。すべてのLustreコンポーネントは、高可用性を実現するために、複数のフォルト・ドメインにわたって同じ可用性ドメインにデプロイされます。Lustreファイル・システムは、OCIコンピュート・インスタンス(仮想マシンとベア・メタル・インスタンスの両方)およびOracle Cloud Infrastructure Kubernetes Engine (OKE)などのコンテナ化された環境からマウントできます。

次の図は、Oracle Cloudによってデプロイおよび管理される基礎となるLustreコンポーネントおよび顧客管理コンポーネントのアーキテクチャの概要を示しています。



lustre-file-system-oci-arch.zip

アーキテクチャには、次のOCIコンポーネントがあります。

  • リージョン

    Oracle Cloud Infrastructureリージョンは、可用性ドメインをホストする1つ以上のデータ・センターを含むローカライズされた地理的領域です。リージョンは他のリージョンから独立しており、長距離の場合は(国または大陸にまたがって)分離できます。

  • 可用性ドメイン

    可用性ドメインは、リージョン内の独立したスタンドアロン・データ・センターです。各可用性ドメイン内の物理リソースは、他の可用性ドメイン内のリソースから分離されているため、フォルト・トレランスが提供されます。可用性ドメインどうしは、電力や冷却、内部可用性ドメイン・ネットワークなどのインフラを共有しません。そのため、ある可用性ドメインでの障害は、リージョン内の他の可用性ドメインに影響を与えないでください。

    OCI File Storage with Lustreは、単一の可用性ドメインにデプロイされます。

  • フォルト・ドメイン

    フォルト・ドメインは、可用性ドメイン内のハードウェアおよびインフラストラクチャのグループです。各アベイラビリティ・ドメインに3つのフォルト・ドメインがあり、それぞれに電源とハードウェアが独立しています。複数のフォルト・ドメインにリソースを分散する場合、アプリケーションは、物理サーバーの障害、システム・メンテナンスおよびフォルト・ドメイン内の電源障害を許容できます。

    OCI File Storage with Lustreコンポーネントは、冗長性と高可用性を提供するために、複数のフォルト・ドメインにデプロイされます。

  • 仮想クラウド・ネットワーク(VCN)およびサブネット

    VCNは、Oracle Cloud Infrastructureリージョンで設定する、カスタマイズ可能なソフトウェア定義ネットワークです。従来のデータ・センター・ネットワークと同様に、VCNsではネットワーク環境を制御できます。VCNには重複しない複数のCIDRブロックを含めることができ、VCNの作成後にそれらを変更できます。VCNをサブネットにセグメント化して、そのスコープをリージョンまたは可用性ドメインに設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックにもプライベートにもできます。

    OCI File Storage with Lustreは、VCNを介してアクセスされ、お客様が管理するサブネットにデプロイされます。

アーキテクチャには、次のLustreコンポーネントがあります。MGTを除くすべてのコンポーネントは、より多くの容量が必要になると追加されます。

  • Lustreストレージ・ボリューム(オブジェクト・ストレージ・ターゲットまたはOST)

    これらは、ファイルデータが格納されるボリュームです。

  • メタ・データ・ボリューム(メタ・データ・ターゲットまたはMDT)

    ファイル名や属性などのファイル・メタ・データは、これらのボリュームに格納されます。

  • Lustre管理ボリューム(管理ターゲット、またはMGT)

    ファイル・システムには1つのみ存在します。これは、Lustreファイル・システムの構成情報を格納するために使用されるボリュームです。

  • 1つ以上のストレージ・ターゲット(OSS)をホストするストレージ・サーバー

    これらは、仮想またはベア・メタル・コンピュート・インスタンスです。

  • 1つ以上のメタ・データ・ターゲット(MDS)をホストするメタデータ・サーバー

    これらは、仮想またはベア・メタル・コンピュート・インスタンスです。

  • LNet (Lustreネットワーキング)

    LNetは、Lustreノード(クライアントを含む)が相互に通信できるようにする仮想ネットワーキング・レイヤーです。LNetは、基礎となるネットワーク・プロトコルの複雑さを隠し、LustreがEthernetやInfiniBandなどの様々なネットワーク・タイプ間で透過的に動作できるようにします。

  • VCNおよびサブネット

    Lustreファイル・システムのコア・データ通信は、VCNsおよびサブネットに依存します。これには、クライアントとサーバー間の通信、およびサーバーとサーバー間の通信が含まれます。

必須サービスおよびポリシーについて

このソリューションには、次のサービスおよびポリシーが必要です。

  • Oracle Cloud Infrastructure File StorageとLustre
  • Oracle Cloud Infrastructure Identity and Access Management
  • Oracle Cloud Infrastructure Virtual Cloud Network

各サービスに必要なポリシーを次に示します。すぐに開始するには、サブネットに次のポリシーおよびセキュリティ・ルールを実装することを検討してください。最小特権の原則に従うためには、組織のセキュリティ・ニーズに応じて必要な特定のポリシーが異なります。OCIでLustreファイル・システムを管理するために必要なポリシーの完全なリストは、Lustreのドキュメントを参照してください。

サービス名: OCI IAMポリシー・グループ 必須...
Oracle Cloud Infrastructure File StorageとLustre: lustre-admin-group
  • Lustreファイル・システムを作成および管理します。
  • VCNリソースを使用およびアクセスします。
  • VNICやOCI Vaultなどのコンポーネントを管理およびアクセスします。
  • 保存時の暗号化が必要な場合、OCI Vaultキーにアクセスします。

Lustreを使用したファイル・ストレージには、次の権限が必要です:

allow service lustrefs to use virtual-network-family in tenancy

セキュリティ・リスト・イングレスには、次のルールが必要です:

Stateful ingress from source workload subnet CIDR, source port 512-1023 and destination Lustre subnet CIDR, destination TCP port 988

セキュリティ・リスト・エグレスには、次のルールが必要です:

Egress to 0.0.0.0/0 to all protocols

必要なものを得るには、Oracle製品、ソリューションおよびサービスを参照してください。

Lustre Shared Responsibility Modelを使用したOCI File Storageについて

OCIには、API、SDK、コマンドライン・インタフェース、OCIコンソール、およびLustreファイル・システムを管理するためのファイル・システム・メトリックが用意されています。

OCI File Storage with Lustreでは、ファイル・システムを作成、管理および監視できます。このサービスは、Lustreストレージ・サーバーやLustreストレージ・ターゲットなど、必要なLustreコンポーネントのプロビジョニングと管理を自動化します。OCIは、ストレージ・サーバーやストレージ・ボリュームなどのバックエンド・コンポーネントのプロビジョニングと管理を担当します。アーキテクチャ図に示すように、ストレージ・サーバーは、顧客のサブネットを使用してLustre通信用に相互接続されます。セキュリティ・リスト、ルーティング表、セキュリティ・グループおよびその他のVCN関連の構成は、お客様が管理します。

サブネット・セキュリティ・リスト、IAMポリシーおよびLustreクライアントの考慮事項

LustreでFile Storageを実装する場合は、次の考慮事項を確認してください。これらは、Lustreファイル・システムを作成する前に配置する必要があります。
  • ストレージ容量およびサービス制限

    テナンシに新しいファイル・システムの作成をサポートするためのサービス制限割当てがあることを確認します。

  • 十分なIPアドレス

    Lustreサブネットに、ファイル・システム・リソースに割り当てるのに十分なIPアドレスがあることを確認してください。詳細は、「Lustre接続の構成」の項を参照してください。

  • サブネット・セキュリティおよびIAMポリシー

    次が正しく構成されていない場合、プロビジョニング・ステージ中にタイムアウトすると、ファイル・システムの作成は失敗します。

    • セキュリティ・ルールまたはセキュリティ・グループ(あるいはその両方)を構成して、Lustreサーバーとクライアント間のポート988通信を許可する必要があります。
    • lustrefsに、テナンシでvirtual-network-familyを使用する権限があることを確認します。

    詳細は、「必要なサービスおよびポリシーについて」の項を参照してください。

  • Lustreクライアント・パッケージ

    5.14.xカーネルを実行しているUbuntuおよびRedhat Compatible Kernel (RHCK)バージョン4.18.xまたは5.15.xを実行しているOracle Linux 8または9では、Lustreクライアント・バージョン2.15.5を使用します。Lustre DKLMモジュールは、Lustreクライアント・パッケージを様々なカーネル・バージョンで実行できるように柔軟にします。Lustreクライアントについて質問がある場合は、OCIサポートに連絡してください。

  • Lustreクライアントのファイアウォール

    デフォルトでは、Oracle LinuxとUbuntuの両方がクライアントでファイアウォールを実行します。ポート988が双方向通信用にオープンしていることを確認します。Lustreクライアントもポート988をリスニングし、このポートは、サーバー上のポート988と通信するクライアントの能力とともに開く必要があります。テストとして、ファイアウォールを停止し、ファイアウォール・ルールをフラッシュして、クライアント上のファイアウォール・ルールの干渉を回避できます。常にセキュリティのベスト・プラクティスに従ってください。ご質問がある場合は、OCIサポートにご連絡ください。