Oracle Cloud Infrastructureでの高パフォーマンス・コンピューティング(HPC)のデプロイ

シミュレーションおよびモデリングでのパラレル・コンピューティング・ワークロードの需要は、クラウドでコスト効率よく管理できるようになりました。

高パフォーマンス・コンピューティング(HPC)リソースを高帯域幅で低レイテンシのクラウド・ネットワークにデプロイします。パフォーマンスはオンプレミスHPCネットワークのパフォーマンスに影響しますが、クラウド・コンピューティングが提供するコストと操作上の利点があります。

クラスタ・ネットワーキングは、HPCインスタンスが高帯域幅の低遅延ネットワークと通信できるようにするOracle Cloud Infrastructureテクノロジです。クラスタ内の各ノードは、他のノードと物理的に近い場所にあるベア・メタル・マシンです。ノード間のRemote Direct Memory Access (RDMA)ネットワークは、2マイクロ秒未満のレイテンシを提供し、オンプレミスHPCクラスタに相当します。Oracleは、クラスタ・ネットワーキングにRDMA over Converged EthernetまたはRoCEv2 Protocolを使用します。

クラスタ・ネットワークは、次のような高需要のパラレル・コンピューティング・ワークロード用に設計されています。

  • 自動車または航空機モデリングの計算流体動力学シミュレーション

  • クラッシュシミュレーション

  • 財務モデリングおよびリスク分析

  • 生物学シミュレーション

  • 宇宙探査の軌道解析および設計

  • 人工知能とビッグ・データのワークロード

クラスタ・ネットワークは次のものでサポートされています。

  • 仮想クラウド・ネットワーク

    • パブリック・サブネット

    • プライベート・サブネット

    • インターネット・ゲートウェイ

    • NATゲートウェイ

  • 計算ノード

    • パブリック・サブネット内の要塞ホスト

    • プライベート・サブネット内のHPCコンピュート・ノード

アーキテクチャ

この参照アーキテクチャは、スケジューラを実行し、クラスタにアクセスするための要塞サーバーとして使用できる要塞またはヘッド・ノードをデプロイします。

要件に応じて、GPU仮想マシン(VM)やベア・メタル・マシンなどのビジュアライゼーション・ノードを作成できます。パブリック・サブネットにビジュアライゼーション・ノードを配置することをお薦めします。HPCワークロードでは、多くの場合、シミュレーションの出力を事前または事後処理、監視または分析するための視覚化ツールが必要になります。NVIDIA GRID対応ワークステーションは、Oracle Cloud Marketplaceからデプロイできます。

このアーキテクチャは、パブリックおよびプライベート仮想クラウド・ネットワーク(VCN)を使用してデプロイされます。カスタマ・ネットワークは、IPSec VPN、Oracle Cloud Infrastructure FastConnectまたはパブリック・インターネットを介してのみヘッド・ノードおよびビジュアライゼーション・ノードにアクセスできます。

アーキテクチャでは、1つの可用性ドメインとリージョナル・サブネットを持つリージョンを使用します。複数の可用性ドメインを持つリージョンで同じアーキテクチャを使用できます。可用性ドメインの数に関係なく、デプロイメントにリージョナル・サブネットを使用することをお薦めします。

これらのクラスタ・ネットワークには、Oracle Cloud Marketplaceからアクセスするか、手動でデプロイできます。いずれの場合も、ベースライン参照アーキテクチャを使用して、特定の要件を満たすように調整することをお薦めします。

次の図は、この参照アーキテクチャを示しています。



hpc- oci- architecture.zip

アーキテクチャには、次のコンポーネントがあります。

  • リージョン

    Oracle Cloud Infrastructureリージョンは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含む、ローカライズされた地理的領域です。地域は他の地域から独立しており、広大な距離で(国または大陸間で)分離できます。

  • 可用性ドメイン

    可用性ドメインは、リージョン内のスタンドアロンの独立したデータ・センターです。各可用性ドメインの物理リソースは、フォルト・トレランスを提供する他の可用性ドメインのリソースから分離されます。可用性ドメインは、電源や冷却などのインフラストラクチャや内部可用性ドメイン・ネットワークを共有しません。したがって、ある可用性ドメインで障害が発生しても、リージョン内の他の可用性ドメインに影響する可能性はほとんどありません。

  • フォルト・ドメイン

    フォルト・ドメインは、可用性ドメイン内のハードウェアおよびインフラストラクチャのグループです。各可用性ドメインには、独立した電源とハードウェアを持つ3つのフォルト・ドメインがあります。リソースを複数のフォルト・ドメインに分散する場合、アプリケーションはフォルト・ドメイン内の物理サーバー障害、システム・メンテナンスおよび電源障害を許容できます。

  • 仮想クラウド・ネットワーク(VCN)およびサブネット

    VCNは、Oracle Cloud Infrastructureリージョンで設定するカスタマイズ可能なソフトウェア定義ネットワークです。従来のデータ・センター・ネットワークと同様に、VCNではネットワーク環境を完全に制御できます。VCNには、VCNの作成後に変更できる複数の重複しないCIDRブロックを含めることができます。VCNは、リージョンまたは可用性ドメインにスコープ指定できるサブネットにセグメント化できます。各サブネットは、VCN内の他のサブネットと重複しない連続したアドレス範囲で構成されます。サブネットのサイズは作成後に変更できます。サブネットはパブリックまたはプライベートにできます。

  • 要塞ホスト

    要塞ホストは、クラウド外部からトポロジへのセキュアで制御されたエントリ・ポイントとして機能するコンピュート・インスタンスです。要塞ホストは通常、非武装地帯(DMZ)でプロビジョニングされます。これにより、クラウドの外部から直接アクセスできないプライベート・ネットワークに機密リソースを配置することで、機密リソースを保護できます。トポロジには、定期的に監視および監査できる単一の既知のエントリ・ポイントがあります。したがって、トポロジのより機密性の高いコンポーネントへのアクセスを損なうことなく、公開を回避できます。

  • HPCクラスタ・ノード

    ヘッド・ノードは、RDMA対応クラスタ(100 gbps RoCE v2分離ネットワーク)であるこれらのコンピュート・ノードをプロビジョニングおよびプロビジョニング解除します。ファイル・ストレージに格納されているデータを処理し、結果をファイル・ストレージに返します。

  • ビジュアライゼーション・ノード

    ビジュアライゼーション・ノードには通常、HPCクラスタ・ノードで処理されるデータを視覚的に表現および分析するための2 Dまたは3 Dアプリケーションがインストールされています。

  • セキュリティ・リスト

    サブネットごとに、サブネット内外で許可する必要があるトラフィックのソース、宛先およびタイプを指定するセキュリティ・ルールを作成できます。

推奨事項

Oracle Cloud Infrastructureにハイパフォーマンス・コンピューティング(HPC)をデプロイする開始点として、次の推奨事項を使用してください。

実際の要件は、ここで説明するアーキテクチャとは異なる場合があります。

  • VCN

    VCNを作成する場合、VCNのサブネットにアタッチする予定のリソースの数に基づいて、必要なCIDRブロックの数と各ブロックのサイズを決定します。標準のプライベートIPアドレス空間内にあるCIDRブロックを使用します。

    プライベート接続を設定する予定の他のネットワーク(Oracle Cloud Infrastructure、オンプレミス・データ・センターまたは別のクラウド・プロバイダ内)と重複しないCIDRブロックを選択します。

    VCNを作成した後、CIDRブロックを変更、追加および削除できます。

    サブネットを設計する際には、トラフィック・フローとセキュリティ要件を考慮してください。特定の層またはロール内のすべてのリソースを、セキュリティ境界として機能する同じサブネットにアタッチします。

    リージョナル・サブネットを使用します。

  • セキュリティ・リスト

    セキュリティ・リストを使用して、サブネット全体に適用されるイングレス・ルールおよびエグレス・ルールを定義します。

  • 要塞ノード

    VM.Standard.2.8 Computeシェイプを使用します。ノードは要塞ホストとして使用され、HPCジョブをスケジュールするために使用されるため、ローカルにアタッチされたストレージまたはGPU処理は必要ありません。

  • ビジュアライゼーション・ノードこのノードはビジュアライゼーションに使用され、グラフィック集中型のアプリケーションとともにインストールされる可能性が高いため、VM.GPU3.2コンピュート・シェイプを使用します。
  • HPCクラスタ・ノード

    BM.HPC2.36 Computeシェイプを使用します。このシェイプには、2つの3.7GHz Intel Xeon Gold 6154プロセッサ、384 GB RAMおよび6.4-TB NVMEローカル・ストレージから36個のコアがあります。Oracle Cloud Infrastructureで使用可能な強力なNVIDIA GPUを使用することで、リモート・ビジュアライゼーションを介してクラウド上で結果を後処理できます。

注意事項

Oracle Cloud Infrastructureにハイパフォーマンス・コンピューティング(HPC)をデプロイする場合は、次の実装オプションを検討してください。

  • パフォーマンス

    最適なパフォーマンスを得るには、適切な帯域幅を持つ正しいコンピュート・シェイプを選択します。

  • 可用性

    デプロイメント要件およびリージョンに基づいて高可用性オプションを使用することを検討してください。オプションには、リージョンおよびフォルト・ドメインでの複数の可用性ドメインの使用が含まれます。

  • コスト

    ベア・メタルGPUインスタンスは、より高いコストで必要なCPU電力を提供します。要件を評価して、適切なコンピュート・シェイプを選択します。

  • モニタリングとアラート

    必要に応じてシェイプをスケール・アップまたはスケール・ダウンできるように、ノードのCPUおよびメモリー使用率の監視およびアラートを設定します。

デプロイ

この参照アーキテクチャをデプロイするTerraformスタックは、Oracle Cloud Marketplaceでスタックとして使用できます。GitHubからコードをダウンロードし、要件に合わせてカスタマイズすることもできます。

  • Oracle Cloud Marketplaceでスタックを使用してデプロイ:
    1. Oracle Cloud Marketplaceに移動します。
    2. 「アプリケーションの入手」をクリックします。
    3. 画面のプロンプトに従います。
  • GitHubのコードを使用してデプロイします。
    1. GitHubに進みます。
    2. リポジトリをローカル・コンピュータにクローニングまたはダウンロードします。
    3. READMEドキュメントの指示に従います。

変更ログ

このログには、重要な変更がリストされます。