High Performanceコンピューティング

High Performance Computing(HPC)は、従来のComputeと比較して、複雑な計算を実行し、データを処理する時間を短縮します。HPCは、ベア・メタル・サーバー、超低レイテンシ・クラスタ・ネットワーキング、高パフォーマンス・ストレージ・オプションおよびパラレル・ファイル・システムを使用します。このインフラストラクチャは、人工知能、ディープ・ラーニング、データ分析、科学シミュレーション、その他の高負荷ワークロードなどの計算集中型のワークロードに対して並列処理を可能にします。

High Performance Computingの開始

標準インスタンス作成ワークフローを使用して、単一ノードのHPCインスタンスを作成できます。RDMAネットワーク・グループ内の複数のHPCインスタンスを使用する場合は、インスタンス・プールのあるクラスタ・ネットワークまたはコンピュート・クラスタを使用して作成できます。

RDMAクラスタ・ネットワークの使用

リモート・ダイレクト・メモリー・アクセス(RDMA)クラスタ・ネットワークは、高帯域幅の超低レイテンシ・ネットワークと接続される高性能コンピューティング(HPC)、GPUまたは最適化されたインスタンスのグループ。このクラスタ内の各ノードはベア・メタル・マシンで、他のノードに物理的に近い場所に配置されています。ノード間のリモート・ダイレクト・メモリー・アクセス(RDMA)ネットワークで提供されるレイテンシは数マイクロ秒とごく低く、これはオンプレミスのHPCクラスタと同等です。

クラスタ・ネットワークは、負荷の高い並列コンピューティング・ワークロード用に設計されています。例:

  • 自動車または航空機モデリングの計算流体動力学シミュレーション
  • 財務モデリングおよびリスク分析
  • 生物医学シミュレーション
  • 宇宙開発のための軌道解析および設計
  • 人工知能およびビッグ・データ・ワークロード

Oracle Cloud Infrastructureには、2つのタイプのクラスタ・ネットワークがあります。どちらの場合も、ネットワークは、超低レイテンシ・ネットワークに接続されたベア・メタル・インスタンスのグループです。

  • インスタンス・プールを使用するクラスタ・ネットワークでは、インスタンス・プールを使用して、RDMAネットワーク・グループ内の同一インスタンスのグループを管理できます。グループとして管理される特定数の同一インスタンス用に容量を予測できる必要がある場合は、インスタンス・プールを備えたクラスタ・ネットワークを使用します。
  • コンピュート・クラスタでは、クラスタ内のインスタンスを個別に管理できます。コンピュート・クラスタを作成する場合、空のRDMAネットワーク・グループを作成します。グループの作成後、グループにインスタンスを追加したり、グループからインスタンスを削除したりできます。RDMAネットワーク内のインスタンスを互いに独立して管理する場合、またはネットワーク・グループ内の異なるタイプのインスタンスを使用する場合は、コンピュート・クラスタを使用します。

HPC用のOracle Cloud Agentプラグイン

Oracle Cloud Infrastructureは、HPCベア・メタル・インスタンス専用のクラウド・エージェント・プラグインを提供し、HPCネットワークの構成と認証を簡素化し、高パフォーマンス・コンピューティングに特化した監視を提供します。

HPCプラグインは、すべての商用リージョンでHPCで使用できます。

HPCでサポートされるシェイプおよびイメージ
シェイプ サポートされているイメージ デフォルト設定
BM.GPU.A10.4 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.GPU.A100 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.GPU.H100.8 Ubuntu 20.04以上、OL7、OL8 OCA 1.37.0以上で有効
BM.GPU4.8 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.HPC2.36 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.Optimized3.36 Ubuntu 20.04以上、OL7、OL8 OCA 1.37.0以上で有効
HPCプラグインのサブモジュールは、個別に有効または無効にできます。
  • 自動構成
    • GPUシェイプで推奨されるネットワーク・アダプタ設定を適用します
    • GPUシェイプに推奨されるMellanox Connect-X設定を適用します
    • プライマリVCNに基づいてRDMAネットワーク・インタフェースにIPアドレスを割り当てます。
  • RDMA認証/構成
    • 推奨されるQoSおよびMTUを使用してRDMAネットワーク・インタフェースを構成します。
    • 必要なRDMAネットワーク認証を構成および保守します。
  • GPUおよびRDMA監視
    • 追加のRDMAおよびGPUパフォーマンス・メトリックを発行します。

既存のベア・メタル・インスタンスでHPCプラグインを有効にするには、既存のインスタンスを作成するか、Oracle Cloud Agent 1.35.0以上に移行する必要があります。詳細は、Oracle Cloud Agentを参照してください。

GPUおよびRDMAメトリックの有効化

Oracle Cloud AgentをインストールしてHPCモニタリング・プラグインを有効にすると、GPUおよびRDMAメトリックが自動的に有効になります。OCIは、メトリックを顧客ネームスペースに送信し、テナンシに対して請求します。

これらのメトリックで追加料金が発生するかどうかを判断するには、メータリング価格設定を参照してください。

HPCメトリックの詳細なリストは、コンピュート・インスタンス・メトリックを参照してください。