High Performance Computing

High Performance Computing (HPC)は、複雑な計算を実行し、従来のコンピュートよりも迅速にデータを処理します。HPCは、ベア・メタル・サーバー、超低レイテンシのクラスタ・ネットワーキング、高パフォーマンスのストレージ・オプションおよびパラレル・ファイル・システムを使用します。このインフラストラクチャにより、人工知能、ディープ・ラーニング、データ分析、科学シミュレーション、その他の非常に集中的なワークロードなど、計算集約的なワークロードに対する並列処理が可能になります。

High Performance Computingの概要

標準インスタンス作成ワークフローを使用して、単一ノードのHPCインスタンスを作成できます。RDMAネットワークグループで複数のHPCインスタンスを使用する場合は、Cluster Networks with Instance Poolsまたは Compute Clustersから作成できます。

RDMA Cluster Networksの使用

リモート・ダイレクト・メモリー・アクセス(RDMA)クラスタ・ネットワークは、ハイ・パフォーマンス・コンピューティング(HPC)、GPUまたは最適化されたインスタンスのグループで、高帯域幅の超低レイテンシ・ネットワークと接続されます。このクラスタ内の各ノードはベア・メタル・マシンで、他のノードに物理的に近い場所に配置されています。ノード間のリモート・ダイレクト・メモリー・アクセス(RDMA)ネットワークで提供されるレイテンシは数マイクロ秒とごく低く、これはオンプレミスのHPCクラスタと同等です。

クラスタ・ネットワークは、負荷の高い並列コンピューティング・ワークロード用に設計されています。例:

  • 自動車または航空機モデリングの計算流体動力学シミュレーション
  • 財務モデリングおよびリスク分析
  • 生物医学シミュレーション
  • 宇宙開発のための軌道解析および設計
  • 人工知能およびビッグ・データ・ワークロード

Oracle Cloud Infrastructureには、2つのタイプのクラスタ・ネットワークが用意されています。どちらの場合も、ネットワークは、超低レイテンシ・ネットワークに接続されたベア・メタル・インスタンスのグループです。

  • インスタンス・プールを使用するクラスタ・ネットワークでは、インスタンス・プールを使用して、RDMAネットワーク・グループ内の同一インスタンスのグループを管理できます。グループとして管理される特定数の同一インスタンス用に容量を予測できる必要がある場合は、インスタンス・プールを備えたクラスタ・ネットワークを使用します。
  • コンピュート・クラスタでは、クラスタ内のインスタンスを個別に管理できます。コンピュート・クラスタを作成する場合、空のRDMAネットワーク・グループを作成します。グループの作成後、グループにインスタンスを追加したり、グループからインスタンスを削除したりできます。RDMAネットワーク内のインスタンスを互いに独立して管理する場合、またはネットワーク・グループ内の異なるタイプのインスタンスを使用する場合は、コンピュート・クラスタを使用します。

HPC用Oracle Cloud Agentプラグイン

Oracle Cloud Infrastructureは、HPCベア・メタル・インスタンス固有のクラウド・エージェント・プラグインを提供して、HPCネットワークの構成と認証を簡素化し、高パフォーマンス・コンピューティングの特殊な監視を提供します。

HPCプラグインは、すべての商用リージョンでHPCで使用できます。

HPCでサポートされているシェイプおよびイメージ
シェイプ サポートされているイメージ デフォルト設定
BM.GPU.A10.4 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.GPU.A100 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.GPU.H100.8 Ubuntu 20.04以上、OL7、OL8 OCA 1.37.0以上で有効
BM.GPU4.8 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.HPC2.36 Ubuntu 20.04以上、OL7、OL8、CentOS 7以上 OCA 1.37.0以上で推奨
BM.Optimized3.36 Ubuntu 20.04以上、OL7、OL8 OCA 1.37.0以上で有効
HPCプラグインのサブモジュールは、個別に有効化または無効化できます。
  • 自動構成
    • GPUシェイプに推奨されるネットワーク・アダプタ設定を適用します
    • GPUシェイプに推奨されるMellanox Connect-X設定を適用します
    • プライマリVCNに基づいてRDMAネットワーク・インタフェースにIPアドレスを割り当てます。
  • RDMA認証/構成
    • 推奨される QoSおよびMTUを使用してRDMAネットワークインタフェースを構成します
    • 必要なRDMAネットワーク認証を構成および保守します
  • GPUおよびRDMAの監視
    • 追加のRDMAおよびGPUパフォーマンス・メトリックを発行します。

既存のベア・メタル・インスタンスでHPCプラグインを有効にするには、既存のインスタンスを作成するか、Oracle Cloud Agent 1.35.0以上に移行する必要があります。詳細は、Oracle Cloud Agentを参照してください。

GPUおよびRDMAメトリックの有効化

Oracle Cloud AgentをインストールしてHPCモニタリング・プラグインを有効にすると、GPUおよびRDMAメトリックが自動的に有効になります。OCIは、メトリックを顧客ネームスペースに送信し、テナンシに対して請求します。

これらのメトリックによって追加料金が発生するかどうかを決定するには、測定価格設定を参照してください。

HPCメトリックの詳細なリストは、コンピュート・インスタンス・メトリックを参照してください。