OCI GovernmentリージョンにNVIDIA AIをデプロイするためのHPCクラスタ・スタックの構成
HPCクラスタ・スタックは、Terraformを使用してOracle Cloud Infrastructure (OCI)リソースをデプロイします。スタックは、GPUノード、ストレージ、標準ネットワーキングおよび高パフォーマンスのクラスタ・ネットワーキング、およびクラスタへのアクセスと管理のための要塞/ヘッド・ノードを作成します。
開始する前に
アーキテクチャ
このアーキテクチャは、スケジューラを実行し、クラスタにアクセスするための要塞サーバーとして使用できる要塞またはヘッド・ノードをデプロイします。
処理要件に応じて、様々なNVIDIA GPUインスタンス・タイプを使用してコンピュート処理ノードを作成できます。コンピュート処理ノードをセキュアなプライベート・サブネットに配置することをお薦めします。NVIDIA GPUコンピュート・クラスタ・インスタンスは、Oracle Cloud Marketplaceからデプロイできます。
このアーキテクチャは、パブリックおよびプライベートの仮想クラウド・ネットワーク(VCN)を使用してデプロイされます。顧客ネットワークは、IPSec VPN、Oracle Cloud Infrastructure FastConnectまたはパブリック・インターネットを介してのみヘッド・ノードおよびコンピュート・ノードにアクセスできます。
アーキテクチャでは、1つの可用性ドメインと1つのリージョン・サブネットを持つリージョンを使用します。複数の可用性ドメインがあるリージョンで同じアーキテクチャを使用できます。可用性ドメインの数に関係なく、デプロイメントにリージョン・サブネットを使用することをお薦めします。これらのクラスタ・ネットワークには、Oracle Cloud Marketplaceからアクセスするか、手動でデプロイできます。いずれの場合も、ベースライン・リファレンス・アーキテクチャを使用して、特定の要件を満たすように調整することをお薦めします。
次の図は、このリファレンス・アーキテクチャを示しています。
![nvidia-ai-gvt-hpc-oci.pngの説明が続きます nvidia-ai-gvt-hpc-oci.pngの説明が続きます](img/nvidia-ai-gvt-hpc-oci.png)
図nvidia-ai-gvt-hpc-oci.pngの説明
nvidia-ngc-ai-gvt-hpc-oci-oracle.zip
このアーキテクチャには次のコンポーネントがあります。
- リージョン
Oracle Cloud Infrastructureリージョンとは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含む、ローカル化された地理的領域です。リージョンは他のリージョンから独立しており、長距離の場合は(複数の国または大陸にわたって)それらを分離できます。
- 可用性ドメイン
可用性ドメインは、リージョン内の独立したスタンドアロン・データ・センターです。各可用性ドメイン内の物理リソースは、他の可用性ドメイン内のリソースから分離されているため、フォルト・トレランスが提供されます。可用性ドメインどうしは、電力や冷却、内部可用性ドメイン・ネットワークなどのインフラを共有しません。そのため、1つの可用性ドメインでの障害がリージョン内の他の可用性ドメインに影響を及ぼすことはありません。
- フォルト・ドメイン
フォルト・ドメインは、可用性ドメイン内のハードウェアおよびインフラストラクチャのグループです。各アベイラビリティ・ドメインに3つのフォルト・ドメインがあり、電源とハードウェアが独立しています。複数のフォルト・ドメインにリソースを分散すると、アプリケーションは、フォルト・ドメイン内の物理サーバー障害、システム・メンテナンスおよび電源障害を許容できます。
- 仮想クラウド・ネットワーク(VCN)およびサブネット
VCNは、Oracle Cloud Infrastructureリージョンで設定する、ソフトウェアで定義されたカスタマイズ可能なネットワークです。従来のデータ・センター・ネットワークと同様に、VCNによってネットワーク環境を制御できます。VCNには重複しない複数のCIDRブロックを含めることができ、VCNの作成後にそれらを変更できます。VCNをサブネットにセグメント化して、そのスコープをリージョンまたは可用性ドメインに設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックにもプライベートにもできます。
- 要塞ホスト
要塞ホストは、クラウド外部からトポロジへのセキュアで制御されたエントリ・ポイントとして機能するコンピュート・インスタンスです。要塞ホストは通常、非武装ゾーン(DMZ)にプロビジョニングされます。機密リソースは、クラウドの外部から直接アクセスできないプライベート・ネットワークに配置することで保護できます。トポロジには、定期的に監視および監査できる単一の既知のエントリ・ポイントがあります。そのため、トポロジへのアクセスを損なうことなく、より機密性の高いコンポーネントの公開を回避できます。
- 計算ノード
このクラスタで使用しているベア・メタルGPUシェイプを選択します。たとえば、上の例に示すように、4 x NVIDIA A100 Tensor Core GPUを搭載したBM.GPU4.8を選択するか、NVIDIA Transformer Engineを使用したFP8パフォーマンス上の利点のために、8 x NVIDIA H100 Tensor Core GPUを搭載したBM.GPU.H100.8を選択します。
- オーケストレーション・ノード
オーケストレーション・ノードは、ソフトウェア構成のクラスタ・ノード管理、プロビジョニング、プロビジョニング解除およびデプロイメント、およびコンピュート・ワークフローとジョブ・オーケストレーションの管理を実行します。
- セキュリティ・リスト
サブネットごとに、サブネットの内外で許可される必要があるトラフィックのソース、宛先およびタイプを指定するセキュリティ・ルールを作成できます。
必要な製品、サービスおよびロールについて
このソリューションには、次の製品、サービスおよびロールが必要です。
-
Oracle Cloud Infrastructure Government Cloud
- NVIDIA AIエンタープライズ
-
NVIDIA NeMoフレームワーク
-
NVIDIAエンルート
- NVIDIA NCCL
これらは各サービスに必要なロールです。
サービス名: ロール | 必須 |
---|---|
Oracle Cloud Infrastructure Government Cloud: テナンシのOracle Cloudユーザー | Oracle Cloud Infrastructure (OCI)でコンパートメントを作成し、GPUクラスタをデプロイし、GPUクラスタを構成します。 |
OCI Government Cloud: セキュリティ管理者またはネットワーク管理者 | 必要に応じてOCIポリシーを作成または編集して、クラスタを構築できるようにします。 |
OCI Government Cloud: opc |
要塞に接続して構成を確認し、OSを更新し、LLMトレーニング・ワークロードを実行します。 |
必要なものを取得するには、Oracle製品、ソリューションおよびサービスを参照してください。