GPU拡張ノードの統合

GPUノードを検出してプロビジョニングしてから、そのハードウェア・リソースをPrivate Cloud Applianceコンピュート・インスタンス内で使用できるようにする必要があります。基本ラックに追加され、自動的に統合され、プロビジョニング用に準備される標準のコンピュート・ノードとは異なり、GPUノードはより厳密に制御されたプロセスを実行します。

GPUノードは拡張ラックに取り付けられています。新しいハードウェアをハードウェア管理およびデータ・ネットワークに統合できるように、そのネットワーク・コンポーネントをベース・ラックに接続する必要があります。この項では、GPU拡張ラックが取り付けられ、Private Cloud Applianceベース・ラックに接続されていることを前提としています。インストール要件、物理的なハードウェアのインストール情報および配線の詳細は、GPU容量を使用したプライベート・クラウド・アプライアンスの拡張を参照してください。

GPU拡張ラックは、管理ノードの1つからスクリプトを実行することによってアクティブ化されます。静的マッピングに基づく正確なタイミングとオーケストレーションにより、このスクリプトはGPU拡張ラック内の各コンポーネントの電源をオンおよび構成します。すべてのハードウェアを検出してコンポーネントデータベースに登録できるように、スイッチ上の必要なポートが有効になります。スクリプト化された操作が完了すると、データおよび管理ネットワークは相互接続されたラック全体で動作します。オペレーティング・システムおよび追加ソフトウェアは、新しいノードにインストールされ、その後、プロビジョニングの準備が整います。

拡張ラックおよびGPUノードのインストールおよびアクティブ化は、Oracleによって実行されます。この時点以降、GPUノードは他のすべての計算ノードと同じように処理されます。プロビジョニング後、アプライアンス管理者はサービス・エンクレーブUIまたはCLIからそれらを管理および監視できます。計算ノードでの管理操作の実行を参照してください。

ノート

GPUインスタンスではライブ移行はサポートされていません。これは、一部の計算ノード操作に影響します。

GPUノードを退避すると失敗します。インスタンスは手動で停止する必要があります。
Compute Serviceの高可用性構成はGPUインスタンスに適用されますが、制限されたハードウェア・リソースによってさらに制限されます。

GPUノードがオフラインになり、通常の操作に戻ると、コンピュート・サービスは停止中に停止されたインスタンスを再起動します。十分なハードウェア・リソースがある別のGPUノードで、コールド移行によってインスタンスを再起動できます。

注意

計画メンテナンスまたはアップグレードの場合、ベスト・プラクティスは、インスタンスOSから停止コマンドを発行し、コンピュートWeb UIまたはOCI CLIからインスタンスを正常に停止することです。

GPUノードは、Oracleクラウド・アーキテクチャ全体と一致する3つの既存のフォルト・ドメインに追加されます。標準の計算ノードとは異なり、GPUノードは一度に1つ追加できるため、フォルト・ドメインのバランスが崩れる可能性があります。サーバー・ファミリは相互に個別に動作するため、フォルト・ドメインに対する機能的な影響はありません。GPUノードはGPUシェイプに基づくコンピュート・インスタンスのみをホストでき、同じフォルト・ドメイン内の異なるサーバー・ファミリ間の移行はサポートされていません。

コンピュート・エンクレーブでは、GPUノードによって提供されるリソースの消費は簡単です。ユーザーは、専用シェイプのコンピュート・インスタンスをデプロイして、1~4個のGPUを割り当てます。GPUシェイプに基づくインスタンスは、常にGPUノードで実行されます。

Oracle Cloud Infrastructureドキュメント

GPU拡張ノードの統合