GPU拡張ノードの統合

GPUノードは拡張ラックに取り付けられています。 新しいハードウェアをハードウェア管理およびデータ・ネットワークに統合できるように、そのネットワーク・コンポーネントをベース・ラックに接続する必要があります。 インストール要件、物理ハードウェアのインストール情報、および配線の詳細は、Oracle Private Cloud Applianceインストレーション・ガイド「オプションのGPU拡張」を参照してください。

この項では、GPU拡張ラックが取り付けられ、Private Cloud Applianceベース・ラックに接続されていることを前提としています。 GPUノードは、コンピュート・インスタンス内でハードウェア・リソースを使用できるようになる前に検出およびプロビジョニングする必要があります。 基本ラックに追加され、自動的に統合され、プロビジョニング用に準備される標準コンピュート・ノードとは異なり、拡張ラックのGPUノードは、より厳密に制御されたプロセスを通過します。

GPU拡張ラックは、管理ノードの1つからスクリプトを実行することによってアクティブ化されます。 静的マッピングに基づく正確なタイミングとオーケストレーションにより、このスクリプトはGPU拡張ラック内の各コンポーネントの電源をオンおよび構成します。 すべてのハードウェアを検出してコンポーネント・データベースに登録できるように、スイッチ上の必要なポートが有効になります。 スクリプト化された操作が完了すると、データおよび管理ネットワークは相互接続されたラック全体で動作します。 オペレーティング・システムおよび追加ソフトウェアは、新しいノードにインストールされ、その後、プロビジョニングの準備が整います。

拡張ラックおよびGPUノードのインストールおよびアクティブ化は、Oracleによって実行されます。 この時点以降、GPUノードは他のすべてのコンピュート・ノードと同じように処理されます。 プロビジョニング後、アプライアンス管理者は「サービス・エンクレーブ」 UIまたはCLIからそれらを管理および監視できます。 「コンピュート・ノード操作の実行」を参照してください。

ノート:

ライブ移行はGPUインスタンスではサポートされていません。 これは、一部のコンピュート・ノード操作に影響します。

  • GPUノードを退避すると失敗します。 インスタンスは手動で停止する必要があります。

  • Compute Serviceの高可用性構成はGPUインスタンスに適用されますが、制限されたハードウェア・リソースによってさらに制限されます。

    GPUノードがオフラインになり、通常の操作に戻ると、コンピュート・サービスは停止中に停止されたインスタンスを再起動します。 十分なハードウェア・リソースがある別のGPUノードで、コールド移行によってインスタンスを再起動できます。

注意:

計画メンテナンスまたはアップグレードの場合、ベスト・プラクティスは、インスタンスOSから停止コマンドを発行し、「コンピュートWeb UI」またはOCI CLIからインスタンスを正常に停止することです。

GPUノードは、Oracleクラウド・アーキテクチャ全体と一致する3つの既存のフォルト・ドメインに追加されます。 標準のコンピュート・ノードとは異なり、GPUノードは一度に1つ追加できるため、フォルト・ドメインのバランスが崩れる可能性があります。 サーバー・ファミリは相互に個別に動作するため、フォルト・ドメインに対する機能的な影響はありません。 GPUノードはGPUシェイプに基づくコンピュート・インスタンスのみをホストでき、同じフォルト・ドメイン内の異なるサーバー・ファミリ間の移行はサポートされていません。

「コンピュート・エンクレーブ」では、GPUノードによって提供されるリソースの消費は簡単です。 ユーザーは、専用シェイプのコンピュート・インスタンスをデプロイして、1-4個のGPUを割り当てます。 GPUシェイプに基づくインスタンスは、常にGPUノードで実行されます。