ノート:
- このチュートリアルでは、Oracle Cloudへのアクセスが必要です。無料アカウントにサインアップするには、Oracle Cloud Infrastructure Free Tierの開始を参照してください。
- Oracle Cloud Infrastructureの資格証明、テナンシおよびコンパートメントの値の例を使用します。演習を完了するときに、これらの値をクラウド環境に固有の値に置き換えます。
OCIスタックを使用したベア・メタルGPUノードの自己管理ノードとしてのOKEへの移行
イントロダクション
このチュートリアルでは、Oracle Cloud Infrastructure (OCI)スタックを使用して、ベア・メタル(BM) GPUノードをOracle Cloud Infrastructure Kubernetes Engine (OKE)自己管理ノードに移行するプロセスを順を追って説明します。
まず、自己管理ノードとは何か、およびそれがOKEでGPUを実行するのに最適な理由を理解しましょう。
OKE自己管理ノードとは何ですか。
名前が示すように、自己管理ノードは顧客によって完全に制御および保守されます。これには、プロビジョニング、スケーリング、構成、アップグレード、およびオペレーティング・システム(OS)のパッチ適用やノードの交換などのメンテナンス・タスクが含まれます。このアプローチでは、より手動での管理が必要になりますが、最大限の柔軟性と制御性を提供し、GPUで実行されているような特殊なワークロードに適しています。
自己管理ノードの主な機能:
-
フル・コントロール:プロビジョニング、OSの更新、スケーリング、終了など、ノード・ライフサイクルを完全に制御できます。
-
カスタム構成:お客様は、カスタム・イメージの使用、特定のソフトウェアのインストール、ネットワークの構成、または代替インスタンス・タイプの使用が可能です。
-
手動アップグレード: OKE管理ノード・プールとは異なり、お客様はKubernetesのバージョン、セキュリティ・パッチおよびOSの更新を手動でアップグレードする必要があります。
-
独自のノードの持込み(BYON):お客様は、既存のOCIコンピュート・インスタンスをOKEクラスタのワーカー・ノードとして使用できます。
-
自動ノード・サイクルなし:ノードに障害が発生した場合は、手動でノードを置換/サイクルする必要があります。
このチュートリアルでは、BM A100 GPUワークロードがOCIのSlurmクラスタで現在実行されており、OKEクラスタに移行することを目的としたユースケースについて説明します。これを実現するには、High Performance Computing (HPC) OKEスタックを使用して空のOKEクラスタをデプロイし、既存のGPUノードを追加します。
目的
- HPC OKEスタックを使用して、BM A100 GPUノードを自己管理ノードとしてOKEに移行します。
前提条件
-
実行中のOCIテナンシおよびOKEクラスタへの管理者アクセス。
-
アプリケーションをコンテナ化するには、BM A100ノードにNVIDIA Run:aiをインストールします。詳細については、NVIDIA Run:aiを参照してください。
-
OKEでRemote Direct Memory Access (RDMA) GPUワークロードを実行します。詳細は、OKEでのRDMA (リモート・ダイレクト・メモリー・アクセス) GPUワークロードの実行を参照してください。
タスク1: HPC OKEスタックを使用したBM A100 GPUノードのOKEへの移行
-
OCIコンソールにログインし、このGitHubページの説明に従って必要なポリシーを作成します: OKEでのRDMA (リモート・ダイレクト・メモリー・アクセス) GPUワークロードの実行。
-
「Oracle Cloudにデプロイ」をクリックし、条件を確認します。

-
スタックをデプロイするリージョンを選択します。
-
「スタック情報」ページで、スタックの「名前」を入力します。

-
「変数の構成」ページで、VCNの「名前」を入力します。

-
「要塞および演算子」セクションで、要塞インスタンスの情報を入力し、要塞インスタンスのSSHキーを追加します。

-
(オプション)「オペレータ・シェイプの構成」を選択して、ジョブを監視または実行するためのオペレータ・ノードを作成します。

-
OKEクラスタ、ワーカー: 操作ノードおよびワーカー: GPU + RDMAノードの変数を構成します。ポッド・ネットワーキングに使用する「Flannel」 CNIを選択してください。



-
「ローカルNVMeドライブを使用したRAID 0アレイの作成」および「ノード問題検出機能およびKube Prometheusスタックのインストール」を選択します。

-
スタック情報を確認し、「作成」をクリックします。

-
リソース・マネージャのスタックの詳細を確認し、OCIコンソールの「Kubernetes」セクションでOKEクラスタを確認します。


-
OCIコンソールからアクセス・クラスタを使用してOKEクラスタにログインし、新しいGPUノードの追加に進みます。
-
ここで説明するすべてのステップ(自己管理ノードの動的グループおよびポリシーの作成)に従います。
-
「自己管理ノード用のCloud-initスクリプトの作成」のステップ1およびステップ2に従います。
-
次のスクリプトを実行して、GPUノードをOKEクラスタに追加します。
sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list sudo apt install -y oci-oke-node-all* sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args " -
次のコマンドを実行して、ノードが OKEクラスタに正常に追加されたことを確認します。
kubectl get nodes
関連リンク
承認
- 著者 - Ruzhu Chen (Master Principal Enterprise Cloud Architect)、Payal Sharma (Senior Enterprise Cloud Architect)
その他の学習リソース
docs.oracle.com/learnの他のラボを確認するか、Oracle Learning YouTubeチャネルで無料のラーニング・コンテンツにアクセスしてください。また、education.oracle.com/learning-explorerにアクセスしてOracle Learning Explorerになります。
製品ドキュメントについては、Oracle Help Centerを参照してください。
Migrate Bare Metal GPU Nodes to OKE as Self-Managed Nodes using an OCI Stack
G31994-01
Copyright ©2025, Oracle and/or its affiliates.