ノート:
- このチュートリアルでは、Oracle Cloudへのアクセスが必要です。無料アカウントにサインアップするには、Oracle Cloud Infrastructure Free Tierの開始を参照してください。
- Oracle Cloud Infrastructureの資格証明、テナンシおよびコンパートメントに例の値を使用します。演習を完了するときは、これらの値をクラウド環境に固有の値に置き換えます。
Oracle Cloud InfrastructureでのGPU High Performance Computing Clusterのデプロイ
イントロダクション
強力な大規模言語モデル(LLM)の登場により、微調整タスクを実行するのに十分なグラフィックス処理ユニット(GPU)メモリを備えたインフラストラクチャの必要性が高まり、これを実現するにはGPUクラスタを使用します。Oracle Cloud Infrastructure(OCI)は、NVIDIA GPU A100sのスーパークラスタをデプロイし、その機能を使用してLLMを実行または微調整する機能を備えています。
コンポーネント
クラスタ・ネットワークは、高帯域幅の超低レイテンシ・ネットワークによって接続されたHPCおよびGPUマシンのクラスタをデプロイするためのOCIの強力なリソースです。このクラスタ内の各ノードはベア・メタル・マシンで、他のノードに物理的に近い場所に配置されています。ノード間のリモート・ダイレクト・メモリー・アクセス(RDMA)ネットワークは、1桁マイクロ秒のレイテンシを提供します。これは、オンプレミス・ハイ・パフォーマンス・コンピューティング(HPC)クラスタと同等です。詳細は、Cluster Networks with Instance Poolsを参照してください。
To deploy a cluster, you need to create a Dynamic Group with your workspace compartment information, a set of Policies that allow the services and dynamic group to perform some tasks, a Custom Image of an Ubuntu ISO image to be used by the node’s cluster, and deploy a Marketplace stack to deploy the cluster.詳細は、動的グループの管理、ポリシー、カスタム・イメージおよびOracle Cloud Marketplaceを参照してください。
目標
- 事前構成済のスタックを使用して、OCIにGPU A100クラスタをデプロイします。
前提条件
-
動的グループ、ユーザー・グループおよびポリシーを作成するためのアクセス権。アクセス権については、テナンシ管理者に連絡してください。
-
GPUコンピューティングの制限コンピュートGPUの制限が十分でない場合は、サービス制限の引上げのリクエストを参照してください。
タスク1: 動的グループの作成
ワークスペース情報を含む動的グループ・ルールを作成します。
-
OCIコンソールにログインし、「アイデンティティとセキュリティ」に移動して「コンパートメント」をクリックします。作業コンパートメントからOracle Cloud Identifier (OCID)をコピーします。
-
「動的グループ」および「動的グループの作成」をクリックします。
-
「名前」および「説明」を入力します。この例では、名前として
instance-principal
を入力します。OCIDを更新し、「作成」をクリックします。
タスク2: ポリシーの定義
デプロイメント・プロセスに必要なポリシーを定義します。
-
OCIコンソールに移動し、「アイデンティティとセキュリティ」および「ポリシー」に移動します。
-
「ポリシーの作成」をクリックして、「名前」、「説明」を入力し、ルート・コンパートメントを選択します。
-
「手動エディタの表示」をクリックし、次のポリシーを入力し、
<>
を情報に置き換えて「作成」をクリックします。Allow service compute_management to use tag-namespace in tenancy Allow service compute_management to manage compute-management-family in tenancy Allow service compute_management to read app-catalog-listing in tenancy Allow group Administrators to manage all-resources in compartment <> allow service compute_management to use tag-namespace in tenancy allow service compute_management to manage compute-management-family in tenancy allow service compute_management to read app-catalog-listing in tenancy allow group user to manage all-resources in compartment compartmentName Allow dynamic-group instance-principal to read app-catalog-listing in tenancy Allow dynamic-group instance-principal to use tag-namespace in tenancy Allow dynamic-group instance-principal to manage compute-management-family in compartment <> Allow dynamic-group instance-principal to manage instance-family in compartment <> Allow dynamic-group instance-principal to use virtual-network-family in compartment <> Allow dynamic-group instance-principal to use volumes in compartment <>
タスク3: (オプション)カスタム・イメージの作成
GPUマシンのUbuntuイメージからカスタム・イメージを作成します。(必要な場合)。
-
OCIコンソールに移動し、「コンピュート」および「カスタム・イメージ」に移動します。
-
「カスタム・イメージ」で、「イメージのインポート」をクリックします。
-
次の情報を入力します
- コンパートメント:コンパートメントを入力します。
- 名前:このチュートリアルでは、名前として
Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
と入力します。 - オペレーティングシステム(OS): OSを入力します。
- 「オブジェクト・ストレージURLからインポート」を選択し、次のURLを入力します:
https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0
-
オブジェクト・ストレージ内のイメージの場所を入力します。
-
他の構成をデフォルトで保持し、「イメージのインポート」をクリックします。カスタム・イメージが使用可能になるまで数分かかります。
タスク4: HPCスタックのデプロイ
HPCスタックをデプロイする簡単で簡単な方法は、次のURLを使用することです: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-HPC/archive/refs/heads/master.zip
。このURLは、推奨および更新されたすべてのスクリプトを使用して環境を作成します。
ノート:デプロイ・スクリプトの最新の更新を確認するには、URL
https://github.com/oracle-quickstart/oci-hpc
に移動します。次の図に示すように、README.md
ファイルで、「Oracle Cloudにデプロイ」をクリックします。
または
OCIコンソールを介して従来からHPCスタックをデプロイします。
-
OCIコンソールに移動し、「マーケットプレイス」および「すべてのアプリケーション」をクリックします。
-
「検索」バーに
HPC solutions
と入力します。 -
「HPCクラスタ」を選択します。
-
スタックの作成に必要な情報を入力します。
-
拡張要塞オプションを構成するために必要な値を入力します。
-
クラスタ・ネットワーク・パラメータを入力します。
-
「作成」をクリックして、スタック・デプロイメントを初期化します。
スタックが正常に作成されました。
-
作成されたインスタンスを確認するには、OCIコンソールに移動し、「コンピュート」、「インスタンス」をクリックします。
承認
- 著者 - Douglas Silva (LAD A-Team)、Leandro Camargo (LAD A-Team)
その他の学習リソース
docs.oracle.com/learnの他のラボをご覧いただくか、Oracle Learning YouTubeチャネルで無料のラーニング・コンテンツにアクセスしてください。また、education.oracle.com/learning-explorerにアクセスしてOracle Learning Explorerになります。
製品ドキュメントは、Oracle Help Centerを参照してください。
Deploy a GPU High Performance Computing Cluster in Oracle Cloud Infrastructure
F98232-01
May 2024