ノート:

Oracle Cloud InfrastructureでのGPU High Performance Computing Clusterのデプロイ

イントロダクション

強力な大規模言語モデル(LLM)の登場により、微調整タスクを実行するのに十分なグラフィックス処理ユニット(GPU)メモリを備えたインフラストラクチャの必要性が高まり、これを実現するにはGPUクラスタを使用します。Oracle Cloud Infrastructure(OCI)は、NVIDIA GPU A100sのスーパークラスタをデプロイし、その機能を使用してLLMを実行または微調整する機能を備えています。

コンポーネント

クラスタ・ネットワークは、高帯域幅の超低レイテンシ・ネットワークによって接続されたHPCおよびGPUマシンのクラスタをデプロイするためのOCIの強力なリソースです。このクラスタ内の各ノードはベア・メタル・マシンで、他のノードに物理的に近い場所に配置されています。ノード間のリモート・ダイレクト・メモリー・アクセス(RDMA)ネットワークは、1桁マイクロ秒のレイテンシを提供します。これは、オンプレミス・ハイ・パフォーマンス・コンピューティング(HPC)クラスタと同等です。詳細は、Cluster Networks with Instance Poolsを参照してください。

To deploy a cluster, you need to create a Dynamic Group with your workspace compartment information, a set of Policies that allow the services and dynamic group to perform some tasks, a Custom Image of an Ubuntu ISO image to be used by the node’s cluster, and deploy a Marketplace stack to deploy the cluster.詳細は、動的グループの管理ポリシーカスタム・イメージおよびOracle Cloud Marketplaceを参照してください。

目標

前提条件

タスク1: 動的グループの作成

ワークスペース情報を含む動的グループ・ルールを作成します。

  1. OCIコンソールにログインし、「アイデンティティとセキュリティ」に移動して「コンパートメント」をクリックします。作業コンパートメントからOracle Cloud Identifier (OCID)をコピーします。

    イメージ 1

  2. 「動的グループ」および「動的グループの作成」をクリックします。

  3. 「名前」および「説明」を入力します。この例では、名前としてinstance-principalを入力します。OCIDを更新し、「作成」をクリックします。

    イメージ 2

タスク2: ポリシーの定義

デプロイメント・プロセスに必要なポリシーを定義します。

  1. OCIコンソールに移動し、「アイデンティティとセキュリティ」および「ポリシー」に移動します。

  2. 「ポリシーの作成」をクリックして、「名前」「説明」を入力し、ルート・コンパートメントを選択します。

  3. 「手動エディタの表示」をクリックし、次のポリシーを入力し、<>を情報に置き換えて「作成」をクリックします。

    Allow service compute_management to use tag-namespace in tenancy
    
    Allow service compute_management to manage compute-management-family in tenancy
    
    Allow service compute_management to read app-catalog-listing in tenancy
    
    Allow group Administrators to manage all-resources in compartment <>
    
    allow service compute_management to use tag-namespace in tenancy
    
    allow service compute_management to manage compute-management-family in tenancy
    
    allow service compute_management to read app-catalog-listing in tenancy
    
    allow group user to manage all-resources in compartment compartmentName
    
    Allow dynamic-group instance-principal to read app-catalog-listing in tenancy
    
    Allow dynamic-group instance-principal to use tag-namespace in tenancy
    
    Allow dynamic-group instance-principal to manage compute-management-family in compartment <>
    
    Allow dynamic-group instance-principal to manage instance-family in compartment <>
    
    Allow dynamic-group instance-principal to use virtual-network-family in compartment <>
    
    Allow dynamic-group instance-principal to use volumes in compartment <>
    

    イメージ 3

タスク3: (オプション)カスタム・イメージの作成

GPUマシンのUbuntuイメージからカスタム・イメージを作成します。(必要な場合)。

  1. OCIコンソールに移動し、「コンピュート」および「カスタム・イメージ」に移動します。

    イメージ 4

  2. 「カスタム・イメージ」で、「イメージのインポート」をクリックします。

    イメージ 5

  3. 次の情報を入力します

    • コンパートメント:コンパートメントを入力します。
    • 名前:このチュートリアルでは、名前としてUbuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0と入力します。
    • オペレーティングシステム(OS): OSを入力します。
    • 「オブジェクト・ストレージURLからインポート」を選択し、次のURLを入力します: https://objectstorage.ca-toronto-1.oraclecloud.com/p/3IlDVBRG3pjDLq4WHlmbpY6Tas8GU4GLuHw7i3ZC8pf4rJZDoB2b1WFxy9OTZCzc/n/hpc_limited_availability/b/images/o/Ubuntu-22-OCA-OFED-5.8-3.0.7.0-GPU-535-2023.11.30-0

    イメージ 6

  4. オブジェクト・ストレージ内のイメージの場所を入力します。

    イメージ 7

    イメージ 8

  5. 他の構成をデフォルトで保持し、「イメージのインポート」をクリックします。カスタム・イメージが使用可能になるまで数分かかります。

    イメージ 9

タスク4: HPCスタックのデプロイ

HPCスタックをデプロイする簡単で簡単な方法は、次のURLを使用することです: https://cloud.oracle.com/resourcemanager/stacks/create?zipUrl=https://github.com/oracle/quickstart/oci-HPC/archive/refs/heads/master.zip。このURLは、推奨および更新されたすべてのスクリプトを使用して環境を作成します。

ノート:デプロイ・スクリプトの最新の更新を確認するには、URL https://github.com/oracle-quickstart/oci-hpcに移動します。次の図に示すように、README.mdファイルで、「Oracle Cloudにデプロイ」をクリックします。

イメージ 28

または

OCIコンソールを介して従来からHPCスタックをデプロイします。

  1. OCIコンソールに移動し、「マーケットプレイス」および「すべてのアプリケーション」をクリックします。

    イメージ 10

  2. 「検索」バーにHPC solutionsと入力します。

    イメージ 11

  3. 「HPCクラスタ」を選択します。

    イメージ 12

  4. スタックの作成に必要な情報を入力します。

    イメージ 13

    イメージ 14

    イメージ 15

    イメージ 16

    イメージ 17

    イメージ 18

    イメージ 19

    イメージ 20

  5. 拡張要塞オプションを構成するために必要な値を入力します。

    イメージ 21

  6. クラスタ・ネットワーク・パラメータを入力します。

    イメージ 22 イメージ 23

  7. 「作成」をクリックして、スタック・デプロイメントを初期化します。

    イメージ 24

    スタックが正常に作成されました。

    イメージ 25

  8. 作成されたインスタンスを確認するには、OCIコンソールに移動し、「コンピュート」「インスタンス」をクリックします。

    イメージ 26

    イメージ 27

承認

その他の学習リソース

docs.oracle.com/learnの他のラボをご覧いただくか、Oracle Learning YouTubeチャネルで無料のラーニング・コンテンツにアクセスしてください。また、education.oracle.com/learning-explorerにアクセスしてOracle Learning Explorerになります。

製品ドキュメントは、Oracle Help Centerを参照してください。