構成の確認および検証

構成、GPUおよびネットワーク・パフォーマンスを確認します。

構成を確認します

要塞にログインし、構成を確認します。

IPアドレスと秘密キーを使用して、sshをユーザーopc (Oracle Linuxインスタンスのデフォルト)として要塞に接続します。
```
akua$ ssh -i ~/.ssh/cluster.key opc@139.87.214.247
[opc@epsilon-bastion ~]$
```

dfコマンドは、マウントされたファイルシステムおよび容量を表示します。

[opc@epsilon-bastion ~]$ df -h | grep -v tmp
Filesystem                     Size  Used Avail Use% Mounted on
/dev/sda3                       92G   14G   79G  15% /                <- boot (home) volume
/dev/sda1                      200M  7.4M  193M   4% /boot/efi
/dev/sdb                        20T   58M   20T   1% /export/cluster  <- Additional volume
172.16.0.75:/export/cluster     20T   57M   20T   1% /nfs/cluster
172.16.6.4:/mnt/localdisk/nfs   13T   39G   13T   1% /nfs/scratch     <- worker node NVMe

Slurm構成を編集します。

デフォルトでは、Slurmはジョブの最後に自動的にコンテナを削除します。コンテナを再度使用する場合もあるため、container_scope引数を使用して、ジョブ間でコンテナを永続化することは非常に効率的です。これにより、同じコンテナを使用した後続の再起動が大幅に高速化されます。

ファイル/etc/slurm/plugstack.confで、次のようにcontainer_scope=globalを追加します。
```
[opc@epsilon-bastion ~]$ cat /etc/slurm/plugstack.conf
required /usr/local/lib/slurm/spank_pyxis.so container_scope=global
```

各GPUノードおよび要塞でSlurmを停止して再起動します。

GPUノードのホスト名のリストがsinfoの出力に表示されます。これをpdshコマンドとともに使用して、すべてのノードでsystemctlを実行します: export PS1="$ "。

[opc@epsilon-bastion ~]$ export PS1="\n$ "

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
gpu*         up   infinite      2   idle gpu-permanent-node-[517,878]

$ pdsh -w gpu-permanent-node-[517,878] sudo systemctl stop slurmd
$ sudo systemctl restart slurmctld slurmdbd
$ pdsh -w gpu-permanent-node-[517,878] sudo systemctl start slurmd

$ /etc/slurm/plugstack.conf
required /usr/local/lib/slurm/spank_pyxis.so container_scope=global[opc@epsilon-bastion ~]$ export PS1="\n$ "

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
gpu*         up   infinite      2   idle gpu-permanent-node-[517,878]

$ pdsh -w gpu-permanent-node-[517,878] sudo systemctl stop slurmd
$ sudo systemctl restart slurmctld slurmdbd
$ pdsh -w gpu-permanent-node-[517,878] sudo systemctl start slurmd

$ /etc/slurm/plugstack.conf
required /usr/local/lib/slurm/spank_pyxis.so container_scope=global

OSの更新を適用します。

OSを最新のパッケージに更新することを検討してください。前のステップのようにpdshを使用して、すべてのノードを効率的に更新します。
```
# Oracle Linux 7:
$ pdsh -w localhost, gpu-permanent-node-[517,878]  sudo yum upgrade

# Oracle Linux 8:
$ pdsh -w localhost, gpu-permanent-node-[517,878]  sudo dnf upgrade
```

Slurm構成の編集

デフォルトでは、Slurmはジョブの最後に自動的にコンテナを削除します。コンテナを再度使用する場合もあるため、container_scope引数を使用して、ジョブ間でコンテナを永続化することは非常に効率的です。これにより、同じコンテナを使用した後続の再起動が大幅に高速化されます。

ファイル/etc/slurm/plugstack.confで、次のようにcontainer_scope=globalを追加します。

[opc@epsilon-bastion ~]$ cat /etc/slurm/plugstack.conf
required /usr/local/lib/slurm/spank_pyxis.so container_scope=global

各GPUノードおよび要塞でSlurmを停止して再起動します。

GPUノードのホスト名のリストがsinfoの出力に表示されます。これをpdshコマンドとともに使用して、すべてのノードでsystemctlを実行します: export PS1="$ "

[opc@epsilon-bastion ~]$ export PS1="\n$ "

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
gpu*         up   infinite      2   idle gpu-permanent-node-[517,878]

$ pdsh -w gpu-permanent-node-[517,878] sudo systemctl stop slurmd
$ sudo systemctl restart slurmctld slurmdbd
$ pdsh -w gpu-permanent-node-[517,878] sudo systemctl start slurmd

$ /etc/slurm/plugstack.conf
required /usr/local/lib/slurm/spank_pyxis.so container_scope=global

OS更新の適用

OSを最新のパッケージに更新することを検討してください。

前のステップのようにpdshを使用して、すべてのノードを効率的に更新します。

# Oracle Linux 7:
$ pdsh -w localhost, gpu-permanent-node-[517,878]  sudo yum upgrade

# Oracle Linux 8:
$ pdsh -w localhost, gpu-permanent-node-[517,878]  sudo dnf upgrade

コンテナのプルまたはアップロード

Enrootコンテナ・ユーティリティを備えたSlurm用のNVIDIA Pyxisプラグインは、Slurmワークロード・マネージャと統合されたクラスタ・コンテナ実行環境を提供します。これらのコンポーネントは、ソフトウェアの構成中に「Pyxis」および「Enroot」ボックスを選択したときにインストールされました。

Pyxisによって提供されるsrun --containerオプションの詳細は、https://github.com/NVIDIA/pyxis/またはsrun --helpを参照してください。

コンテナ実行環境がクラスタで想定どおりに機能していることを確認します。
この例では、Nvidiaのnvcr.ioリポジトリからTensorFlowコンテナをプルし、単純なコマンドを実行します。これにより、コンテナ実行環境がクラスタで想定どおりに機能していることが検証されます。初めて実行すると、リモートの場所から大きなコンテナがダウンロードされ、ロードおよび実行の開始に25分以上かかる場合があります。
```
$ srun -N 2 --ntasks-per-node 1 \
  --container-image=nvcr.io#nvidia/tensorflow:22.11-tf2-py3 \
  --container-name=tensorflow bash -c "hostname; grep PRETTY /etc/os-release"
pyxis: imported docker image: nvcr.io#nvidia/pytorch:21.09-py3
pyxis: imported docker image: nvcr.io#nvidia/pytorch:21.09-py3
gpu-permanent-node-517
PRETTY_NAME="Ubuntu 20.04.3 LTS"
gpu-permanent-node-878
```
指定されたコンテナを使用する後続のジョブはダウンロードを必要とせず、すぐに実行を開始します。
```
$ time srun -N 2 --ntasks-per-node 1 --container-name=tensorflow bash -c "hostname"
gpu-permanent-node-878
gpu-permanent-node-517

real	0m0.394s
user	0m0.006s
sys	0m0.009s
```

追加のコンテナは、それを使用するジョブの前にロードすることもできます。

ここでは、LLMジョブに備えてNVIDIA NeMo Frameworkコンテナをロードできます。GAまたはEAコンテナにアクセスするには、~/.config/enroot/.credentialsのNVIDIA認証情報が必要になる場合があります。

$ cat .config/enroot/.credentials
machine nvcr.io login $oauthtoken password vbmVtc2<snip>zU6YTFjNm
$ time srun -N 2 --ntasks-per-node 1 \
  --container-image="nvcr.io/ea-bignlp/ga-participants/nemofw-training:23.08.03" \
  --container-name=nemo bash -c "hostname"
pyxis: imported docker image: nvcr.io/ea-bignlp/ga-participants/nemofw-training:23.08.03
pyxis: imported docker image: nvcr.io/ea-bignlp/ga-participants/nemofw-training:23.08.03
gpu-permanent-node-878
gpu-permanent-node-517

real	46m27.272s

この大きな容器は輸入に約47分かかりました。

GPUおよびネットワーク・パフォーマンスの検証

NVIDIA NCCLは、GPU用の標準通信ルーチンのスタンドアロンライブラリです。NCCL-testsは、平均NCCL操作時間をミリ秒単位で、アルゴリズム帯域幅およびバス帯域幅をGB/秒単位でレポートします。これらのテストは、GPUおよびネットワークのパフォーマンスを測定し、操作の正確性を検証します。

詳細は、https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.mdを参照してください。

GitHubからNVIDIA nccl-testsを取得し、次のコマンドを実行して要塞に実行可能ファイルをビルドします。

$ srun --container-name=tensorflow --container-mounts "/home/opc:/home/opc" \
  bash -c "cd /home/opc; git clone https://github.com/NVIDIA/nccl-tests.git; cd nccl-tests; make MPI=1 MPI_HOME=/usr/local/mpi CUDA_HOME=/usr/local/cuda NCCL_HOME=/usr/lib/x86_64-linux-gnu"

nccl-testを実行します。

次に、8つのGPUを使用して1つのクラスタ・ノードでNCCL AllReduce操作を実行します。

$ srun --container-name=tensorflow --container-mounts "/home/opc:/home/opc" \
  --mpi pmi2 --gpus-per-node=8 bash -c "cd /home/opc/nccl-tests; \
  ./build/all_reduce_perf -b 10G -e 10G -t 1 -g 8"
# nThread 1 nGpus 8 minBytes 10737418240 maxBytes 10737418240 step: 1048576(bytes) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
#  Rank  0 Group  0 Pid 226178 on gpu-permanent-node-517 device  0 [0x0f] NVIDIA A100-SXM4-40GB
#  Rank  1 Group  0 Pid 226178 on gpu-permanent-node-517 device  1 [0x15] NVIDIA A100-SXM4-40GB
#  Rank  2 Group  0 Pid 226178 on gpu-permanent-node-517 device  2 [0x50] NVIDIA A100-SXM4-40GB
#  Rank  3 Group  0 Pid 226178 on gpu-permanent-node-517 device  3 [0x53] NVIDIA A100-SXM4-40GB
#  Rank  4 Group  0 Pid 226178 on gpu-permanent-node-517 device  4 [0x8c] NVIDIA A100-SXM4-40GB
#  Rank  5 Group  0 Pid 226178 on gpu-permanent-node-517 device  5 [0x91] NVIDIA A100-SXM4-40GB
#  Rank  6 Group  0 Pid 226178 on gpu-permanent-node-517 device  6 [0xd6] NVIDIA A100-SXM4-40GB
#  Rank  7 Group  0 Pid 226178 on gpu-permanent-node-517 device  7 [0xda] NVIDIA A100-SXM4-40GB
#
#                                                              out-of-place                       in-place
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
 10737418240    2684354560     float     sum      -1    80130  134.00  234.50      0    80171  133.93  234.38      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 234.439
#

16 GPUの2つのクラスタ・ノードでNCCL AllReduceを実行します。

このテストでは、ノード間クラスタネットワークを使用します。

bastion$ srun --container-name=tensorflow --container-mounts "/home/opc:/home/opc" --mpi pmi2 --gpus-per-node=8 bash -c "cd /home/opc/nccl-tests; ./build/all_reduce_perf -b 10G -e 10G -t 1 -g 8"
srun -N 2 --ntasks-per-node 1 --container-name=tensorflow --container-mounts "/home/opc:/home/opc" --mpi pmi2 --gpus-per-node=8 bash -c "cd /home/opc/nccl-tests; export NCCL_IB_QPS_PER_CONNECTION=4; export NCCL_IB_GID_INDEX=3; ./build/all_reduce_perf -b 10G -e 10G -t 1 -g 8"
# nThread 1 nGpus 8 minBytes 10737418240 maxBytes 10737418240 step: 1048576(bytes) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
#  Rank  0 Group  0 Pid 231185 on gpu-permanent-node-517 device  0 [0x0f] NVIDIA A100-SXM4-40GB
#  Rank  1 Group  0 Pid 231185 on gpu-permanent-node-517 device  1 [0x15] NVIDIA A100-SXM4-40GB
#  Rank  2 Group  0 Pid 231185 on gpu-permanent-node-517 device  2 [0x50] NVIDIA A100-SXM4-40GB
#  Rank  3 Group  0 Pid 231185 on gpu-permanent-node-517 device  3 [0x53] NVIDIA A100-SXM4-40GB
#  Rank  4 Group  0 Pid 231185 on gpu-permanent-node-517 device  4 [0x8c] NVIDIA A100-SXM4-40GB
#  Rank  5 Group  0 Pid 231185 on gpu-permanent-node-517 device  5 [0x91] NVIDIA A100-SXM4-40GB
#  Rank  6 Group  0 Pid 231185 on gpu-permanent-node-517 device  6 [0xd6] NVIDIA A100-SXM4-40GB
#  Rank  7 Group  0 Pid 231185 on gpu-permanent-node-517 device  7 [0xda] NVIDIA A100-SXM4-40GB
#  Rank  8 Group  0 Pid 221811 on gpu-permanent-node-878 device  0 [0x0f] NVIDIA A100-SXM4-40GB
#  Rank  9 Group  0 Pid 221811 on gpu-permanent-node-878 device  1 [0x15] NVIDIA A100-SXM4-40GB
#  Rank 10 Group  0 Pid 221811 on gpu-permanent-node-878 device  2 [0x50] NVIDIA A100-SXM4-40GB
#  Rank 11 Group  0 Pid 221811 on gpu-permanent-node-878 device  3 [0x53] NVIDIA A100-SXM4-40GB
#  Rank 12 Group  0 Pid 221811 on gpu-permanent-node-878 device  4 [0x8c] NVIDIA A100-SXM4-40GB
#  Rank 13 Group  0 Pid 221811 on gpu-permanent-node-878 device  5 [0x91] NVIDIA A100-SXM4-40GB
#  Rank 14 Group  0 Pid 221811 on gpu-permanent-node-878 device  6 [0xd6] NVIDIA A100-SXM4-40GB
#  Rank 15 Group  0 Pid 221811 on gpu-permanent-node-878 device  7 [0xda] NVIDIA A100-SXM4-40GB
#
#                                                              out-of-place                       in-place
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
 10737418240    2684354560     float     sum      -1    90752  118.32  221.84      0    90977  118.02  221.29      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 221.568
#

成功した結果は、クラスタが生成AIワークロードを実行する準備ができていることを示しています。