Vérifier et valider la configuration
Examiner et évaluer la configuration, le GPU et les performances du réseau.
Réviser la configuration
Connectez-vous à l'hôte bastion et vérifiez la configuration.
Modifier la configuration du slurm
Par défaut, Slurm supprime automatiquement les conteneurs à la fin d'un travail. Comme vous voudrez probablement réutiliser le conteneur, il est beaucoup plus efficace de rendre les conteneurs persistants entre les tâches avec l'argument container_scope
. Cela accélérera considérablement les redémarrages ultérieurs en utilisant le même conteneur.
Extraire ou charger les conteneurs
Le plugin NVIDIA Pyxis pour Slurm avec l'utilitaire de conteneur Enroot fournit un environnement d'exécution de conteneur de cluster intégré au gestionnaire de charge de travail Slurm. Ces composants ont été installés lorsque vous avez coché les cases Pyxis et Enroot pendant la configuration du logiciel.
Voir https://github.com/NVIDIA/pyxis/ ou srun --help
pour plus de détails sur les options srun --container
fournies par Pyxis.
Valider la performance du GPU et du réseau
NVIDIA NCCL est une bibliothèque autonome de routines de communication standard pour les GPU. Nccl-tests
indique le temps d'opération NCCL moyen en ms, ainsi que la bande passante de l'algorithme et la bande passante du bus en Go/s. Ces tests mesurent les performances des GPU et du réseau, et valident également l'exactitude des opérations.
Pour plus de détails, consultez https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md.