Vérification et validation de la configuration
Examiner et la configuration, les GPU et les performances réseau.
Passez en revue la configuration
Connectez-vous au bastion et vérifiez la configuration.
Modifier la configuration du slurm
Par défaut, Slurm supprime automatiquement les récipients à la fin d'une tâche. Comme vous voudrez probablement réutiliser le conteneur, il est beaucoup plus efficace de rendre les conteneurs persistants dans les travaux avec l'argument container_scope
. Cela accélérera considérablement les redémarrages ultérieurs à l'aide du même conteneur.
Extraire ou charger les conteneurs
Le module d'extension NVIDIA Pyxis pour Slurm avec l'utilitaire de conteneur Enroot fournit un environnement d'exécution de conteneur de cluster intégré au gestionnaire de charge de travail Slurm. Ces composants ont été installés lorsque vous avez coché les cases Pyxis et Enroot lors de la configuration du logiciel.
Reportez-vous à https://github.com/NVIDIA/pyxis/ ou srun --help
pour plus de détails sur les options srun --container
fournies par Pyxis.
Valider les performances du GPU et du réseau
NVIDIA NCCL est une bibliothèque autonome de routines de communication standard pour les GPU. Nccl-tests
indique le temps de fonctionnement NCCL moyen en ms, ainsi que la bande passante de l'algorithme et la bande passante du bus en Go/s. Ces tests mesurent les performances des GPU et du réseau, et valident également l'exactitude des opérations.
Pour plus d'informations, reportez-vous à https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md.