Konfiguration prüfen und validieren
Prüfen Sie die Konfiguration, GPU und Netzwerkperformance.
Prüfen Sie die Konfiguration
Melden Sie sich bei der Bastion an, und prüfen Sie die Konfiguration.
Slurm-Konfiguration bearbeiten
Standardmäßig entfernt Slurm Container automatisch am Ende eines Jobs. Da Sie den Container wahrscheinlich wieder verwenden möchten, ist es viel effizienter, Container über Jobs hinweg mit dem Argument container_scope
persistent zu machen. Dadurch werden nachfolgende Neustarts mit demselben Container erheblich beschleunigt.
Container entnehmen oder hochladen
NVIDIA Pyxis-Plugin für Slurm mit dem Enroot-Container-Utility stellt eine Cluster-Container-Ausführungsumgebung bereit, die in Slurm-Workload-Manager integriert ist. Diese Komponenten wurden installiert, als Sie die Kontrollkästchen Pyxis und Enroot während der Softwarekonfiguration aktiviert haben.
Einzelheiten zu den von Pyxis bereitgestellten srun --container
-Optionen finden Sie unter https://github.com/NVIDIA/pyxis/ oder srun --help
.
GPU- und Netzwerkperformance validieren
NVIDIA NCCL ist eine eigenständige Bibliothek mit Standardkommunikationsroutinen für GPUs. NCCL-tests
meldet die durchschnittliche NCCL-Betriebszeit in ms und die Algorithmusbandbreite und die Busbandbreite in GB/s. Diese Tests messen die Performance der GPUs und des Netzwerks und validieren auch die Richtigkeit der Vorgänge.
Weitere Informationen finden Sie unter https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md.