Revisione e convalida della configurazione
Revisione e prestazioni di configurazione, GPU e rete.
Revisione della configurazione
Eseguire il login al bastion ed esaminare la configurazione.
Modifica la configurazione Slurm
Per impostazione predefinita, Slurm rimuove automaticamente i contenitori alla fine di un job. Poiché è probabile che si desideri utilizzare di nuovo il contenitore, è molto più efficiente rendere i contenitori persistenti tra i job con l'argomento container_scope
. Ciò accelererà notevolmente i riavvii successivi utilizzando lo stesso contenitore.
Pull o carica container
Il plugin NVIDIA Pyxis per Slurm con la utility container Enroot fornisce un ambiente di esecuzione dei container cluster integrato con il gestore dei carichi di lavoro Slurm. Questi componenti sono stati installati quando sono state selezionate le caselle Pyxis e Enroot durante la configurazione del software.
Per informazioni dettagliate sulle opzioni srun --container
fornite da Pyxis, vedere https://github.com/NVIDIA/pyxis/ o srun --help
.
Convalida prestazioni GPU e rete
NVIDIA NCCL è una libreria standalone di routine di comunicazione standard per GPU. Nccl-tests
segnala il tempo medio di funzionamento NCCL in ms, la larghezza di banda dell'algoritmo e la larghezza di banda del bus in GB/s. Questi test misurano le prestazioni delle GPU e della rete e convalidano anche la correttezza delle operazioni.
Per maggiori dettagli, vedere https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md.