Revisión y validación de la configuración
Revisar y la configuración, la GPU y el rendimiento de la red.
Revise la configuración
Conéctese al bastión y revise la configuración.
Edición de la configuración de slurm
Por defecto, Slurm elimina los contenedores automáticamente al final de un trabajo. Puesto que es probable que desee volver a utilizar el contenedor, es mucho más eficaz hacer que los contenedores se mantengan en todos los trabajos con el argumento container_scope
. Esto acelerará en gran medida los reinicios posteriores utilizando el mismo contenedor.
Extraer o cargar los contenedores
El plugin NVIDIA Pyxis para Slurm con la utilidad de contenedor Enroot proporciona un entorno de ejecución de contenedor de cluster integrado con Slurm load manager. Estos componentes se instalaron al marcar las casillas Pyxis y Enroot durante la configuración del software.
Consulte https://github.com/NVIDIA/pyxis/ o srun --help
para obtener detalles de las opciones srun --container
proporcionadas por Pyxis.
Validación del rendimiento de red y GPU
NVIDIA NCCL es una biblioteca independiente de rutinas de comunicación estándar para GPU. Nccl-tests
informa del tiempo medio de operación de NCCL en ms y del ancho de banda del algoritmo y el ancho de banda del bus en GB/s. Estas pruebas miden el rendimiento de las GPU y la red, y también validan la corrección de las operaciones.
Para obtener más información, consulte https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md.