Revisar e Validar a Configuração
Revise e verifique a configuração, GPU e o desempenho da rede.
Revise a Configuração
Faça log-in no Bastion e revise a configuração.
Editar a Configuração de Slurm
Por padrão, o Slurm remove contêineres automaticamente no final de um trabalho. Como você provavelmente desejará usar o contêiner novamente, é muito mais eficiente fazer com que os contêineres persistam nos jobs com o argumento container_scope
. Isso acelerará muito as reinicializações subsequentes usando o mesmo contêiner.
Extrair ou Fazer Upload dos Contêineres
O plug-in NVIDIA Pyxis para Slurm com o utilitário de contêiner Enroot fornece um ambiente de execução de contêiner de cluster integrado ao gerenciador de carga de trabalho Slurm. Esses componentes foram instalados quando você marcou as caixas Pyxis e Enroot durante a configuração do Software.
Consulte https://github.com/NVIDIA/pyxis/ ou srun --help
para obter detalhes das opções srun --container
fornecidas pelo Pyxis.
Validar a GPU e o Desempenho da Rede
O NVIDIA NCCL é uma biblioteca independente de rotinas de comunicação padrão para GPUs. O Nccl-tests
informa o tempo médio de operação do NCCL em ms e a largura de banda e a largura de banda do barramento do algoritmo em GB/s. Esses testes medem o desempenho das GPUs e da rede e também validam a correção das operações.
Para obter detalhes, consulte https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md.