Implementações de Modelo GPU
Diagnosticar e solucionar problemas de implantações de modelo de GPU.
Falha no Bootstrap Devido ao Tamanho do Modelo
Em geral, o tamanho do modelo é maior que 0 e menor que a memória de forma selecionada. Verifique o tamanho do modelo e certifique-se de que seja pelo menos menos menos de 70% do tamanho da memória da GPU ou CPU anexada com a forma de Computação.
Erro de CUDA de Tempo de Execução Sem Memória
Se ocorrer um erro CUDA out of memory (OOM)
, pode ser porque uma carga útil é muito grande e não há espaço suficiente na GPU para salvar o tensor de entrada e saída. Para otimizar o desempenho, ajuste o fator WEB_CONCURRENCY
na variável de ambiente do aplicativo ao usar um servidor de inferência gerenciado pelo serviço.
Começar com um número menor, como 1 ou 2, pode ser benéfico devido à variabilidade nos tipos de modelos, estruturas e tamanhos de entrada e saída. Embora o Data Science tente estimar o melhor número de réplicas de modelo para aumentar o throughput, podem ocorrer problemas no runtime. Quando esse é o caso, o gerenciamento do número de réplicas de modelo em uma GPU pode ser feito ajustando-se WEB_CONCURRENCY
. O fator WEB_CONCURRENCY
padrão calculado pelo Data Science é encontrado nos logs de implantação de modelo.
Ao usar um contêiner BYOC, recomendamos reduzir o número de réplicas carregadas na GPU. Se essas opções não forem suficientes, talvez seja necessário fazer upgrade para uma configuração de Computação de GPU maior.