Implementações de Modelo GPU

Diagnosticar e solucionar problemas de implantações de modelo de GPU.

Falha no Bootstrap Devido ao Tamanho do Modelo

Em geral, o tamanho do modelo é maior que 0 e menor que a memória de forma selecionada. Verifique o tamanho do modelo e certifique-se de que seja pelo menos menos menos de 70% do tamanho da memória da GPU ou CPU anexada com a forma de Computação.

Erro de CUDA de Tempo de Execução Sem Memória

Se ocorrer um erro CUDA out of memory (OOM), pode ser porque uma carga útil é muito grande e não há espaço suficiente na GPU para salvar o tensor de entrada e saída. Para otimizar o desempenho, ajuste o fator WEB_CONCURRENCY na variável de ambiente do aplicativo ao usar um servidor de inferência gerenciado pelo serviço.

Começar com um número menor, como 1 ou 2, pode ser benéfico devido à variabilidade nos tipos de modelos, estruturas e tamanhos de entrada e saída. Embora o Data Science tente estimar o melhor número de réplicas de modelo para aumentar o throughput, podem ocorrer problemas no runtime. Quando esse é o caso, o gerenciamento do número de réplicas de modelo em uma GPU pode ser feito ajustando-se WEB_CONCURRENCY. O fator WEB_CONCURRENCY padrão calculado pelo Data Science é encontrado nos logs de implantação de modelo.

Ao usar um contêiner BYOC, recomendamos reduzir o número de réplicas carregadas na GPU. Se essas opções não forem suficientes, talvez seja necessário fazer upgrade para uma configuração de Computação de GPU maior.