Implementações de Modelo GPU

Diagnosticar e solucionar problemas de implantações de modelo de GPU.

Falha no Bootstrap Devido ao Tamanho do Modelo

Em geral, o tamanho do modelo é maior que 0 e menor que a memória de forma selecionada. Verifique o tamanho do modelo e certifique-se de que seja pelo menos menos menos de 70% do tamanho da memória da GPU ou CPU anexada com a forma de Computação.

Erro de CUDA de Tempo de Execução Sem Memória

Se ocorrer um erro CUDA out of memory (OOM), pode ser porque uma carga útil é muito grande e não há espaço suficiente na GPU para salvar o tensor de entrada e saída. Para otimizar o desempenho, ajuste o fator WEB_CONCURRENCY na variável de ambiente do aplicativo ao usar um servidor de inferência gerenciado pelo serviço.

Começar com um número menor, como 1 ou 2, pode ser benéfico devido à variabilidade nos tipos de modelos, estruturas e tamanhos de entrada e saída. Embora o Data Science tente estimar o melhor número de réplicas de modelo para aumentar o throughput, podem ocorrer problemas no runtime. Quando esse é o caso, o gerenciamento do número de réplicas de modelo em uma GPU pode ser feito ajustando-se WEB_CONCURRENCY. O fator WEB_CONCURRENCY padrão calculado pelo Data Science é encontrado nos logs de implantação de modelo.

Ao usar um contêiner BYOC, recomendamos reduzir o número de réplicas carregadas na GPU. Se essas opções não forem suficientes, talvez seja necessário fazer upgrade para uma configuração de Computação de GPU maior.

Documentação do Oracle Cloud Infrastructure

Implementações de Modelo GPU

Falha no Bootstrap Devido ao Tamanho do Modelo

Erro de CUDA de Tempo de Execução Sem Memória