Déploiements de modèle GPU
Résoudre les problèmes liés aux déploiements de modèle GPU.
Echec de l'initialisation en raison de la taille du modèle
En général, la taille du modèle est supérieure à 0 et inférieure à la mémoire de forme sélectionnée. Vérifiez la taille du modèle et assurez-vous qu'elle est au moins inférieure à 70 % de la taille de mémoire du GPU ou de l'UC attaché avec la forme Compute.
Erreur d'exécution : CUDA - Mémoire insuffisante
Si une erreur CUDA out of memory (OOM)
se produit, cela peut être dû au fait qu'une charge utile est trop volumineuse et qu'il n'y a pas assez d'espace sur le GPU pour enregistrer le tenseur d'entrée et de sortie. Pour optimiser les performances, ajustez le facteur WEB_CONCURRENCY
dans la variable d'environnement d'application lors de l'utilisation d'un serveur d'inférence géré par le service.
Commencer par un nombre inférieur, tel que 1 ou 2, peut être bénéfique en raison de la variabilité des types de modèle, des structures et des tailles d'entrée et de sortie. Alors que Data Science tente d'estimer le meilleur nombre de répliques de modèle pour un débit accru, des problèmes peuvent survenir lors de l'exécution. Dans ce cas, vous pouvez gérer le nombre de répliques de modèle sur un GPU en ajustant WEB_CONCURRENCY
. Le facteur WEB_CONCURRENCY
par défaut calculé par Data Science se trouve dans les journaux de déploiement de modèle.
Lorsque vous utilisez un conteneur BYOC, nous vous recommandons de réduire le nombre de répliques chargées sur le GPU. Si ces options ne suffisent pas, une mise à niveau vers une forme de calcul GPU plus grande peut s'avérer nécessaire.