Déploiements de modèle GPU

Dépannez les déploiements de modèle GPU.

Échec de l'amorçage en raison de la taille du modèle

En général, la taille du modèle est supérieure à 0 et inférieure à la mémoire de forme sélectionnée. Vérifiez la taille du modèle et assurez-vous qu'elle correspond à au moins 70 % de la taille de mémoire du GPU ou de l'UC attaché avec la forme de calcul.

Erreur de mémoire hors mémoire CUDA d'exécution

Si une erreur CUDA out of memory (OOM) se produit, cela peut être dû au fait qu'une charge utile est trop volumineuse et qu'il n'y a pas assez d'espace sur le GPU pour enregistrer le tenseur d'entrée et de sortie. Pour optimiser la performance, ajustez le facteur WEB_CONCURRENCY dans la variable d'environnement d'application lors de l'utilisation d'un serveur d'inférence géré par un service.

Commencer par un nombre inférieur, tel que 1 ou 2, peut être bénéfique en raison de la variabilité des types de modèle, des cadres et des tailles d'entrée et de sortie. Bien que le service de science des données tente d'estimer le meilleur nombre de répliques de modèle pour un débit accru, des problèmes peuvent se produire lors de l'exécution. Dans ce cas, la gestion du nombre de répliques de modèle sur un GPU peut être réalisée en ajustant WEB_CONCURRENCY. Le facteur WEB_CONCURRENCY par défaut calculé par le service de science des données se trouve dans les journaux de déploiement de modèle.

Lorsque vous utilisez un conteneur BYOC, nous vous recommandons de réduire le nombre de répliques chargées sur le GPU. Si ces options ne suffisent pas, une mise à niveau vers une forme de calcul GPU plus grande peut être nécessaire.