Modell-Deployments - GPU

Probleme bei GPU-Modell-Deployments beheben

Bootstrap aufgrund der Modellgröße nicht erfolgreich

Im Allgemeinen ist die Modellgröße größer als 0 und kleiner als der ausgewählte Ausprägungsspeicher. Prüfen Sie die Modellgröße, und stellen Sie sicher, dass sie mindestens weniger als 70% der Speichergröße der angehängten GPU oder CPU mit der Compute-Ausprägung beträgt.

Laufzeit-CUDA-Fehler "Nicht genügend Arbeitsspeicher"

Wenn ein CUDA out of memory (OOM)-Fehler auftritt, kann dies daran liegen, dass eine Payload zu groß ist und nicht genügend Speicherplatz auf der GPU vorhanden ist, um den Eingabe- und Ausgabetensor zu speichern. Um die Performance zu optimieren, passen Sie den Faktor WEB_CONCURRENCY in der Anwendungsumgebungsvariablen an, wenn Sie einen vom Service verwalteten Inferenzserver verwenden.

Wenn Sie mit einer niedrigeren Zahl beginnen, z.B. 1 oder 2, kann dies aufgrund der Variabilität der Modelltypen, Frameworks sowie der Eingabe- und Ausgabegrößen von Vorteil sein. Während Data Science versucht, die beste Anzahl von Modellreplikaten für einen erhöhten Durchsatz zu schätzen, können zur Laufzeit Probleme auftreten. In diesem Fall kann die Verwaltung der Anzahl der Modellreplikate auf einer GPU durch Anpassung von WEB_CONCURRENCY erreicht werden. Der von Data Science berechnete WEB_CONCURRENCY-Standardfaktor ist in Modell-Deployment-Logs enthalten.

Wenn Sie einen BYOC-Container verwenden, wird empfohlen, die Anzahl der auf die GPU geladenen Replikate zu reduzieren. Wenn diese Optionen nicht ausreichen, ist möglicherweise ein Upgrade auf eine größere GPU-Compute-Ausprägung erforderlich.