GPU distribuzioni modello

Risolvere i problemi relativi alle distribuzioni dei modelli GPU.

Bootstrap non riuscito a causa delle dimensioni del modello

In generale, la dimensione del modello è maggiore di 0 e minore della memoria della forma selezionata. Controllare le dimensioni del modello e assicurarsi che sia almeno inferiore al 70% delle dimensioni di memoria della GPU o della CPU collegata con la forma Compute.

Errore di memoria esterna CUDA runtime

Se si verifica un errore CUDA out of memory (OOM), potrebbe essere perché un payload è troppo grande e non c'è abbastanza spazio sulla GPU per salvare il tensore di input e output. Per ottimizzare le prestazioni, regolare il fattore WEB_CONCURRENCY nella variabile di ambiente dell'applicazione quando si utilizza un server inferenza gestito dal servizio.

A partire da un numero inferiore, ad esempio 1 o 2, potrebbe essere utile a causa della variabilità nei tipi di modello, nei framework e nelle dimensioni di input e output. Sebbene Data Science cerchi di stimare il numero migliore di repliche del modello per aumentare il throughput, potrebbero verificarsi problemi in fase di runtime. In questo caso, è possibile gestire il numero di repliche del modello su una GPU regolando WEB_CONCURRENCY. Il fattore WEB_CONCURRENCY predefinito calcolato da Data Science si trova nei log di distribuzione dei modelli.

Quando si utilizza un contenitore BYOC, si consiglia di ridurre il numero di repliche caricate sulla GPU. Se queste opzioni non sono sufficienti, potrebbe essere necessario eseguire l'upgrade a una forma di computazione GPU più grande.