Tests de performances de cluster d'IA dédié dans Generative AI
Passez en revue la vitesse d'inférence, la latence et le débit dans plusieurs scénarios lorsqu'un ou plusieurs utilisateurs simultanés appellent de grands modèles de langage hébergés sur des clusters d'IA dédiés dans OCI Generative AI.
Les repères sont fournis pour les modèles dans les familles suivantes :
Les mesures suivantes sont utilisées pour les repères. Pour connaître les définitions de mesure, reportez-vous à A propos des mesures.
Métrique | Unité |
---|---|
Vitesse d'inférence au niveau du jeton | jetons par seconde (TPS) |
Débit au niveau du jeton | jetons par seconde (TPS) |
Latence au niveau de la demande | secondes |
Débit au niveau de la demande | demandes par minute (RPM) ou demandes par seconde (RPS) |
A propos des mesures
Consultez les définitions des métriques de référence suivantes.
- Mesure 1 : vitesse d'inférence au niveau du jeton
-
Cette mesure est définie comme le nombre de jetons de sortie générés par unité de latence de bout en bout.
Pour les applications où la vitesse moyenne de lecture humaine est requise, les utilisateurs doivent se concentrer sur des scénarios où la vitesse est de 5 jetons/seconde ou plus, qui est la vitesse moyenne de lecture humaine.
Dans d'autres scénarios nécessitant une génération de jetons en temps quasi-réel plus rapide, tels que 15 jetons/seconde de vitesse d'inférence, par exemple dans les scénarios de dialogue et de discussion où le nombre d'utilisateurs simultanés qui pourraient être servis est inférieur et le débit global est inférieur.
- Mesure 2 : Débit au niveau du jeton
-
Cette mesure quantifie le nombre total moyen de jetons générés par le serveur pour toutes les demandes utilisateur simultanées. Il fournit une mesure agrégée de la capacité et de l'efficacité du serveur pour traiter les demandes entre les utilisateurs.
Lorsque la vitesse d'inférence est moins critique, par exemple dans les tâches de traitement par lots hors ligne, l'accent doit être mis sur les pics de débit et, par conséquent, la rentabilité du serveur est la plus élevée. Cela indique la capacité du LLM à gérer un nombre élevé de demandes simultanées, idéal pour le traitement par lots ou les tâches en arrière-plan où une réponse immédiate n'est pas essentielle.
Remarque : le test d'évaluation du débit au niveau du jeton a été effectué à l'aide de l'outil LLMPerf. Le calcul du débit présente un problème dans lequel il inclut le temps nécessaire pour encoder le texte généré pour le calcul du jeton.
- Mesure 3 : latence au niveau des demandes
-
Cette mesure représente le temps moyen écoulé entre la soumission de la demande et le temps nécessaire pour terminer la demande, par exemple après la génération du dernier jeton de la demande.
- Mesure 4 : Débit au niveau demande
-
Nombre de demandes traitées par unité de temps, par minute ou par seconde.
- Accès simultané
-
Nombre d'utilisateurs qui effectuent des demandes en même temps.
Les performances (vitesse d'inférence, débit, latence) d'un cluster d'IA dédié à l'hébergement dépendent des scénarios de trafic passant par le modèle qu'il héberge. Les scénarios de trafic dépendent des éléments suivants :
- Nombre de demandes simultanées.
- Nombre de jetons dans l'invite.
- Nombre de jetons dans la réponse.
- Ecart de (2) et (3) entre les demandes.