Tests de performance des grappes dédiées à l'IA dans le domaine de l'IA générative
Vérifiez la vitesse d'inférence, la latence et le débit dans plusieurs scénarios lorsqu'un ou plusieurs utilisateurs simultanés appellent de grands modèles de langage hébergés sur des grappes d'IA dédiées dans l'IA générative d'OCI.
Les repères sont fournis pour les modèles des familles suivantes :
Les mesures suivantes sont utilisées pour les points de référence. Pour les définitions de mesure, voir À propos des mesures.
Mesure | Unité |
---|---|
Délai avant le premier jeton (TTFT) | secondes |
Vitesse d'inférence au niveau du jeton | jetons par seconde (TPS) |
Débit au niveau du jeton | jetons par seconde (TPS) |
Latence au niveau de la demande | secondes |
Débit au niveau de la demande | demandes par minute (RPM) ou demandes par seconde (RPS) |
Débit total (entrée + sortie) du serveur | jetons par seconde (TPS) |
À propos des mesures
Vérifiez les définitions des mesures de référence suivantes.
- Mesure 1 : Délai jusqu'au premier jeton (TTFT)
-
Temps nécessaire à un modèle pour générer et sortir son premier jeton (ou réponse initiale) après la réception d'une interrogation d'entrée.
- Mesure 2 : Vitesse d'inférence au niveau du jeton
-
Cette mesure est définie comme le nombre de jetons de sortie générés par unité de latence de bout en bout.
Pour les applications où la vitesse moyenne de lecture humaine est requise, les utilisateurs doivent se concentrer sur des scénarios où la vitesse est de 5 jetons / seconde ou plus, qui est la vitesse moyenne de lecture humaine.
Dans d'autres scénarios nécessitant une génération de jetons en temps quasi réel plus rapide, tels que la vitesse d'inférence de 15 jetons / seconde, par exemple dans les scénarios de dialogue et de clavardage où le nombre d'utilisateurs simultanés pouvant être servis est inférieur et le débit global est inférieur.
- Mesure 3 : Débit au niveau du jeton
-
Cette mesure quantifie le nombre total moyen de jetons générés par le serveur pour toutes les demandes d'utilisateur simultanées. Il fournit une mesure globale de la capacité et de l'efficacité du serveur pour traiter les demandes entre les utilisateurs.
Lorsque la vitesse d'inférence est moins critique, par exemple dans les tâches de traitement par lots hors ligne, l'accent doit être mis sur les pics de débit et, par conséquent, sur l'efficacité des coûts du serveur. Indique la capacité du LLM à gérer un nombre élevé de demandes concurrentes, idéal pour le traitement par lots ou les tâches en arrière-plan où une réponse immédiate n'est pas essentielle.
Note : La référence de débit au niveau du jeton a été effectuée à l'aide de l'outil LLMPerf. Le calcul de débit a un problème où il inclut le temps nécessaire pour encoder le texte généré pour le calcul de jeton.
- Mesure 4 : Latence au niveau de la demande
-
Cette mesure représente le temps moyen écoulé entre la soumission de la demande et le temps nécessaire pour terminer la demande, par exemple après la génération du dernier jeton de la demande.
- Mesure 5 : Débit au niveau de la demande
-
Nombre de demandes traitées par unité de temps, par minute ou par seconde.
- Mesure 6 : Débit total
-
Débit d'entrée et de sortie du serveur
- Concurrence
-
Nombre d'utilisateurs qui effectuent des demandes en même temps.
La performance (vitesse d'inférence, débit, latence) d'une grappe d'IA dédiée à l'hébergement dépend des scénarios de trafic passant par le modèle qu'elle héberge. Les scénarios de trafic dépendent des éléments suivants :
- Nombre de demandes concurrentes.
- Nombre de jetons dans l'invite.
- Nombre de jetons dans la réponse.
- Écart entre (2) et (3) entre les demandes.