Références de performance de grappe d'IA dédiée dans le service d'IA générative
Vérifiez la vitesse d'inférence, la latence et le débit dans plusieurs scénarios lorsqu'un ou plusieurs utilisateurs simultanés appellent de grands modèles de langage hébergés sur des grappes d'IA dédiées dans l'IA générative d'OCI.
Les repères sont fournis pour les modèles des familles suivantes :
Les mesures suivantes sont utilisées pour les points de référence. Pour les définitions de mesure, voir À propos des mesures.
| Mesure | Unité |
|---|---|
| Délai avant le premier jeton (TTFT) | secondes |
| Vitesse d'inférence au niveau du jeton | jetons par seconde (TPS) |
| Débit au niveau du jeton | jetons par seconde (TPS) |
| Latence au niveau de la demande | secondes |
| Débit au niveau de la demande | demandes par minute (RPM) ou demandes par seconde (RPS) |
| Débit total (entrée + sortie) du serveur | jetons par seconde (TPS) |
À propos des mesures
Vérifiez les définitions des mesures de référence suivantes.
- Mesure 1 : Délai jusqu'au premier jeton (TTFT)
-
Temps nécessaire à un modèle pour générer et sortir son premier jeton (ou réponse initiale) après la réception d'une interrogation d'entrée.
- Mesure 2 : Vitesse d'inférence au niveau du jeton
-
Cette mesure est définie comme le nombre de jetons de sortie générés par unité de latence de bout en bout.
Pour les applications où la vitesse moyenne de lecture humaine est requise, les utilisateurs doivent se concentrer sur des scénarios où la vitesse est de 5 jetons / seconde ou plus, qui est la vitesse moyenne de lecture humaine.
Dans d'autres scénarios nécessitant une génération de jetons en temps quasi réel plus rapide, tels que la vitesse d'inférence de 15 jetons / seconde, par exemple dans les scénarios de dialogue et de clavardage où le nombre d'utilisateurs simultanés pouvant être servis est inférieur et le débit global est inférieur.
- Mesure 3 : Débit au niveau du jeton
-
Cette mesure quantifie le nombre total moyen de jetons générés par le serveur pour toutes les demandes d'utilisateur simultanées. Il fournit une mesure globale de la capacité et de l'efficacité du serveur pour traiter les demandes entre les utilisateurs.
Lorsque la vitesse d'inférence est moins critique, par exemple dans les tâches de traitement par lots hors ligne, l'accent doit être mis sur les pics de débit et, par conséquent, sur la rentabilité des serveurs. Cela indique la capacité du LLM à traiter un grand nombre de demandes concurrentes, idéal pour le traitement par lots ou les tâches en arrière-plan où une réponse immédiate n'est pas essentielle.
Note : L'évaluation du débit au niveau du jeton a été effectuée à l'aide de l'outil LLMPerf. Le calcul du débit présente un problème où il inclut le temps nécessaire pour encoder le texte généré pour le calcul du jeton.
- Mesure 4 : Latence au niveau de la demande
-
Cette mesure représente le temps moyen écoulé entre la soumission de la demande et le temps nécessaire pour terminer la demande, par exemple après la génération du dernier jeton de la demande.
- Mesure 5 : Débit au niveau de la demande
-
Nombre de demandes traitées par unité de temps, par minute ou par seconde.
- Mesure 6 : Débit total
-
Débit d'entrée et de sortie du serveur
- Concurrence
-
Nombre d'utilisateurs qui effectuent des demandes en même temps.
La performance (vitesse d'inférence, débit, latence) d'une grappe dédiée à l'IA pour l'hébergement dépend des scénarios de trafic passant par le modèle qu'elle héberge. Les scénarios de trafic dépendent de :
- Nombre de demandes concurrentes.
- Nombre de jetons de l'invite.
- Nombre de jetons de la réponse.
- La variance de (2) et (3) entre les demandes.