Tests de performance des grappes dédiées à l'IA dans le domaine de l'IA générative

Vérifiez la vitesse d'inférence, la latence et le débit dans plusieurs scénarios lorsqu'un ou plusieurs utilisateurs simultanés appellent de grands modèles de langage hébergés sur des grappes d'IA dédiées dans l'IA générative d'OCI.

Les repères sont fournis pour les modèles des familles suivantes :

Les mesures suivantes sont utilisées pour les points de référence. Pour les définitions de mesure, voir À propos des mesures.

Mesures de référence
Mesure Unité
Délai avant le premier jeton (TTFT) secondes
Vitesse d'inférence au niveau du jeton jetons par seconde (TPS)
Débit au niveau du jeton jetons par seconde (TPS)
Latence au niveau de la demande secondes
Débit au niveau de la demande demandes par minute (RPM) ou demandes par seconde (RPS)
Débit total (entrée + sortie) du serveur jetons par seconde (TPS)

À propos des mesures

Vérifiez les définitions des mesures de référence suivantes.

Mesure 1 : Délai jusqu'au premier jeton (TTFT)

Temps nécessaire à un modèle pour générer et sortir son premier jeton (ou réponse initiale) après la réception d'une interrogation d'entrée.

Mesure 2 : Vitesse d'inférence au niveau du jeton

Cette mesure est définie comme le nombre de jetons de sortie générés par unité de latence de bout en bout.

Pour les applications où la vitesse moyenne de lecture humaine est requise, les utilisateurs doivent se concentrer sur des scénarios où la vitesse est de 5 jetons / seconde ou plus, qui est la vitesse moyenne de lecture humaine.

Dans d'autres scénarios nécessitant une génération de jetons en temps quasi réel plus rapide, tels que la vitesse d'inférence de 15 jetons / seconde, par exemple dans les scénarios de dialogue et de clavardage où le nombre d'utilisateurs simultanés pouvant être servis est inférieur et le débit global est inférieur.

Mesure 3 : Débit au niveau du jeton

Cette mesure quantifie le nombre total moyen de jetons générés par le serveur pour toutes les demandes d'utilisateur simultanées. Il fournit une mesure globale de la capacité et de l'efficacité du serveur pour traiter les demandes entre les utilisateurs.

Lorsque la vitesse d'inférence est moins critique, par exemple dans les tâches de traitement par lots hors ligne, l'accent doit être mis sur les pics de débit et, par conséquent, sur l'efficacité des coûts du serveur. Indique la capacité du LLM à gérer un nombre élevé de demandes concurrentes, idéal pour le traitement par lots ou les tâches en arrière-plan où une réponse immédiate n'est pas essentielle.

Note : La référence de débit au niveau du jeton a été effectuée à l'aide de l'outil LLMPerf. Le calcul de débit a un problème où il inclut le temps nécessaire pour encoder le texte généré pour le calcul de jeton.

Mesure 4 : Latence au niveau de la demande

Cette mesure représente le temps moyen écoulé entre la soumission de la demande et le temps nécessaire pour terminer la demande, par exemple après la génération du dernier jeton de la demande.

Mesure 5 : Débit au niveau de la demande

Nombre de demandes traitées par unité de temps, par minute ou par seconde.

Mesure 6 : Débit total

Débit d'entrée et de sortie du serveur

Concurrence

Nombre d'utilisateurs qui effectuent des demandes en même temps.

Important

La performance (vitesse d'inférence, débit, latence) d'une grappe d'IA dédiée à l'hébergement dépend des scénarios de trafic passant par le modèle qu'elle héberge. Les scénarios de trafic dépendent des éléments suivants :

  1. Nombre de demandes concurrentes.
  2. Nombre de jetons dans l'invite.
  3. Nombre de jetons dans la réponse.
  4. Écart entre (2) et (3) entre les demandes.