Tests d'évaluation des performances des clusters d'IA dédiés dans Generative AI

Consultez les tests d'évaluation des clusters d'IA dédiés de l'hébergement dans OCI Generative AI.

Remarque

Termes de référence des performances

Terme Unité Définition

Accès simultané

(number)

Nombre d'utilisateurs qui effectuent des demandes en même temps.

Mesure 1 : vitesse d'inférence au niveau du jeton

jeton/seconde

Cette mesure est définie comme le nombre de jetons de sortie générés par unité de latence de bout en bout.

Pour les applications où la correspondance de la vitesse de lecture humaine moyenne est requise, les utilisateurs doivent se concentrer sur des scénarios où la vitesse est de 5 jetons/s ou plus, soit la vitesse de lecture humaine moyenne.

Dans d'autres scénarios nécessitant une génération de jetons en temps quasi réel plus rapide, tels que 15 jetons/seconde de vitesse d'inférence, par exemple, dialog/chatbot où le nombre d'utilisateurs simultanés qui pourraient être servis est plus faible et le débit global est plus faible.

Mesure 2 : Débit au niveau du jeton

jeton/seconde

Cette mesure quantifie le nombre total moyen de jetons générés par le serveur pour toutes les demandes utilisateur simultanées. Il fournit une mesure agrégée de la capacité et de l'efficacité du serveur pour traiter les demandes entre les utilisateurs.

Lorsque la vitesse d'inférence est moins critique, par exemple dans les tâches de traitement par lots hors ligne, l'accent doit être mis sur les pics de débit et, par conséquent, la rentabilité du serveur est la plus élevée. Cela indique la capacité du LLM à gérer un nombre élevé de demandes simultanées, idéal pour le traitement par lots ou les tâches en arrière-plan où une réponse immédiate n'est pas essentielle.

Remarque : le test d'évaluation du débit au niveau du jeton a été effectué à l'aide de l'outil LLMPerf. Le calcul de débit présente un problème qui inclut le temps nécessaire pour coder le texte généré pour le calcul de jeton.

Mesure 3 : Latence au niveau demande

seconde

Temps moyen écoulé entre la soumission de la demande et le temps nécessaire pour terminer la demande, par exemple après la génération du dernier jeton de la demande.

Mesure 4 : Débit de niveau demande (RPM)

demande/seconde

Nombre de demandes traitées par unité de temps, dans ce cas par minute.

Important

Les performances (vitesse d'inférence, débit, latence) d'un cluster d'IA dédié à l'hébergement dépendent des scénarios de trafic passant par le modèle qu'il héberge. Les scénarios de trafic dépendent des éléments suivants :

  1. Nombre de demandes simultanées.
  2. Nombre de jetons dans l'invite.
  3. Nombre de jetons dans la réponse.
  4. Ecart de (2) et (3) entre les demandes.

Scénarios de génération de discussion et de texte

scénario Description

Scénario 1 : longueurs d'invite et de réponse stochastiques

Ce scénario imite des cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance.

Dans ce scénario, en raison de la longueur inconnue de l'invite et de la réponse, nous avons utilisé une approche stochastique où la longueur de l'invite et de la réponse suivent une distribution normale :

  • La longueur de l'invite suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons
  • La longueur de la réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.

Scénario 2 : Génération augmentée par extraction (RAG)

Le scénario RAG comporte une invite très longue et une réponse courte. Ce scénario imite également les cas d'utilisation de l'agrégation.

  • La longueur de l'invite est fixée à 2 000 jetons.
  • La longueur de la réponse est fixée à 200 jetons.
Scénario 3 : Génération lourde

Ce scénario concerne les cas d'utilisation lourds de la génération/réponse de modèle. Par exemple, une description d'emploi longue générée à partir d'une courte liste d'éléments. Dans ce cas, nous définissons les longueurs de jeton suivantes :

  • La longueur de l'invite est fixée à 100 jetons.
  • La longueur de la réponse est fixée à 1 000 jetons.

Scénario 4 : Chatbot

Ce scénario couvre les cas d'utilisation de chatbot/boîte de dialogue où l'invite et les réponses sont plus courtes.

  • La longueur de l'invite est fixée à 100 jetons.
  • La longueur de la réponse est fixée à 100 jetons.

Scénarios d'intégration de texte

scénario Description

Scénario 5 : Intégrations

Le scénario 5 s'applique uniquement aux modèles d'intégration. Ce scénario imite la intégration de la génération dans le pipeline d'inclusion de données d'une base de données vectorielle.

Dans ce scénario, toutes les demandes ont la même taille, soit 96 documents, chacun avec 512 jetons. Un exemple serait un ensemble de fichiers PDF volumineux, chaque fichier contenant plus de 30 000 mots qu'un utilisateur veut ingérer dans une base de données vectorielle.

Scénario 6 : Charge globale des intégrations plus légères

Le scénario d'intégration plus léger est similaire au scénario 5, sauf que nous réduisons la taille de chaque demande à 16 documents, chacun avec 512 jetons. Les fichiers de plus petite taille avec moins de mots peuvent être pris en charge par le scénario 6.