Scénario 1 : repères de longueur stochastique dans l'IA générative

Ce scénario imite des cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. Dans ce scénario, en raison de la longueur inconnue de l'invite et de la réponse, nous avons utilisé une approche stochastique où la longueur de l'invite et de la réponse suivent une distribution normale :

  • La longueur de l'invite suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons
  • La longueur de la réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.
Important

Les performances (vitesse d'inférence, débit, latence) d'un cluster d'IA dédié à l'hébergement dépendent des scénarios de trafic passant par le modèle qu'il héberge. Les scénarios de trafic dépendent des éléments suivants :

  1. Nombre de demandes simultanées.
  2. Nombre de jetons dans l'invite.
  3. Nombre de jetons dans la réponse.
  4. Ecart de (2) et (3) entre les demandes.

Passez en revue les termes utilisés dans les tests d'évaluation du cluster AI dédié de l'hébergement. Pour obtenir la liste des scénarios et leur description, reportez-vous à la rubrique Scénarios de génération de discussion et de texte. Le scénario Fusion est exécuté dans la région suivante.

Est du Brésil (São Paulo)

Modèle : modèle meta.llama-3-70b-instruct (Meta Llama 3) hébergé sur une unité Large Generic d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 49,76 49,58 6,42 9,33
2 48,04 95,38 6,8 17,53
4 46,09 181,21 6,99 33,6
8 44,19 330,46 7,43 60,67
16 40,56 591,52 8,4 104,42
32 31,35 869,36 9,68 168,46
64 23,87 1 062,52 12,57 201,11
128 16,86 1 452,66 17,64 276,09
256 9,84 1 792,81 30,08 347,26
Modèle : modèle cohere.command-r-16k v1.2 (Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 51,3 50,46 4,63 12,75
2 51,06 97,86 5,07 23,14
4 47,52 186,75 5,3 44,48
8 43,55 305,45 5,68 75,18
16 36,49 505,11 6,71 127,88
32 29,02 768,4 8,84 177,03
64 18,57 735,37 14,55 168
128 12,59 809,5 21,27 186,76
256 6,54 859,45 38,69 200,42

Germany Central (Frankfurt)

Modèle : modèle meta.llama-3-70b-instruct (Meta Llama 3) hébergé sur une unité Large Generic d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 49,76 49,58 6,42 9,33
2 48,04 95,38 6,8 17,53
4 46,09 181,21 6,99 33,6
8 44,19 330,46 7,43 60,67
16 40,56 591,52 8,4 104,42
32 31,35 869,36 9,68 168,46
64 23,87 1 062,52 12,57 201,11
128 16,86 1 452,66 17,64 276,09
256 9,84 1 792,81 30,08 347,26
Modèle : modèle cohere.command-r-16k v1.2 (Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 51,3 50,46 4,63 12,75
2 51,06 97,86 5,07 23,14
4 47,52 186,75 5,3 44,48
8 43,55 305,45 5,68 75,18
16 36,49 505,11 6,71 127,88
32 29,02 768,4 8,84 177,03
64 18,57 735,37 14,55 168
128 12,59 809,5 21,27 186,76
256 6,54 859,45 38,69 200,42

UK South (London)

Modèle : modèle meta.llama-3-70b-instruct (Meta Llama 3) hébergé sur une unité Large Generic d'un cluster d'IA dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 49,76 49,58 6,42 9,33
2 48,04 95,38 6,8 17,53
4 46,09 181,21 6,99 33,6
8 44,19 330,46 7,43 60,67
16 40,56 591,52 8,4 104,42
32 31,35 869,36 9,68 168,46
64 23,87 1 062,52 12,57 201,11
128 16,86 1 452,66 17,64 276,09
256 9,84 1 792,81 30,08 347,26
Modèle : modèle cohere.command-r-16k v1.2 (Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster d'IA dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 51,3 50,46 4,63 12,75
2 51,06 97,86 5,07 23,14
4 47,52 186,75 5,3 44,48
8 43,55 305,45 5,68 75,18
16 36,49 505,11 6,71 127,88
32 29,02 768,4 8,84 177,03
64 18,57 735,37 14,55 168
128 12,59 809,5 21,27 186,76
256 6,54 859,45 38,69 200,42

US Midwest (Chicago)

Modèle : modèle meta.llama-3-70b-instruct (Meta Llama 3) hébergé sur une unité Large Generic d'un cluster d'IA dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 30,51 30,36 10,47 5,73
2 28,85 57,37 11,09 10,68
4 27,99 108,49 11,13 21,08
8 25,61 196,68 13,27 34,65
16 21,97 318,82 15,36 56,37
32 16,01 428,45 18,55 82,88
64 11,6 563,7 24,31 108,58
128 7,5 650,4 40,64 40,64
256 4,58 927,31 67,42 172,42
Modèle : modèle cohere.command-r-16k v1.2 (Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster d'IA dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 51,3 50,46 4,63 12,75
2 51,06 97,86 5,07 23,14
4 47,52 186,75 5,3 44,48
8 43,55 305,45 5,68 75,18
16 36,49 505,11 6,71 127,88
32 29,02 768,4 8,84 177,03
64 18,57 735,37 14,55 168
128 12,59 809,5 21,27 186,76
256 6,54 859,45 38,69 200,42
Modèle : modèle cohere.command (Cohere Command 52 B) hébergé sur une unité Large Cohere d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 36,32 31,29 8,15 7,12
8 30,15 106,03 13,19 23,86
32 23,94 204,41 23,9 45,84
128 14,36 254,54 65,26 56,58
Modèle : modèle cohere.command-light (Cohere Command Light 6 B) hébergé sur une unité Small Cohere d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 69,17 69,19 3,57 15,69
8 38,75 208,22 6,54 45,08
32 17,98 337,35 13,49 75,5
128 4,01 397,36 37,69 92,17
Modèle : modèle meta.llama-2-70b-chat (Llama2 70 B) hébergé sur une unité Llama2 70 d'un cluster AI dédié
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 17,86 17,18 13,6 4,32
8 14,48 68,62 16,63 16,58
32 9,82 174,4 20,78 44,58
128 3,89 319,34 43,87 85,33