Scénario 2 : tests d'évaluation de la génération augmentée par extraction (RAG) dans Generative AI
Le scénario RAG comporte une invite très longue et une réponse courte. Ce scénario imite également les cas d'utilisation de l'agrégation.
- La longueur de l'invite est fixée à 2 000 jetons.
- La longueur de la réponse est fixée à 200 jetons.
Important
Les performances (vitesse d'inférence, débit, latence) d'un cluster d'IA dédié à l'hébergement dépendent des scénarios de trafic passant par le modèle qu'il héberge. Les scénarios de trafic dépendent des éléments suivants :
- Nombre de demandes simultanées.
- Nombre de jetons dans l'invite.
- Nombre de jetons dans la réponse.
- Ecart de (2) et (3) entre les demandes.
Passez en revue les termes utilisés dans les tests d'évaluation du cluster AI dédié de l'hébergement. Pour obtenir la liste des scénarios et leur description, reportez-vous à la rubrique Scénarios de génération de discussion et de texte. Le scénario de génération augmentée par extraction est exécuté dans la région suivante.
Est du Brésil (São Paulo)
- Modèle : modèle
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B)) hébergé sur une unité Large Generic 4 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 32,94 25,28 7,91 7,58 2 31,31 49,05 8,15 14,71 4 28,85 87,28 8,85 26,18 8 24,24 141,04 10,42 42,31 16 20,31 219,48 12,52 65,85 32 15,99 366,75 16,7 110,03 64 11,03 485,78 24,63 145,74 128 8,27 560,24 41,22 168,07 256 8,01 583,97 74,21 175,19 - Modèle : modèle
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B)) hébergé sur une unité Large Generic d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 95,86 49,82 4,1 14,62 2 91,14 94,21 4,34 14,62 4 84,77 170,89 4,63 50,04 8 75,09 281,23 5,35 82,35 16 58,2 407,94 7 82,35 32 42,16 593,6 10,26 174,28 64 31,93 715,3 16,44 174,28 128 30,32 754,79 29,37 174,28 256 29,16 751,22 56,21 220,34 - Modèle : modèle
meta.llama-3-70b-instruct
(Meta Llama 3) hébergé sur une unité Large Generic d'un cluster AI dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 47,78 47,82 4,28 14,02 2 45,51 90,14 4,5 26,42 4 42,24 164,92 4,81 48,51 8 37,44 289,82 5,48 85,13 16 28 421 7,19 123,72 32 18,73 542,99 10,65 159,56 64 11,63 668,78 16,17 196,44 128 6,2 700,83 32,89 205,7 256 3,97 756 54,71 222,02 - Modèle : modèle
cohere.command-r-16k v1.2
(Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster AI dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 49,33 47,66 4,14 14,24 2 45,65 86,9 4,5 26,04 4 40,32 152,1 5,09 45,51 8 30,69 235,78 6,57 70,43 16 24,6 310,44 9,74 93,07 32 9,95 307,32 18,21 91,81 64 5,43 297,06 31,41 89,08 128 4,44 313,47 44,9 93,89 256 2,36 312,97 85,35 93,53 - Modèle : modèle
cohere.command-r-plus
(Cohere Command R+) hébergé sur une unité Large Cohere V2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 107,17 94,33 4,17 14,12 2 100,71 176,04 4,44 26,35 4 90,03 310,18 4,96 46,44 8 70,71 493,3 6,26 73,86 16 53,45 716,66 8,2 108,07 32 35,6 929,63 12,22 139,13 64 21,75 1 150,16 18,41 172,14 128 17,99 1 209,36 31,93 181,05 256 9,19 1 213,82 53,31 181,7
Germany Central (Frankfurt)
- Modèle : modèle
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B)) hébergé sur une unité Large Generic 4 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 32,94 25,28 7,91 7,58 2 31,31 49,05 8,15 14,71 4 28,85 87,28 8,85 26,18 8 24,24 141,04 10,42 42,31 16 20,31 219,48 12,52 65,85 32 15,99 366,75 16,7 110,03 64 11,03 485,78 24,63 145,74 128 8,27 560,24 41,22 168,07 256 8,01 583,97 74,21 175,19 - Modèle : modèle
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B)) hébergé sur une unité Large Generic d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 95,86 49,82 4,1 14,62 2 91,14 94,21 4,34 14,62 4 84,77 170,89 4,63 50,04 8 75,09 281,23 5,35 82,35 16 58,2 407,94 7 82,35 32 42,16 593,6 10,26 174,28 64 31,93 715,3 16,44 174,28 128 30,32 754,79 29,37 174,28 256 29,16 751,22 56,21 220,34 - Modèle : modèle
meta.llama-3-70b-instruct
(Meta Llama 3) hébergé sur une unité Large Generic d'un cluster AI dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 47,78 47,82 4,28 14,02 2 45,51 90,14 4,5 26,42 4 42,24 164,92 4,81 48,51 8 37,44 289,82 5,48 85,13 16 28 421 7,19 123,72 32 18,73 542,99 10,65 159,56 64 11,63 668,78 16,17 196,44 128 6,2 700,83 32,89 205,7 256 3,97 756 54,71 222,02 - Modèle : modèle
cohere.command-r-16k v1.2
(Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster AI dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 49,33 47,66 4,14 14,24 2 45,65 86,9 4,5 26,04 4 40,32 152,1 5,09 45,51 8 30,69 235,78 6,57 70,43 16 24,6 310,44 9,74 93,07 32 9,95 307,32 18,21 91,81 64 5,43 297,06 31,41 89,08 128 4,44 313,47 44,9 93,89 256 2,36 312,97 85,35 93,53 - Modèle : modèle
cohere.command-r-plus
(Cohere Command R+) hébergé sur une unité Large Cohere V2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 107,17 94,33 4,17 14,12 2 100,71 176,04 4,44 26,35 4 90,03 310,18 4,96 46,44 8 70,71 493,3 6,26 73,86 16 53,45 716,66 8,2 108,07 32 35,6 929,63 12,22 139,13 64 21,75 1 150,16 18,41 172,14 128 17,99 1 209,36 31,93 181,05 256 9,19 1 213,82 53,31 181,7
UK South (London)
- Modèle : modèle
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B)) hébergé sur une unité Large Generic 4 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 32,94 25,28 7,91 7,58 2 31,31 49,05 8,15 14,71 4 28,85 87,28 8,85 26,18 8 24,24 141,04 10,42 42,31 16 20,31 219,48 12,52 65,85 32 15,99 366,75 16,7 110,03 64 11,03 485,78 24,63 145,74 128 8,27 560,24 41,22 168,07 256 8,01 583,97 74,21 175,19 - Modèle : modèle
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B)) hébergé sur une unité Large Generic d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 95,86 49,82 4,1 14,62 2 91,14 94,21 4,34 14,62 4 84,77 170,89 4,63 50,04 8 75,09 281,23 5,35 82,35 16 58,2 407,94 7 82,35 32 42,16 593,6 10,26 174,28 64 31,93 715,3 16,44 174,28 128 30,32 754,79 29,37 174,28 256 29,16 751,22 56,21 220,34 - Modèle : modèle
meta.llama-3-70b-instruct
(Meta Llama 3) hébergé sur une unité Large Generic d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 47,78 47,82 4,28 14,02 2 45,51 90,14 4,5 26,42 4 42,24 164,92 4,81 48,51 8 37,44 289,82 5,48 85,13 16 28 421 7,19 123,72 32 18,73 542,99 10,65 159,56 64 11,63 668,78 16,17 196,44 128 6,2 700,83 32,89 205,7 256 3,97 756 54,71 222,02 - Modèle : modèle
cohere.command-r-16k v1.2
(Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 49,33 47,66 4,14 14,24 2 45,65 86,9 4,5 26,04 4 40,32 152,1 5,09 45,51 8 30,69 235,78 6,57 70,43 16 24,6 310,44 9,74 93,07 32 9,95 307,32 18,21 91,81 64 5,43 297,06 31,41 89,08 128 4,44 313,47 44,9 93,89 256 2,36 312,97 85,35 93,53 - Modèle : modèle
cohere.command-r-plus
(Cohere Command R+) hébergé sur une unité Large Cohere V2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 107,17 94,33 4,17 14,12 2 100,71 176,04 4,44 26,35 4 90,03 310,18 4,96 46,44 8 70,71 493,3 6,26 73,86 16 53,45 716,66 8,2 108,07 32 35,6 929,63 12,22 139,13 64 21,75 1 150,16 18,41 172,14 128 17,99 1 209,36 31,93 181,05 256 9,19 1 213,82 53,31 181,7
US Midwest (Chicago)
- Modèle : modèle
meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B)) hébergé sur une unité Large Generic 4 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 32,94 25,28 7,91 7,58 2 31,31 49,05 8,15 14,71 4 28,85 87,28 8,85 26,18 8 24,24 141,04 10,42 42,31 16 20,31 219,48 12,52 65,85 32 15,99 366,75 16,7 110,03 64 11,03 485,78 24,63 145,74 128 8,27 560,24 41,22 168,07 256 8,01 583,97 74,21 175,19 - Modèle : modèle
meta.llama-3.1-70b-instruct
(Meta Llama 3.1 (70B)) hébergé sur une unité Large Generic d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 95,86 49,82 4,1 14,62 2 91,14 94,21 4,34 14,62 4 84,77 170,89 4,63 50,04 8 75,09 281,23 5,35 82,35 16 58,2 407,94 7 82,35 32 42,16 593,6 10,26 174,28 64 31,93 715,3 16,44 174,28 128 30,32 754,79 29,37 174,28 256 29,16 751,22 56,21 220,34 - Modèle : modèle
meta.llama-3-70b-instruct
(Meta Llama 3) hébergé sur une unité Large Generic d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 28,84 28,82 7,11 8,44 2 26,52 52,69 7,66 15,51 4 24,23 94,86 8,38 27,92 8 20,01 155,97 10,21 45,76 16 14,34 216,26 14,12 63,43 32 9,33 275,28 21,3 80,89 64 5,68 334,46 32,55 98,11 128 3,13 364,18 64,59 106,94 256 1,59 359,21 128,67 105,44 - Modèle : modèle
cohere.command-r-16k v1.2
(Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 49,33 47,66 4,14 14,24 2 45,65 86,9 4,5 26,04 4 40,32 152,1 5,09 45,51 8 30,69 235,78 6,57 70,43 16 24,6 310,44 9,74 93,07 32 9,95 307,32 18,21 91,81 64 5,43 297,06 31,41 89,08 128 4,44 313,47 44,9 93,89 256 2,36 312,97 85,35 93,53 - Modèle : modèle
cohere.command-r-plus
(Cohere Command R+) hébergé sur une unité Large Cohere V2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 107,17 94,33 4,17 14,12 2 100,71 176,04 4,44 26,35 4 90,03 310,18 4,96 46,44 8 70,71 493,3 6,26 73,86 16 53,45 716,66 8,2 108,07 32 35,6 929,63 12,22 139,13 64 21,75 1 150,16 18,41 172,14 128 17,99 1 209,36 31,93 181,05 256 9,19 1 213,82 53,31 181,7 - Modèle : modèle
cohere.command
(Cohere Command 52 B) hébergé sur une unité Large Cohere d'un cluster AI dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 33,13 25,28 6,68 8,62 8 23,24 90,64 13,29 29,84 32 13,03 163,48 26,56 54,21 128 5,6 186,31 65,3 61,32 - Modèle : modèle
cohere.command-light
(Cohere Command Light 6 B) hébergé sur une unité Small Cohere d'un cluster AI dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 56,71 50,88 3,14 17,61 8 24,7 148,42 6,15 53,93 32 11,06 235,31 13,37 85,14 128 3,4 280,3 31,64 105,77