Meta Llama 3.3 (70B)
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour toutes les régions disponibles, à l'exception de UAE East (Dubai)meta.llama-3.3-70b-instruct-fp8-dynamichébergé sur une unité LARGE_GENERIC_V1 d'une grappe dédiée à l'IA pour la région UAE East (Dubai) uniquement
Longueur aléatoire
Ce scénario imite les cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. En raison de l'invite inconnue et des longueurs de réponse, nous avons utilisé une approche stochastique où l'invite et la longueur de réponse suivent une distribution normale. La longueur rapide suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons. La longueur de réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.
- Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour toutes les régions, à l'exception des régions Arabie saoudite - Centre (Riyad) et Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,05 58,64 58,02 5,19 0,19 143,72 2 0,06 57,98 114,84 5,34 0,37 286,52 4 0,06 56,74 224,06 5,29 0,75 574,6 8 0,07 54,74 425,3 5,44 1,44 1 086,78 16 0,09 50,89 775,13 5,94 2,59 1 999,12 32 0,16 44,32 1 296,53 6,59 4,53 3 456,77 64 0,4 35,74 1 914,2 8,52 6,58 5 132,42 128 1,29 25,6 2 314,73 11,93 8,49 6 334,64 256 4,09 15,27 1 976,65 20,16 8,09 5 691,5 - Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,05 71,89 70,69 4,24 0,23 181,67 2 0,05 71,98 141,95 4.15 0,48 365,92 4 0,05 69,95 275,7 4,36 0,91 707,8 8 0,05 67,52 531,75 4,57 1,74 1 327,51 16 0,06 62,77 982,23 4,99 3,17 2 475,3 32 0,09 52,94 1 639,05 5,74 5,47 4 294,03 64 0,16 42,07 2 522,18 7,24 8,49 6 564,64 128 0,47 28,89 3 274,75 10,69 11,11 8 678,22 256 1,42 16,84 3 407,77 18,21 12,07 9 006,65 - Modèle
meta.llama-3.3-70b-instruct-fp8-dynamichébergé sur une unité LARGE_GENERIC_V1 d'une grappe dédiée à l'IA pour la région Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,16 48,04 46,17 6,7 8,79 111,27 2 0,17 47,6 92,31 6,35 18,78 234,74 4 0,19 44,98 173,37 7,1 33,47 455,1 8 0,19 41,03 316,43 7,62 62,35 795,71 16 0,22 33,54 514,93 8,85 107,34 1 365,97 32 0,29 24,98 759,52 12,4 151,9 1 939,62 64 0,64 16,78 984,11 18,71 197,12 2 554,59 128 1,7 9,84 1 099,59 31,4 226,32 2 846,33 256 17,22 6,88 1 094,51 59,29 226,27 2 874,42
Clavarder
Ce scénario couvre les cas d'utilisation de clavardage et de dialogue où l'invite et les réponses sont courtes. L'invite et la longueur de la réponse sont chacune fixées à 100 jetons.
- Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour toutes les régions, à l'exception des régions Arabie saoudite - Centre (Riyad) et Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,03 58,84 58,33 1,71 0,58 113,87 2 0,04 58,51 115,31 1,73 1,15 225,2 4 0,05 57,7 225,43 1,77 2,25 440,2 8 0,08 56,45 429,3 1,83 4,29 839,09 16 0,09 53,98 820,89 1,92 8,21 1 602,31 32 0,17 49,8 1 453,58 2,16 14,54 2 839,35 64 0,31 44,96 2 457,59 2,51 24,58 4 800,51 128 0,63 36,7 3 484,65 3,34 34,85 6 797,06 256 1,33 24,95 3 137,39 5,34 31,37 6 131,39 - Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,02 70,87 70,46 1,42 0,7 137,38 2 0,03 71,03 139,91 1,42 1,4 272,93 4 0,03 69,9 275,32 1,45 2,75 537,34 8 0,05 68,57 532,09 1,49 5,32 1 039,21 16 0,06 65,47 1 000,33 1,58 10 1 952,54 32 0,13 59,57 1 762,88 1,79 17,63 3 442,56 64 0,21 52,5 2 933,83 2,1 29,34 5 729,27 128 0,52 43,1 4 243,57 2,84 42,44 8 285,42 256 1,06 27,89 5 129,28 4,65 51,29 10 008,78 - Modèle
meta.llama-3.3-70b-instruct-fp8-dynamichébergé sur une unité LARGE_GENERIC_V1 d'une grappe dédiée à l'IA pour la région Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,08 48,06 46,46 2,14 27,88 90,59 2 0,08 47,76 92,6 2,15 55,56 180,97 4 0,11 46,29 177,34 2,25 106,4 346,25 8 0,1 41,94 323,36 2.46 194,02 630,83 16 0,23 37,87 556,47 2,85 333,88 1 086,1 32 0,35 29,6 852,79 3,7 511,68 1 664,38 64 0,48 20,76 1 191,76 5,25 715,06 2 325,16 128 0,79 12,25 1 378,27 8,87 826,96 2 691 256 3,23 7.21 1 342,09 16,97 805,25 2 620,44
Génération lourde
Ce scénario concerne les cas d'utilisation lourds de génération et de réponse de modèle. Par exemple, une description d'emploi longue générée à partir d'une courte liste à puces d'éléments. Dans ce cas, la longueur de l'invite est fixée à 100 jetons et la longueur de réponse est fixée à 1 000 jetons.
- Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour toutes les régions, à l'exception des régions Arabie saoudite - Centre (Riyad) et Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,03 58,67 58,3 17,06 0,06 63,82 2 0,04 58,32 113,26 17,17 0,11 124,07 4 0,05 57,67 226,53 17,38 0,23 248,17 8 0,08 56,64 439,73 17,72 0,44 481,54 16 0,14 54,48 863,09 18,48 0,86 945,33 32 0,15 50,83 1 529,11 19,8 1,53 1 674,84 64 0,26 47,1 2 960,77 21,47 2,96 3 242,25 128 0,59 39,95 4 332,27 25,6 4.33 4 743,64 256 1,37 28,47 4 197,95 36,47 4,2 4 597,71 - Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,02 71,7 71,62 13,95 0,07 78,45 2 0,03 71,85 143,25 13,93 0,14 156,92 4 0,04 70,78 279,83 14,15 0,28 306,47 8 0,06 69,8 546,34 14,37 0,55 598,4 16 0,08 67,47 1 066,03 14,88 1,07 1 167,35 32 0,13 62,06 1 931,09 16,23 1.93 2 115 64 0,28 56,97 3 575,74 17,82 3,58 3 915,91 128 0,49 47,49 5 876,91 21,53 5,88 6 436,45 256 1,1 31,5 7 660,84 32,82 7,66 8 389,08 - Modèle
meta.llama-3.3-70b-instruct-fp8-dynamichébergé sur une unité LARGE_GENERIC_V1 d'une grappe dédiée à l'IA pour la région Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,08 48,04 46,63 20,87 2,8 51,07 2 0,09 48,43 93,27 20,72 5,6 102,15 4 0,13 47,35 186,54 21,22 11,19 204,3 8 0,17 45,78 359,64 21,99 21,58 393,9 16 0,31 42 639,44 24,1 38,37 700,29 32 0,38 35,04 1 065,59 28,89 63,94 1 167,2 64 0,48 27,7 1 719,72 36,55 103,18 1 883,3 128 0,84 18,49 2 279,01 54,86 136,74 2 496,1 256 12,49 10,14 1 923,79 112,88 115,43 2 106,78
Génération augmentée par extraction (RAG)
Le scénario de génération augmentée par récupération (RAG) a une invite très longue et une réponse courte, telle que la récapitulation des cas d'utilisation. La longueur de l'invite est fixée à 2 000 jetons et la longueur de réponse à 200 jetons.
- Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour toutes les régions, à l'exception des régions Arabie saoudite - Centre (Riyad) et Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,15 58,36 55,63 3,56 0,28 600,44 2 0,21 57,01 107,46 3,7 0,54 1 160,14 4 0,43 55,58 197,86 4,02 0,99 2 135,93 8 0,76 51,24 339,08 4,67 1,7 3 659,93 16 1,17 41,9 528,08 5,97 2,64 5 701,12 32 1,77 29,93 740,37 8,52 3,7 7 992,66 64 2,39 17,06 831,99 14,07 4,16 8 980,85 128 5,24 9,28 793,96 26,69 3,97 8 570,79 256 18,88 5,36 668,72 56,04 3,34 7 219,15 - Le modèle
meta.llama-3.3-70b-instructhébergé sur une unité Large Generic d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,14 72,03 68,29 2.9 0,34 737,19 2 0,21 70,65 131,24 3,03 0,66 1 416,72 4 0,42 68,48 238,49 3,34 1,19 2 574,37 8 0,74 62,7 402,85 3,94 2,01 4 348,39 16 1,19 50,86 615,7 5,15 3,08 6 646,93 32 1,5 32,62 821,95 7,64 4.11 8 873,44 64 1,79 18,54 989,99 12,53 4,95 10 686,14 128 2,7 9,82 1 054,49 22,96 5,27 11 384,1 256 5,92 4,91 995,45 46,42 4,98 10 745,88 - Modèle
meta.llama-3.3-70b-instruct-fp8-dynamichébergé sur une unité LARGE_GENERIC_V1 d'une grappe dédiée à l'IA pour la région Émirats arabes unis - Est (Dubaï). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) Débit total (jetons/seconde) 1 0,61 47,82 41,63 4,77 12,49 449,51 2 0,71 44,86 76,59 5,15 22,98 826,74 4 0,81 37,37 129,16 6,14 38,75 1 394,37 8 0,88 27,43 194,45 8,13 58,33 2 099,01 16 1,02 17,67 256,65 12,28 77 2 770,52 32 1,24 10,19 302,47 20,76 90,74 3 265,01 64 10,99 7,16 318,93 38,77 95,68 3 443,02 128 47,31 7,16 318,49 75,1 95,55 3 438,12 256 117,96 7,16 305,59 145,75 91,68 3 299,34