Meta Llama 3.1 (405B)
Passez en revue les tests d'évaluation des performances du modèle meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B)) hébergé sur une unité Large Generic 2 d'un cluster d'IA dédié dans OCI Generative AI.
- Consultez les détails du modèle et les sections suivantes :
- Régions disponibles pour ce modèle.
- Clusters d'IA dédiés pour héberger ce modèle.
- Consultez les mesures.
Vous ne pouvez héberger le modèle meta.llama-3.1-405b-instruct
que sur un cluster d'IA dédié de type Large Generic 2. Ce type est destiné à fournir un meilleur débit avec moins de matériel et un coût inférieur à celui de son prédécesseur, Large Generic 4.
Les tableaux suivants fournissent des tests d'évaluation exécutés pour le modèle meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 2 et sur une unité Large Generic 4. Si votre modèle est hébergé sur le type de cluster prédécesseur Large Generic 4, comparez les tableaux suivants pour décider s'il doit héberger le modèle sur cette nouvelle unité.
Longueur aléatoire
Ce scénario imite les cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. En raison des longueurs d'invite et de réponse inconnues, nous avons utilisé une approche stochastique où les longueurs d'invite et de réponse suivent une distribution normale. La longueur d'invite suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons. La longueur de réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.
- Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 27,44 26,84 11,66 5,1 2 26,56 51,93 11,44 10,39 4 25,66 100,31 11,97 19,89 8 24,98 193,34 11,96 39,48 16 20,73 322,99 14,86 63,76 32 18,39 562,55 16,5 114,21 64 15,05 877,61 20,42 180,76 128 10,79 1 210,61 29,53 241,73 256 8,67 1 301,65 47,22 282,78 - Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 4 prédécesseur d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 32,66 25,79 10,78 5,56 2 31,36 50,81 10,06 11,68 4 29,86 96,01 10,87 21,52 8 27,89 170,45 10,87 34,09 16 24,74 282,52 13,51 60,35 32 21,51 457,24 16,73 91,42 64 17,68 676,9 18,29 152,47 128 13,06 1 035,08 25,59 222,67 256 7,82 1 302,71 41,88 289,08
Discussion
Ce scénario couvre les cas d'utilisation de discussion et de dialogue où l'invite et les réponses sont courtes. La longueur de l'invite et de la réponse est fixée à 100 jetons.
- Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 27,38 26,65 3,74 15,99 2 26,43 51,3 3,88 30,78 4 25,92 100,61 3,96 60,36 8 25,52 196,72 4,06 118,03 16 21,24 328,32 4,84 196,99 32 19,32 588,59 5,36 353,15 64 16,73 1 003,22 6,29 601,93 128 12,56 1 433,27 8,59 859,96 256 8,6 1 586,86 8,59 952,11 - Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 4 prédécesseur d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 28,93 21,65 4,6 13,01 2 31,72 50,89 3,9 30,54 4 30,86 91,23 4,17 54,74 8 29,61 163,06 4,33 97,84 16 27,66 277,48 4,49 166,49 32 26,01 615,83 4,77 369,5 64 22,49 1 027,87 5,67 616,77 128 17,22 1 527,06 7,37 616,77 256 10,67 1 882,65 11,44 1 131,71
Génération lourde
Ce scénario est destiné à la génération et aux cas d'emploi complexes de réponse de modèle. Par exemple, une description longue d'emploi générée à partir d'une courte liste à puces d'articles. Dans ce cas, la longueur de l'invite est fixée à 100 jetons et la longueur de la réponse est fixée à 1 000 jetons.
- Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 27,35 26,65 36,65 1,6 2 26,72 49,97 37,53 3 4 26,21 99,94 38,27 6 8 26,42 199,89 38 11,99 16 22,6 346,45 44,45 20,79 32 21,97 692,91 45,77 41,57 64 20,1 1 177,63 50,14 70,66 128 17,06 2 086,85 60,7 125,21 256 11,05 2 024,72 109,59 121,48 - Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 4 prédécesseur d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 31,28 26,55 18,5 3,24 2 30,79 50,88 16,14 7,12 4 29,46 93,36 18,15 12,09 8 28,2 170,2 19,4 21,4 16 26,37 271,8 17,73 40,56 32 25,24 419,13 21,06 55,06 64 22,19 755,43 24,38 98,29 128 17,43 1 248,19 29,45 168 256 11,27 1 794,88 44,85 236,65
Génération augmentée de récupération
Le scénario de génération augmentée de récupération (RAG) comporte une invite très longue et une réponse courte, telle que la synthèse des cas d'utilisation. La longueur de l'invite est fixée à 2 000 jetons et la longueur de la réponse à 200 jetons.
- Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 2 d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 27,3 25,65 7,74 7,69 2 25,7 48,3 8,21 14,49 4 23,48 88,27 8,96 26,48 8 20,09 150,57 10,52 45,17 16 14,89 223,85 14,1 67,15 32 10,97 330,1 19,1 99,03 64 8,8 386,54 32,06 115,96 128 8,82 386,74 62,04 116,02 256 8,82 375,21 119,99 112,56 - Modèle
meta.llama-3.1-405b-instruct
hébergé sur une unité Large Generic 4 prédécesseur d'un cluster d'IA dédié -
Accès simultané Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence de niveau demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 32,94 25,28 7,91 7,58 2 31,31 49,05 8,15 14,71 4 28,85 87,28 8,85 26,18 8 24,24 141,04 10,42 42,31 16 20,31 219,48 12,52 65,85 32 15,99 366,75 16,7 110,03 64 11,03 485,78 24,63 145,74 128 8,27 560,24 41,22 168,07 256 8,01 583,97 74,21 175,19