Meta Llama 3.1 (405B)

Consultez les points de référence de performance pour le modèle meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B)) hébergé sur une unité Large Generic 2 d'une grappe dédiée à l'IA dans l'IA générative OCI.

  • Voir les détails du modèle et consulter les sections suivantes :
    • Régions disponibles pour ce modèle.
    • Grappes dédiées à l'IA pour l'hébergement de ce modèle.
  • Vérifiez les mesures.
Important

Vous ne pouvez héberger le modèle meta.llama-3.1-405b-instruct que sur une grappe dédiée à l'IA de type Gros modèle générique 2. Ce type vise à fournir un meilleur débit avec moins de matériel et un coût inférieur à celui de son prédécesseur, Large Generic 4.

Les tableaux suivants fournissent des points de référence qui ont été effectués pour le modèle meta.llama-3.1-405b-instruct hébergé sur une grande unité générique 2 et sur une grande unité générique 4. Si votre modèle est hébergé sur le type de grappe prédécesseur Large Generic 4, comparez les tableaux suivants pour décider d'héberger le modèle sur cette nouvelle unité.

Longueur aléatoire

Ce scénario imite les cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. En raison de l'invite inconnue et des longueurs de réponse, nous avons utilisé une approche stochastique où l'invite et la longueur de réponse suivent une distribution normale. La longueur rapide suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons. La longueur de réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.

Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 2 d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 27.44 26.84 11.66 5.1
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.5 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 4 prédécesseur d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.9 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08

Clavarder

Ce scénario couvre les cas d'utilisation de clavardage et de dialogue où l'invite et les réponses sont courtes. L'invite et la longueur de la réponse sont chacune fixées à 100 jetons.

Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 2 d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 27.38 26.65 3.74 15.99
2 26.43 51.3 3.88 30.78
4 25.92 100.61 3.96 60.36
8 25.52 196.72 4.06 118.03
16 21.24 328.32 4.84 196.99
32 19.32 588.59 5.36 353.15
64 16.73 1,003.22 6.29 601.93
128 12.56 1,433.27 8.59 859.96
256 8.6 1,586.86 8.59 952.11
Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 4 prédécesseur d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 28.93 21.65 4.6 13.01
2 31.72 50.89 3.9 30.54
4 30.86 91.23 4.17 54.74
8 29.61 163.06 4.33 97.84
16 27.66 277.48 4.49 166.49
32 26.01 615.83 4.77 369.5
64 22.49 1,027.87 5.67 616.77
128 17.22 1,527.06 7.37 616.77
256 10.67 1,882.65 11.44 1,131.71

Génération lourde

Ce scénario concerne les cas d'utilisation lourds de génération et de réponse de modèle. Par exemple, une description d'emploi longue générée à partir d'une courte liste à puces d'éléments. Dans ce cas, la longueur de l'invite est fixée à 100 jetons et la longueur de réponse est fixée à 1 000 jetons.

Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 2 d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 27.35 26.65 36.65 1.6
2 26.72 49.97 37.53 3
4 26.21 99.94 38.27 6
8 26.42 199.89 38 11.99
16 22.6 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.1 1,177.63 50.14 70.66
128 17.06 2,086.85 60.7 125.21
256 11.05 2,024.72 109.59 121.48
Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 4 prédécesseur d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 31.28 26.55 18.5 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.2 170.2 19.4 21.4
16 26.37 271.8 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168
256 11.27 1,794.88 44.85 236.65

Génération augmentée par extraction (RAG)

Le scénario de génération augmentée par récupération (RAG) a une invite très longue et une réponse courte, telle que la récapitulation des cas d'utilisation. La longueur de l'invite est fixée à 2 000 jetons et la longueur de réponse à 200 jetons.

Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 2 d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 27.3 25.65 7.74 7.69
2 25.7 48.3 8.21 14.49
4 23.48 88.27 8.96 26.48
8 20.09 150.57 10.52 45.17
16 14.89 223.85 14.1 67.15
32 10.97 330.1 19.1 99.03
64 8.8 386.54 32.06 115.96
128 8.82 386.74 62.04 116.02
256 8.82 375.21 119.99 112.56
Modèle meta.llama-3.1-405b-instruct hébergé sur une unité Large Generic 4 prédécesseur d'une grappe dédiée à l'IA
Concurrence Vitesse d'inférence au niveau du jeton (jeton/seconde) Débit au niveau du jeton (jeton/seconde) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 32.94 25.28 7.91 7.58
2 31.31 49.05 8.15 14.71
4 28.85 87.28 8.85 26.18
8 24.24 141.04 10.42 42.31
16 20.31 219.48 12.52 65.85
32 15.99 366.75 16.7 110.03
64 11.03 485.78 24.63 145.74
128 8.27 560.24 41.22 168.07
256 8.01 583.97 74.21 175.19