Meta Llama 3.1 (405B)

Prüfen Sie Performancebenchmarks für das meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B))-Modell, das auf einer Large Generic 2-Einheit eines dedizierten KI-Clusters in OCI Generative AI gehostet wird.

  • Siehe Details für das Modell, und prüfen Sie die folgenden Abschnitte:
    • Verfügbare Regionen für dieses Modell.
    • Dedizierte KI-Cluster für das Hosting dieses Modells.
  • Prüfen Sie die Metriken.
Wichtig

Sie können das Modell meta.llama-3.1-405b-instruct nur in einem dedizierten KI-Cluster vom Typ Großes generisches Modell 2 hosten. Dieser Typ soll einen besseren Durchsatz mit weniger Hardware und geringeren Kosten bieten als sein Vorgänger, Großes generisches 4.

Die folgenden Tabellen stellen Benchmarks bereit, die für das Modell meta.llama-3.1-405b-instruct ausgeführt wurden, das auf einer großen generischen Einheit 2 und auf einer Einheit Großes generisches Modell 4 gehostet wird. Wenn Ihr Modell im Vorgängerclustertyp Großes generisches Modell 4 gehostet wird, vergleichen Sie die folgenden Tabellen, um zu entscheiden, ob das Modell in dieser neuen Einheit gehostet werden soll.

Zufällige Länge

Dieses Szenario ahmt Anwendungsfälle für die Textgenerierung nach, bei denen die Größe der Eingabeaufforderung und der Antwort im Voraus unbekannt ist. Aufgrund der unbekannten Prompt- und Response-Längen haben wir einen stochastischen Ansatz verwendet, bei dem sowohl die Prompt- als auch die Response-Länge einer normalen Verteilung folgen. Die Prompt-Länge folgt einer Normalverteilung mit einem Mittelwert von 480 Token und einer Standardabweichung von 240 Token. Die Antwortlänge folgt einer Normalverteilung mit einem Mittelwert von 300 Token und einer Standardabweichung von 150 Token.

Das Modell meta.llama-3.1-405b-instruct, das auf einer Large Generic 2-Einheit eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 27,44 26,84 11,66 5,1
2 26,56 51,93 11,44 10,39
4 25,66 100,31 11,97 19,89
8 24,98 193,34 11,96 39,48
16 20,73 322,99 14,86 63,76
32 18,39 562,55 16,5 114,21
64 15,05 877,61 20,42 180,76
128 10,79 1.210,61 29,53 241,73
256 8,67 1.301,65 47,22 282,78
Das Modell meta.llama-3.1-405b-instruct, das auf einer Vorgängereinheit Large Generic 4 eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 32,66 25,79 10,78 5,56
2 31,36 50,81 10,06 11,68
4 29,86 96,01 10,87 21,52
8 27,89 170,45 10,87 34,09
16 24,74 282,52 13,51 60,35
32 21,51 457,24 16,73 91,42
64 17,68 676,9 18,29 152,47
128 13,06 1.035,08 25,59 222,67
256 7,82 1.302,71 41,88 289,08

Chat

In diesem Szenario werden Chat- und Dialoganwendungsfälle behandelt, bei denen die Eingabeaufforderung und die Antworten kurz sind. Die Prompt- und Antwortlänge sind jeweils auf 100 Token festgelegt.

Das Modell meta.llama-3.1-405b-instruct, das auf einer Large Generic 2-Einheit eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 27,38 26,65 3,74 15,99
2 26,43 51,3 3,88 30,78
4 25,92 100,61 3,96 60,36
8 25,52 196,72 4,06 118,03
16 21,24 328,32 4,84 196,99
32 19,32 588,59 5,36 353,15
64 16,73 1.003,22 6,29 601,93
128 12,56 1.433,27 8,59 859,96
256 8,6 1.586,86 8,59 952,11
Das Modell meta.llama-3.1-405b-instruct, das auf einer Vorgängereinheit Large Generic 4 eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 28,93 21,65 4,6 13,01
2 31,72 50,89 3,9 30,54
4 30,86 91,23 4,17 54,74
8 29,61 163,06 4,33 97,84
16 27,66 277,48 4,49 166,49
32 26,01 615,83 4,77 369,5
64 22,49 1.027,87 5,67 616,77
128 17,22 1.527,06 7,37 616,77
256 10,67 1.882,65 11,44 1.131,71

Generation Schwer

Dieses Szenario gilt für Anwendungsfälle für die Generierung und Modellreaktion. Beispiel: Eine lange Jobbeschreibung, die aus einer kurzen Aufzählungsliste mit Artikeln generiert wird. In diesem Fall wird die Prompt-Länge auf 100 Token und die Antwortlänge auf 1.000 Token festgelegt.

Das Modell meta.llama-3.1-405b-instruct, das auf einer Large Generic 2-Einheit eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 27,35 26,65 36,65 1,6
2 26,72 49,97 37,53 3
4 26,21 99,94 38,27 6
8 26,42 199,89 38 11,99
16 22,6 346,45 44,45 20,79
32 21,97 692,91 45,77 41,57
64 20,1 1.177,63 50,14 70,66
128 17,06 2.086,85 60,7 125,21
256 11,05 2.024,72 109,59 121,48
Das Modell meta.llama-3.1-405b-instruct, das auf einer Vorgängereinheit Large Generic 4 eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 31,28 26,55 18,5 3,24
2 30,79 50,88 16,14 7,12
4 29,46 93,36 18,15 12,09
8 28,2 170,2 19,4 21,4
16 26,37 271,8 17,73 40,56
32 25,24 419,13 21,06 55,06
64 22,19 755,43 24,38 98,29
128 17,43 1.248,19 29,45 168
256 11,27 1.794,88 44,85 236,65

RAG

Das Retrieval-Augmented Generation-(RAG-)Szenario hat einen sehr langen Prompt und eine kurze Antwort, beispielsweise bei der Zusammenfassung von Anwendungsfällen. Die Prompt-Länge ist auf 2.000 Token festgelegt, und die Antwortlänge ist auf 200 Token festgelegt.

Das Modell meta.llama-3.1-405b-instruct, das auf einer Large Generic 2-Einheit eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 27,3 25,65 7,74 7,69
2 25,7 48,3 8,21 14,49
4 23,48 88,27 8,96 26,48
8 20,09 150,57 10,52 45,17
16 14,89 223,85 14,1 67,15
32 10,97 330,1 19,1 99,03
64 8,8 386,54 32,06 115,96
128 8,82 386,74 62,04 116,02
256 8,82 375,21 119,99 112,56
Das Modell meta.llama-3.1-405b-instruct, das auf einer Vorgängereinheit Large Generic 4 eines dedizierten KI-Clusters gehostet wird
Nebenläufigkeit Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) Durchsatz auf Tokenebene (Token/Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 32,94 25,28 7,91 7,58
2 31,31 49,05 8,15 14,71
4 28,85 87,28 8,85 26,18
8 24,24 141,04 10,42 42,31
16 20,31 219,48 12,52 65,85
32 15,99 366,75 16,7 110,03
64 11,03 485,78 24,63 145,74
128 8,27 560,24 41,22 168,07
256 8,01 583,97 74,21 175,19