OpenAI gpt-oss-20b (New)
Prüfen Sie Performancebenchmarks für das openai.gpt-oss-20b (OpenAI gpt-oss-20b)-Modell, das auf einer OAI_H100_X1-Einheit eines dedizierten KI-Clusters (einer H100-GPU) in OCI Generative AI gehostet wird.
Zufällige Länge
Dieses Szenario ahmt Anwendungsfälle für die Textgenerierung nach, bei denen die Größe der Eingabeaufforderung und der Antwort im Voraus unbekannt ist. Aufgrund der unbekannten Prompt- und Response-Längen haben wir einen stochastischen Ansatz verwendet, bei dem sowohl die Prompt- als auch die Response-Länge einer normalen Verteilung folgen. Die Prompt-Länge folgt einer Normalverteilung mit einem Mittelwert von 480 Token und einer Standardabweichung von 240 Token. Die Antwortlänge folgt einer Normalverteilung mit einem Mittelwert von 300 Token und einer Standardabweichung von 150 Token.
| Nebenläufigkeit | Time to First Token (TTFT)(Sekunde) | Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) | Durchsatz auf Tokenebene (Token/Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) | Gesamtdurchsatz (Token/Sekunde) |
|---|---|---|---|---|---|---|
| 1 | 0,15 | 310,18 | 267,85 | 1,1 | 0,9 | 703,41 |
| 2 | 0,06 | 246,49 | 467,94 | 1,32 | 1,5 | 1.174,08 |
| 4 | 0,07 | 196,86 | 742,66 | 1,58 | 2,51 | 1.961,26 |
| 8 | 0,06 | 167,75 | 1.267,44 | 1,84 | 4,24 | 3.342,67 |
| 16 | 0,11 | 138,54 | 2.001,69 | 2,29 | 6,71 | 5.252,2 |
| 32 | 0,28 | 87,77 | 2.375,62 | 3,63 | 8,26 | 6.290,45 |
| 64 | 0,31 | 66,31 | 3.471,69 | 4,76 | 11,95 | 9.094,38 |
| 128 | 0,43 | 37,61 | 3.451,69 | 7,68 | 13,19 | 9.724,71 |
| 256 | 1,39 | 27,15 | 3.233,22 | 10 | 13,7 | 9.461,31 |
Chat
In diesem Szenario werden Chat- und Dialoganwendungsfälle behandelt, bei denen die Eingabeaufforderung und die Antworten kurz sind. Die Prompt- und Antwortlänge sind jeweils auf 100 Token festgelegt.
| Nebenläufigkeit | Time to First Token (TTFT)(Sekunde) | Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) | Durchsatz auf Tokenebene (Token/Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) | Gesamtdurchsatz (Token/Sekunde) |
|---|---|---|---|---|---|---|
| 1 | 0,04 | 309,3 | 273,44 | 0,36 | 2,73 | 543,3 |
| 2 | 0,08 | 257,56 | 425,02 | 0,47 | 4,25 | 844,54 |
| 4 | 0,09 | 217,51 | 723,17 | 0,54 | 7,23 | 1.436,95 |
| 8 | 0,12 | 197,51 | 1.245,86 | 0,62 | 12,46 | 2.475,46 |
| 16 | 0,12 | 180,34 | 2.139,95 | 0,67 | 21,4 | 4.252,45 |
| 32 | 0,34 | 146,2 | 2.872,63 | 1,02 | 28,73 | 5.707,83 |
| 64 | 0,9 | 106,26 | 3.070,83 | 1,85 | 30,71 | 6.100,5 |
| 128 | 1,44 | 67,53 | 3.690,1 | 2,95 | 36,9 | 7.332,91 |
| 256 | 1,08 | 42,15 | 5.489,89 | 3,55 | 54,9 | 10.905,91 |
Generation Schwer
Dieses Szenario gilt für Anwendungsfälle für die Generierung und Modellreaktion. Beispiel: Eine lange Jobbeschreibung, die aus einer kurzen Aufzählungsliste mit Artikeln generiert wird. In diesem Fall wird die Prompt-Länge auf 100 Token und die Antwortlänge auf 1.000 Token festgelegt.
| Nebenläufigkeit | Time to First Token (TTFT)(Sekunde) | Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) | Durchsatz auf Tokenebene (Token/Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) | Gesamtdurchsatz (Token/Sekunde) |
|---|---|---|---|---|---|---|
| 1 | 0,04 | 312,78 | 307,59 | 3,24 | 0,31 | 337,94 |
| 2 | 0,09 | 253,78 | 495,55 | 4,03 | 0,5 | 544,48 |
| 4 | 0,1 | 207,31 | 810,29 | 4,92 | 0,81 | 890,28 |
| 8 | 0,12 | 186,85 | 1.453,29 | 5,46 | 1,45 | 1.596,84 |
| 16 | 0,12 | 172,37 | 2.663,04 | 5,92 | 2,66 | 2.925,98 |
| 32 | 0,3 | 144,37 | 4.349,11 | 7,22 | 4,35 | 4.778,21 |
| 64 | 0,56 | 116,87 | 6.803,86 | 9,11 | 6,8 | 7.475,21 |
| 128 | 1,05 | 81,16 | 9.142,52 | 13,37 | 9,14 | 10.044,44 |
| 256 | 1,16 | 59,39 | 13.147,16 | 18,01 | 13,15 | 14.445,62 |
RAG-Szenario 1
Das RAG-Szenario (Retrieval-Augmented Generation) hat einen großen Input und eine kurze Antwort, wie z.B. die Zusammenfassung von Anwendungsfällen. In diesem Szenario wird die Eingabelänge auf 2.000 Token und die Antwortlänge auf 200 Token festgelegt.
| Nebenläufigkeit | Time to First Token (TTFT)(Sekunde) | Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) | Durchsatz auf Tokenebene (Token/Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) | Gesamtdurchsatz (Token/Sekunde) |
|---|---|---|---|---|---|---|
| 1 | 0,05 | 307,29 | 276,08 | 0,7 | 1,38 | 2.993,75 |
| 2 | 0,11 | 252,42 | 437,08 | 0,89 | 2,19 | 4.739,41 |
| 4 | 0,19 | 206,66 | 663,78 | 1,15 | 3,32 | 7.199,38 |
| 8 | 0,35 | 177,05 | 1.007,62 | 1,48 | 5,04 | 10.927,18 |
| 16 | 0,52 | 144,84 | 1.492,26 | 1,92 | 7,46 | 16.183,54 |
| 32 | 0,92 | 97,78 | 1.803,69 | 3,03 | 9,02 | 19.559,41 |
| 64 | 1,68 | 66,08 | 2.098,59 | 4,81 | 10,49 | 22.758,87 |
| 128 | 3,3 | 38,69 | 2.169,83 | 8,73 | 10,85 | 23.530,04 |
| 256 | 6,59 | 22,97 | 2.203,38 | 15,88 | 11,02 | 23.892,56 |
RAG-Szenario 2
Das RAG-Szenario (Retrieval-Augmented Generation) hat einen großen Input und eine kurze Antwort, wie z.B. die Zusammenfassung von Anwendungsfällen. In diesem Szenario wird die Eingabelänge auf 7.800 Token und die Antwortlänge auf 200 Token festgelegt.
| Nebenläufigkeit | Time to First Token (TTFT)(Sekunde) | Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) | Durchsatz auf Tokenebene (Token/Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) | Gesamtdurchsatz (Token/Sekunde) |
|---|---|---|---|---|---|---|
| 1 | 0,14 | 296,08 | 228,79 | 0,81 | 1,14 | 9.011,37 |
| 2 | 0,24 | 222,84 | 333,43 | 1,14 | 1,67 | 13.133,46 |
| 4 | 0,46 | 167,95 | 446,77 | 1,67 | 2,23 | 17.599 |
| 8 | 0,84 | 126,22 | 590,38 | 2,48 | 2,95 | 23.255,47 |
| 16 | 1,61 | 91,55 | 714,55 | 3,95 | 3,57 | 28.146,38 |
| 32 | 3 | 55,52 | 785,96 | 6,98 | 3,93 | 30.958,57 |
| 64 | 5,77 | 32,34 | 822,33 | 12,76 | 4,11 | 32.391,21 |
| 128 | 11,35 | 16,82 | 808,94 | 24,97 | 4,04 | 31.863,84 |
| 256 | 22,79 | 14,81 | 845,34 | 38,26 | 4,23 | 33.297,87 |
RAG-Szenario 3
Das RAG-Szenario (Retrieval-Augmented Generation) hat einen großen Input und eine kurze Antwort, wie z.B. die Zusammenfassung von Anwendungsfällen. In diesem Szenario wird die Eingabelänge auf 128.000 Token und die Antwortlänge auf 200 Token festgelegt.
| Nebenläufigkeit | Time to First Token (TTFT)(Sekunde) | Inferenzgeschwindigkeit auf Tokenebene (Token/Sekunde) | Durchsatz auf Tokenebene (Token/Sekunde) | Latenz auf Anforderungsebene (Sekunden) | Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) | Gesamtdurchsatz (Token/Sekunde) |
|---|---|---|---|---|---|---|
| 1 | 5,43 | 208,76 | 28,33 | 6,38 | 0,14 | 17.876,33 |
| 2 | 8,33 | 77,55 | 30,22 | 12,56 | 0,15 | 19.068,05 |
| 4 | 14,16 | 33,64 | 30,84 | 24,39 | 0,15 | 19.460,28 |
| 8 | 26,2 | 15,26 | 31 | 48,22 | 0,16 | 19.559,97 |
| 16 | 61,38 | 11,42 | 34,23 | 87,75 | 0,17 | 21.601,48 |
| 32 | 144,11 | 11,35 | 33,68 | 170,42 | 0,17 | 21.253,95 |
| 64 | 286,47 | 11,33 | 33,45 | 312,79 | 0,17 | 21.105,36 |
| 128 | 479,74 | 11,39 | 32,22 | 506,03 | 0,16 | 20.326,17 |
| 256 | 570,15 | 11,44 | 28,66 | 596,46 | 0,14 | 18.085,14 |