OpenAI gpt-oss-20b (New)
Esamina i benchmark delle prestazioni per il modello openai.gpt-oss-20b (OpenAI gpt-oss-20b) ospitato su un'unità OAI_H100_X1 di un cluster AI dedicato (una GPU H100) in OCI Generative AI.
Lunghezza casuale
Questo scenario imita i casi d'uso di generazione testo in cui la dimensione del prompt e della risposta è sconosciuta in anticipo. A causa della lunghezza del prompt e della risposta sconosciuta, abbiamo utilizzato un approccio stocastico in cui sia la lunghezza del prompt che la lunghezza della risposta seguono una distribuzione normale. La lunghezza del prompt segue una distribuzione normale con una media di 480 token e una deviazione standard di 240 token. La lunghezza della risposta segue una distribuzione normale con una media di 300 token e una deviazione standard di 150 token.
| Concorrenza | Time to First Token (TTFT)(secondo) | Velocità di inferenza a livello di token (token/secondo) | Throughput a livello di token (token/secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) | Throughput totale (token/secondo) |
|---|---|---|---|---|---|---|
| 1 | 0,15 | 310,18 | 267,85 | 1,1 | 0,9 | 703,41 |
| 2 | 0,06 | 246,49 | 467,94 | 1,32 | 1,5 | 1.174,08 |
| 4 | 0,07 | 196,86 | 742,66 | 1,58 | 2,51 | 1.961,26 |
| 8 | 0,06 | 167,75 | 1.267,44 | 1,84 | 4,24 | 3.342,67 |
| 16 | 0,11 | 138,54 | 2.001,69 | 2,29 | 6,71 | 5.252,2 |
| 32 | 0,28 | 87,77 | 2.375,62 | 3,63 | 8,26 | 6.290,45 |
| 64 | 0,31 | 66,31 | 3.471,69 | 4,76 | 11,95 | 9.094,38 |
| 128 | 0,43 | 37,61 | 3.451,69 | 7,68 | 13,19 | 9.724,71 |
| 256 | 1,39 | 27,15 | 3.233,22 | 10 | 13,7 | 9.461,31 |
Chat
Questo scenario copre i casi d'uso di chat e finestre di dialogo in cui il prompt e le risposte sono brevi. La lunghezza del prompt e della risposta è fissata a 100 token.
| Concorrenza | Time to First Token (TTFT)(secondo) | Velocità di inferenza a livello di token (token/secondo) | Throughput a livello di token (token/secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) | Throughput totale (token/secondo) |
|---|---|---|---|---|---|---|
| 1 | 0,04 | 309,3 | 273,44 | 0,36 | 2,73 | 543,3 |
| 2 | 0,08 | 257,56 | 425,02 | 0,47 | 4,25 | 844,54 |
| 4 | 0,09 | 217,51 | 723,17 | 0,54 | 7,23 | 1.436,95 |
| 8 | 0,12 | 197,51 | 1.245,86 | 0,62 | 12,46 | 2.475,46 |
| 16 | 0,12 | 180,34 | 2.139,95 | 0,67 | 21,4 | 4.252,45 |
| 32 | 0,34 | 146,2 | 2.872,63 | 1,02 | 28,73 | 5.707,83 |
| 64 | 0,9 | 106,26 | 3.070,83 | 1,85 | 30,71 | 6.100,5 |
| 128 | 1,44 | 67,53 | 3.690,1 | 2,95 | 36,9 | 7.332,91 |
| 256 | 1,08 | 42,15 | 5.489,89 | 3,55 | 54,9 | 10.905,91 |
Generazione pesante
Questo scenario si riferisce a casi d'uso intensi di generazione e risposta modello. Ad esempio, una descrizione lunga del lavoro generata da un breve elenco puntato di elementi. In questo caso, la lunghezza del prompt è fissata a 100 token e la lunghezza della risposta è fissata a 1.000 token.
| Concorrenza | Time to First Token (TTFT)(secondo) | Velocità di inferenza a livello di token (token/secondo) | Throughput a livello di token (token/secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) | Throughput totale (token/secondo) |
|---|---|---|---|---|---|---|
| 1 | 0,04 | 312,78 | 307,59 | 3,24 | 0,31 | 337,94 |
| 2 | 0,09 | 253,78 | 495,55 | 4,03 | 0,5 | 544,48 |
| 4 | 0,1 | 207,31 | 810,29 | 4,92 | 0,81 | 890,28 |
| 8 | 0,12 | 186,85 | 1.453,29 | 5,46 | 1,45 | 1.596,84 |
| 16 | 0,12 | 172,37 | 2.663,04 | 5,92 | 2,66 | 2.925,98 |
| 32 | 0,3 | 144,37 | 4.349,11 | 7,22 | 4,35 | 4.778,21 |
| 64 | 0,56 | 116,87 | 6.803,86 | 9,11 | 6,8 | 7.475,21 |
| 128 | 1,05 | 81,16 | 9.142,52 | 13,37 | 9,14 | 10.044,44 |
| 256 | 1,16 | 59,39 | 13.147,16 | 18,01 | 13,15 | 14.445,62 |
Scenario RAG 1
Lo scenario di retrieval-augmented generation (RAG) ha un input di grandi dimensioni e una risposta breve, ad esempio il riepilogo dei casi d'uso. In questo scenario, la lunghezza di input è fissata a 2.000 token e la lunghezza della risposta è fissata a 200 token.
| Concorrenza | Time to First Token (TTFT)(secondo) | Velocità di inferenza a livello di token (token/secondo) | Throughput a livello di token (token/secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) | Throughput totale (token/secondo) |
|---|---|---|---|---|---|---|
| 1 | 0,05 | 307,29 | 276,08 | 0,7 | 1,38 | 2.993,75 |
| 2 | 0,11 | 252,42 | 437,08 | 0,89 | 2,19 | 4.739,41 |
| 4 | 0,19 | 206,66 | 663,78 | 1,15 | 3,32 | 7.199,38 |
| 8 | 0,35 | 177,05 | 1.007,62 | 1,48 | 5,04 | 10.927,18 |
| 16 | 0,52 | 144,84 | 1.492,26 | 1,92 | 7,46 | 16.183,54 |
| 32 | 0,92 | 97,78 | 1.803,69 | 3,03 | 9,02 | 19.559,41 |
| 64 | 1,68 | 66,08 | 2.098,59 | 4,81 | 10,49 | 22.758,87 |
| 128 | 3,3 | 38,69 | 2.169,83 | 8,73 | 10,85 | 23.530,04 |
| 256 | 6,59 | 22,97 | 2.203,38 | 15,88 | 11,02 | 23.892,56 |
Scenario 2 RAG
Lo scenario di retrieval-augmented generation (RAG) ha un input di grandi dimensioni e una risposta breve, ad esempio il riepilogo dei casi d'uso. In questo scenario, la lunghezza di input è fissata a 7.800 token e la lunghezza della risposta è fissata a 200 token.
| Concorrenza | Time to First Token (TTFT)(secondo) | Velocità di inferenza a livello di token (token/secondo) | Throughput a livello di token (token/secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) | Throughput totale (token/secondo) |
|---|---|---|---|---|---|---|
| 1 | 0,14 | 296,08 | 228,79 | 0,81 | 1,14 | 9.011,37 |
| 2 | 0,24 | 222,84 | 333,43 | 1,14 | 1,67 | 13.133,46 |
| 4 | 0,46 | 167,95 | 446,77 | 1,67 | 2,23 | 17.599 |
| 8 | 0,84 | 126,22 | 590,38 | 2,48 | 2,95 | 23.255,47 |
| 16 | 1,61 | 91,55 | 714,55 | 3,95 | 3,57 | 28.146,38 |
| 32 | 3 | 55,52 | 785,96 | 6,98 | 3,93 | 30.958,57 |
| 64 | 5,77 | 32,34 | 822,33 | 12,76 | 4,11 | 32.391,21 |
| 128 | 11,35 | 16,82 | 808,94 | 24,97 | 4,04 | 31.863,84 |
| 256 | 22,79 | 14,81 | 845,34 | 38,26 | 4,23 | 33.297,87 |
Scenario 3 RAG
Lo scenario di retrieval-augmented generation (RAG) ha un input di grandi dimensioni e una risposta breve, ad esempio il riepilogo dei casi d'uso. In questo scenario, la lunghezza di input è fissata a 128.000 token e la lunghezza della risposta è fissata a 200 token.
| Concorrenza | Time to First Token (TTFT)(secondo) | Velocità di inferenza a livello di token (token/secondo) | Throughput a livello di token (token/secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) | Throughput totale (token/secondo) |
|---|---|---|---|---|---|---|
| 1 | 5,43 | 208,76 | 28,33 | 6,38 | 0,14 | 17.876,33 |
| 2 | 8,33 | 77,55 | 30,22 | 12,56 | 0,15 | 19.068,05 |
| 4 | 14,16 | 33,64 | 30,84 | 24,39 | 0,15 | 19.460,28 |
| 8 | 26,2 | 15,26 | 31 | 48,22 | 0,16 | 19.559,97 |
| 16 | 61,38 | 11,42 | 34,23 | 87,75 | 0,17 | 21.601,48 |
| 32 | 144,11 | 11,35 | 33,68 | 170,42 | 0,17 | 21.253,95 |
| 64 | 286,47 | 11,33 | 33,45 | 312,79 | 0,17 | 21.105,36 |
| 128 | 479,74 | 11,39 | 32,22 | 506,03 | 0,16 | 20.326,17 |
| 256 | 570,15 | 11,44 | 28,66 | 596,46 | 0,14 | 18.085,14 |