OpenAI gpt-oss-20b (New)
Revise os benchmarks de desempenho do modelo openai.gpt-oss-20b (OpenAI gpt-oss-20b) hospedado em uma unidade OAI_H100_X1 de um cluster de IA dedicado (uma GPU H100) na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,15 | 310,18 | 267,85 | 1,1 | 0,9 | 703,41 |
| 2 | 0,06 | 246,49 | 467,94 | 1,32 | 1,5 | 1.174,08 |
| 4 | 0,07 | 196,86 | 742,66 | 1,58 | 2,51 | 1.961,26 |
| 8 | 0,06 | 167,75 | 1.267,44 | 1,84 | 4,24 | 3.342,67 |
| 16 | 0,11 | 138,54 | 2.001,69 | 2,29 | 6,71 | 5.252,2 |
| 32 | 0,28 | 87,77 | 2.375,62 | 3,63 | 8,26 | 6.290,45 |
| 64 | 0,31 | 66,31 | 3.471,69 | 4,76 | 11,95 | 9.094,38 |
| 128 | 0,43 | 37,61 | 3.451,69 | 7,68 | 13,19 | 9.724,71 |
| 256 | 1,39 | 27,15 | 3.233,22 | 10 | 13,7 | 9.461,31 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,04 | 309,3 | 273,44 | 0,36 | 2,73 | 543,3 |
| 2 | 0,08 | 257,56 | 425,02 | 0,47 | 4,25 | 844,54 |
| 4 | 0,09 | 217,51 | 723,17 | 0,54 | 7,23 | 1.436,95 |
| 8 | 0,12 | 197,51 | 1.245,86 | 0,62 | 12,46 | 2.475,46 |
| 16 | 0,12 | 180,34 | 2.139,95 | 0,67 | 21,4 | 4.252,45 |
| 32 | 0,34 | 146,2 | 2.872,63 | 1,02 | 28,73 | 5.707,83 |
| 64 | 0,9 | 106,26 | 3.070,83 | 1,85 | 30,71 | 6.100,5 |
| 128 | 1,44 | 67,53 | 3.690,1 | 2,95 | 36,9 | 7.332,91 |
| 256 | 1,08 | 42,15 | 5.489,89 | 3,55 | 54,9 | 10.905,91 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,04 | 312,78 | 307,59 | 3,24 | 0,31 | 337,94 |
| 2 | 0,09 | 253,78 | 495,55 | 4,03 | 0,5 | 544,48 |
| 4 | 0,1 | 207,31 | 810,29 | 4,92 | 0,81 | 890,28 |
| 8 | 0,12 | 186,85 | 1.453,29 | 5,46 | 1,45 | 1.596,84 |
| 16 | 0,12 | 172,37 | 2.663,04 | 5,92 | 2,66 | 2.925,98 |
| 32 | 0,3 | 144,37 | 4.349,11 | 7,22 | 4,35 | 4.778,21 |
| 64 | 0,56 | 116,87 | 6.803,86 | 9,11 | 6,8 | 7.475,21 |
| 128 | 1,05 | 81,16 | 9.142,52 | 13,37 | 9,14 | 10.044,44 |
| 256 | 1,16 | 59,39 | 13.147,16 | 18,01 | 13,15 | 14.445,62 |
Cenário RAG 1
O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 2.000 tokens e o comprimento de resposta é fixado em 200 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,05 | 307,29 | 276,08 | 0,7 | 1,38 | 2.993,75 |
| 2 | 0,11 | 252,42 | 437,08 | 0,89 | 2,19 | 4.739,41 |
| 4 | 0,19 | 206,66 | 663,78 | 1,15 | 3,32 | 7.199,38 |
| 8 | 0,35 | 177,05 | 1.007,62 | 1,48 | 5,04 | 10.927,18 |
| 16 | 0,52 | 144,84 | 1.492,26 | 1,92 | 7,46 | 16.183,54 |
| 32 | 0,92 | 97,78 | 1.803,69 | 3,03 | 9,02 | 19.559,41 |
| 64 | 1,68 | 66,08 | 2.098,59 | 4,81 | 10,49 | 22.758,87 |
| 128 | 3,3 | 38,69 | 2.169,83 | 8,73 | 10,85 | 23.530,04 |
| 256 | 6,59 | 22,97 | 2.203,38 | 15,88 | 11,02 | 23.892,56 |
Cenário RAG 2
O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 7.800 tokens e o comprimento de resposta é fixado em 200 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,14 | 296,08 | 228,79 | 0,81 | 1,14 | 9.011,37 |
| 2 | 0,24 | 222,84 | 333,43 | 1,14 | 1,67 | 13.133,46 |
| 4 | 0,46 | 167,95 | 446,77 | 1,67 | 2,23 | 17.599 |
| 8 | 0,84 | 126,22 | 590,38 | 2,48 | 2,95 | 23.255,47 |
| 16 | 1,61 | 91,55 | 714,55 | 3,95 | 3,57 | 28.146,38 |
| 32 | 3 | 55,52 | 785,96 | 6,98 | 3,93 | 30.958,57 |
| 64 | 5,77 | 32,34 | 822,33 | 12,76 | 4,11 | 32.391,21 |
| 128 | 11,35 | 16,82 | 808,94 | 24,97 | 4,04 | 31.863,84 |
| 256 | 22,79 | 14,81 | 845,34 | 38,26 | 4,23 | 33.297,87 |
Cenário RAG 3
O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 128.000 tokens e o comprimento de resposta é fixado em 200 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 5,43 | 208,76 | 28,33 | 6,38 | 0,14 | 17.876,33 |
| 2 | 8,33 | 77,55 | 30,22 | 12,56 | 0,15 | 19.068,05 |
| 4 | 14,16 | 33,64 | 30,84 | 24,39 | 0,15 | 19.460,28 |
| 8 | 26,2 | 15,26 | 31 | 48,22 | 0,16 | 19.559,97 |
| 16 | 61,38 | 11,42 | 34,23 | 87,75 | 0,17 | 21.601,48 |
| 32 | 144,11 | 11,35 | 33,68 | 170,42 | 0,17 | 21.253,95 |
| 64 | 286,47 | 11,33 | 33,45 | 312,79 | 0,17 | 21.105,36 |
| 128 | 479,74 | 11,39 | 32,22 | 506,03 | 0,16 | 20.326,17 |
| 256 | 570,15 | 11,44 | 28,66 | 596,46 | 0,14 | 18.085,14 |