OpenAI gpt-oss-120b (New)
Revise os benchmarks de desempenho do modelo openai.gpt-oss-120b (OpenAI gpt-oss-120b ) hospedado em uma unidade OAI_H100_X2 de um cluster de IA dedicado (duas GPUs H100) na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,22 | 261,95 | 220,15 | 1,36 | 0,73 | 548,46 |
| 2 | 0,09 | 213,71 | 398,6 | 1,51 | 1,32 | 1.033,1 |
| 4 | 0,08 | 165,27 | 625,81 | 1,9 | 2,08 | 1.622,33 |
| 8 | 0,18 | 119,84 | 862 | 2,62 | 3,01 | 2.314,16 |
| 16 | 0,17 | 93,47 | 1.343,22 | 3,38 | 4,54 | 3.470,47 |
| 32 | 0,59 | 63,39 | 1.596,95 | 5,27 | 5,66 | 4.281,85 |
| 64 | 0,62 | 37,63 | 1.795,69 | 8,87 | 6,31 | 4.772,03 |
| 128 | 1,1 | 23,71 | 2.180,46 | 12,86 | 7,99 | 5.952,25 |
| 256 | 1,78 | 18,58 | 2.222,52 | 15,93 | 9,35 | 6.504,76 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,07 | 261,23 | 222,83 | 0,45 | 2,23 | 442,72 |
| 2 | 0,13 | 223,12 | 346,88 | 0,57 | 3,47 | 689,14 |
| 4 | 0,14 | 185,16 | 583,72 | 0,68 | 5,84 | 1.159,68 |
| 8 | 0,15 | 150,14 | 948,79 | 0,81 | 9,49 | 1.884,99 |
| 16 | 0,17 | 131,49 | 1.598 | 0,92 | 15,98 | 3.175,39 |
| 32 | 0,75 | 99,64 | 1.711,51 | 1,79 | 17,12 | 3.399,46 |
| 64 | 0,87 | 81,13 | 2.627,13 | 2,1 | 26,27 | 5.219,7 |
| 128 | 1,89 | 54,58 | 2.976,36 | 3,78 | 29,76 | 5.911,72 |
| 256 | 2,07 | 31,58 | 3.852,55 | 5,37 | 38,53 | 7.653,63 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,07 | 261,81 | 256,51 | 3,89 | 0,26 | 281,77 |
| 2 | 0,14 | 224,09 | 434,47 | 4,6 | 0,43 | 477,39 |
| 4 | 0,14 | 182,54 | 710,36 | 5,62 | 0,71 | 780,48 |
| 8 | 0,15 | 144,99 | 1.129,12 | 7,04 | 1,13 | 1.240,52 |
| 16 | 0,27 | 124,21 | 1.908,32 | 8,31 | 1,91 | 2.096,68 |
| 32 | 0,6 | 101,42 | 3.023,03 | 10,45 | 3,02 | 3.321,46 |
| 64 | 0,84 | 81,18 | 4.740,88 | 13,15 | 4,74 | 5.208,51 |
| 128 | 1,28 | 62,05 | 7.107,26 | 17,38 | 7,11 | 7.808,01 |
| 256 | 1,6 | 42,8 | 9.691,73 | 24,98 | 9,69 | 10.647,89 |
Cenário RAG 1
O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 2.000 tokens e o comprimento de resposta é fixado em 200 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,09 | 257,79 | 226,9 | 0,86 | 1,13 | 2.460,63 |
| 2 | 0,16 | 219,97 | 367,54 | 1,07 | 1,84 | 3.985,78 |
| 4 | 0,29 | 181,6 | 555,09 | 1,39 | 2,78 | 6.019,49 |
| 8 | 0,46 | 141,97 | 810 | 1,87 | 4,05 | 8.784,09 |
| 16 | 0,6 | 112 | 1.196,86 | 2,43 | 5,98 | 12.981,05 |
| 32 | 0,97 | 79,31 | 1.576,52 | 3,56 | 7,88 | 17.096,63 |
| 64 | 1,74 | 57,86 | 1.973,83 | 5,28 | 9,87 | 21.404,97 |
| 128 | 3,45 | 33,18 | 2.025,35 | 9,74 | 10,13 | 21.963,02 |
| 256 | 6,73 | 20 | 2.109,05 | 17,3 | 10,55 | 22.872,85 |
Cenário RAG 2
O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 7.800 tokens e o comprimento de resposta é fixado em 200 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 0,16 | 251,46 | 200,36 | 0,95 | 1 | 7.892,53 |
| 2 | 0,25 | 198,46 | 303,35 | 1,26 | 1,52 | 11.948,77 |
| 4 | 0,46 | 147,81 | 410,55 | 1,84 | 2,05 | 16.172,35 |
| 8 | 0,89 | 104,17 | 513,98 | 2,88 | 2,57 | 20.246,87 |
| 16 | 1,68 | 75,21 | 632,25 | 4,53 | 3,16 | 24.904,43 |
| 32 | 3,13 | 49,11 | 725,39 | 7,57 | 3,63 | 28.573,61 |
| 64 | 6,12 | 27,93 | 745,21 | 14,1 | 3,73 | 29.354,61 |
| 128 | 10,91 | 16,76 | 824,68 | 23,41 | 4,12 | 32.484,31 |
| 256 | 28,27 | 23,06 | 878,43 | 37,83 | 4,39 | 34.600,76 |
Cenário RAG 3
O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 128.000 tokens e o comprimento de resposta é fixado em 200 tokens.
| Simultânea | Time to First Token (TTFT)(segundo) | Velocidade de Inferência no Nível do Token (tokens/segundo) | Throughput no nível do token (tokens/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) | Throughput Total (tokens/segundo) |
|---|---|---|---|---|---|---|
| 1 | 4,9 | 193,51 | 30,28 | 5,93 | 0,15 | 19.105,23 |
| 2 | 7,54 | 76,41 | 32,29 | 11,57 | 0,16 | 20.375,68 |
| 4 | 12,76 | 34,53 | 33,6 | 22,17 | 0,17 | 21.197,94 |
| 8 | 26,85 | 26,84 | 38,26 | 38,94 | 0,19 | 24.138,69 |
| 16 | 65,93 | 26,53 | 38,17 | 78,04 | 0,19 | 24.087,24 |
| 32 | 139,44 | 26,72 | 37,81 | 151,55 | 0,19 | 23.857,98 |
| 64 | 268,6 | 26,67 | 36,95 | 280,69 | 0,18 | 23.314,67 |
| 128 | 451,1 | 26,82 | 35,89 | 463,13 | 0,18 | 22.643,98 |
| 256 | 592,11 | 26,18 | 32,51 | 604,78 | 0,16 | 20.515,68 |