OpenAI gpt-oss-20b (New)

Revise os benchmarks de desempenho do modelo openai.gpt-oss-20b (OpenAI gpt-oss-20b) hospedado em uma unidade OAI_H100_X1 de um cluster de IA dedicado (uma GPU H100) na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,15 310,18 267,85 1,1 0,9 703,41
2 0,06 246,49 467,94 1,32 1,5 1.174,08
4 0,07 196,86 742,66 1,58 2,51 1.961,26
8 0,06 167,75 1.267,44 1,84 4,24 3.342,67
16 0,11 138,54 2.001,69 2,29 6,71 5.252,2
32 0,28 87,77 2.375,62 3,63 8,26 6.290,45
64 0,31 66,31 3.471,69 4,76 11,95 9.094,38
128 0,43 37,61 3.451,69 7,68 13,19 9.724,71
256 1,39 27,15 3.233,22 10 13,7 9.461,31

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,04 309,3 273,44 0,36 2,73 543,3
2 0,08 257,56 425,02 0,47 4,25 844,54
4 0,09 217,51 723,17 0,54 7,23 1.436,95
8 0,12 197,51 1.245,86 0,62 12,46 2.475,46
16 0,12 180,34 2.139,95 0,67 21,4 4.252,45
32 0,34 146,2 2.872,63 1,02 28,73 5.707,83
64 0,9 106,26 3.070,83 1,85 30,71 6.100,5
128 1,44 67,53 3.690,1 2,95 36,9 7.332,91
256 1,08 42,15 5.489,89 3,55 54,9 10.905,91

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,04 312,78 307,59 3,24 0,31 337,94
2 0,09 253,78 495,55 4,03 0,5 544,48
4 0,1 207,31 810,29 4,92 0,81 890,28
8 0,12 186,85 1.453,29 5,46 1,45 1.596,84
16 0,12 172,37 2.663,04 5,92 2,66 2.925,98
32 0,3 144,37 4.349,11 7,22 4,35 4.778,21
64 0,56 116,87 6.803,86 9,11 6,8 7.475,21
128 1,05 81,16 9.142,52 13,37 9,14 10.044,44
256 1,16 59,39 13.147,16 18,01 13,15 14.445,62

Cenário RAG 1

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 2.000 tokens e o comprimento de resposta é fixado em 200 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,05 307,29 276,08 0,7 1,38 2.993,75
2 0,11 252,42 437,08 0,89 2,19 4.739,41
4 0,19 206,66 663,78 1,15 3,32 7.199,38
8 0,35 177,05 1.007,62 1,48 5,04 10.927,18
16 0,52 144,84 1.492,26 1,92 7,46 16.183,54
32 0,92 97,78 1.803,69 3,03 9,02 19.559,41
64 1,68 66,08 2.098,59 4,81 10,49 22.758,87
128 3,3 38,69 2.169,83 8,73 10,85 23.530,04
256 6,59 22,97 2.203,38 15,88 11,02 23.892,56

Cenário RAG 2

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 7.800 tokens e o comprimento de resposta é fixado em 200 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,14 296,08 228,79 0,81 1,14 9.011,37
2 0,24 222,84 333,43 1,14 1,67 13.133,46
4 0,46 167,95 446,77 1,67 2,23 17.599
8 0,84 126,22 590,38 2,48 2,95 23.255,47
16 1,61 91,55 714,55 3,95 3,57 28.146,38
32 3 55,52 785,96 6,98 3,93 30.958,57
64 5,77 32,34 822,33 12,76 4,11 32.391,21
128 11,35 16,82 808,94 24,97 4,04 31.863,84
256 22,79 14,81 845,34 38,26 4,23 33.297,87

Cenário RAG 3

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 128.000 tokens e o comprimento de resposta é fixado em 200 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 5,43 208,76 28,33 6,38 0,14 17.876,33
2 8,33 77,55 30,22 12,56 0,15 19.068,05
4 14,16 33,64 30,84 24,39 0,15 19.460,28
8 26,2 15,26 31 48,22 0,16 19.559,97
16 61,38 11,42 34,23 87,75 0,17 21.601,48
32 144,11 11,35 33,68 170,42 0,17 21.253,95
64 286,47 11,33 33,45 312,79 0,17 21.105,36
128 479,74 11,39 32,22 506,03 0,16 20.326,17
256 570,15 11,44 28,66 596,46 0,14 18.085,14