OpenAI gpt-oss-120b (New)

Revise os benchmarks de desempenho do modelo openai.gpt-oss-120b (OpenAI gpt-oss-120b ) hospedado em uma unidade OAI_H100_X2 de um cluster de IA dedicado (duas GPUs H100) na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,22 261,95 220,15 1,36 0,73 548,46
2 0,09 213,71 398,6 1,51 1,32 1.033,1
4 0,08 165,27 625,81 1,9 2,08 1.622,33
8 0,18 119,84 862 2,62 3,01 2.314,16
16 0,17 93,47 1.343,22 3,38 4,54 3.470,47
32 0,59 63,39 1.596,95 5,27 5,66 4.281,85
64 0,62 37,63 1.795,69 8,87 6,31 4.772,03
128 1,1 23,71 2.180,46 12,86 7,99 5.952,25
256 1,78 18,58 2.222,52 15,93 9,35 6.504,76

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,07 261,23 222,83 0,45 2,23 442,72
2 0,13 223,12 346,88 0,57 3,47 689,14
4 0,14 185,16 583,72 0,68 5,84 1.159,68
8 0,15 150,14 948,79 0,81 9,49 1.884,99
16 0,17 131,49 1.598 0,92 15,98 3.175,39
32 0,75 99,64 1.711,51 1,79 17,12 3.399,46
64 0,87 81,13 2.627,13 2,1 26,27 5.219,7
128 1,89 54,58 2.976,36 3,78 29,76 5.911,72
256 2,07 31,58 3.852,55 5,37 38,53 7.653,63

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,07 261,81 256,51 3,89 0,26 281,77
2 0,14 224,09 434,47 4,6 0,43 477,39
4 0,14 182,54 710,36 5,62 0,71 780,48
8 0,15 144,99 1.129,12 7,04 1,13 1.240,52
16 0,27 124,21 1.908,32 8,31 1,91 2.096,68
32 0,6 101,42 3.023,03 10,45 3,02 3.321,46
64 0,84 81,18 4.740,88 13,15 4,74 5.208,51
128 1,28 62,05 7.107,26 17,38 7,11 7.808,01
256 1,6 42,8 9.691,73 24,98 9,69 10.647,89

Cenário RAG 1

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 2.000 tokens e o comprimento de resposta é fixado em 200 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,09 257,79 226,9 0,86 1,13 2.460,63
2 0,16 219,97 367,54 1,07 1,84 3.985,78
4 0,29 181,6 555,09 1,39 2,78 6.019,49
8 0,46 141,97 810 1,87 4,05 8.784,09
16 0,6 112 1.196,86 2,43 5,98 12.981,05
32 0,97 79,31 1.576,52 3,56 7,88 17.096,63
64 1,74 57,86 1.973,83 5,28 9,87 21.404,97
128 3,45 33,18 2.025,35 9,74 10,13 21.963,02
256 6,73 20 2.109,05 17,3 10,55 22.872,85

Cenário RAG 2

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 7.800 tokens e o comprimento de resposta é fixado em 200 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,16 251,46 200,36 0,95 1 7.892,53
2 0,25 198,46 303,35 1,26 1,52 11.948,77
4 0,46 147,81 410,55 1,84 2,05 16.172,35
8 0,89 104,17 513,98 2,88 2,57 20.246,87
16 1,68 75,21 632,25 4,53 3,16 24.904,43
32 3,13 49,11 725,39 7,57 3,63 28.573,61
64 6,12 27,93 745,21 14,1 3,73 29.354,61
128 10,91 16,76 824,68 23,41 4,12 32.484,31
256 28,27 23,06 878,43 37,83 4,39 34.600,76

Cenário RAG 3

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 128.000 tokens e o comprimento de resposta é fixado em 200 tokens.

Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 4,9 193,51 30,28 5,93 0,15 19.105,23
2 7,54 76,41 32,29 11,57 0,16 20.375,68
4 12,76 34,53 33,6 22,17 0,17 21.197,94
8 26,85 26,84 38,26 38,94 0,19 24.138,69
16 65,93 26,53 38,17 78,04 0,19 24.087,24
32 139,44 26,72 37,81 151,55 0,19 23.857,98
64 268,6 26,67 36,95 280,69 0,18 23.314,67
128 451,1 26,82 35,89 463,13 0,18 22.643,98
256 592,11 26,18 32,51 604,78 0,16 20.515,68