OpenAI gpt-oss-20b (New)

Revise os benchmarks de desempenho do modelo openai.gpt-oss-20b (OpenAI gpt-oss-20b) hospedado em uma unidade OAI_H100_X1 de um cluster de IA dedicado (uma GPU H100) na OCI Generative AI.

- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,15	310,18	267,85	1,1	0,9	703,41
2	0,06	246,49	467,94	1,32	1,5	1.174,08
4	0,07	196,86	742,66	1,58	2,51	1.961,26
8	0,06	167,75	1.267,44	1,84	4,24	3.342,67
16	0,11	138,54	2.001,69	2,29	6,71	5.252,2
32	0,28	87,77	2.375,62	3,63	8,26	6.290,45
64	0,31	66,31	3.471,69	4,76	11,95	9.094,38
128	0,43	37,61	3.451,69	7,68	13,19	9.724,71
256	1,39	27,15	3.233,22	10	13,7	9.461,31

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,04	309,3	273,44	0,36	2,73	543,3
2	0,08	257,56	425,02	0,47	4,25	844,54
4	0,09	217,51	723,17	0,54	7,23	1.436,95
8	0,12	197,51	1.245,86	0,62	12,46	2.475,46
16	0,12	180,34	2.139,95	0,67	21,4	4.252,45
32	0,34	146,2	2.872,63	1,02	28,73	5.707,83
64	0,9	106,26	3.070,83	1,85	30,71	6.100,5
128	1,44	67,53	3.690,1	2,95	36,9	7.332,91
256	1,08	42,15	5.489,89	3,55	54,9	10.905,91

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,04	312,78	307,59	3,24	0,31	337,94
2	0,09	253,78	495,55	4,03	0,5	544,48
4	0,1	207,31	810,29	4,92	0,81	890,28
8	0,12	186,85	1.453,29	5,46	1,45	1.596,84
16	0,12	172,37	2.663,04	5,92	2,66	2.925,98
32	0,3	144,37	4.349,11	7,22	4,35	4.778,21
64	0,56	116,87	6.803,86	9,11	6,8	7.475,21
128	1,05	81,16	9.142,52	13,37	9,14	10.044,44
256	1,16	59,39	13.147,16	18,01	13,15	14.445,62

Cenário RAG 1

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 2.000 tokens e o comprimento de resposta é fixado em 200 tokens.


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,05	307,29	276,08	0,7	1,38	2.993,75
2	0,11	252,42	437,08	0,89	2,19	4.739,41
4	0,19	206,66	663,78	1,15	3,32	7.199,38
8	0,35	177,05	1.007,62	1,48	5,04	10.927,18
16	0,52	144,84	1.492,26	1,92	7,46	16.183,54
32	0,92	97,78	1.803,69	3,03	9,02	19.559,41
64	1,68	66,08	2.098,59	4,81	10,49	22.758,87
128	3,3	38,69	2.169,83	8,73	10,85	23.530,04
256	6,59	22,97	2.203,38	15,88	11,02	23.892,56

Cenário RAG 2

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 7.800 tokens e o comprimento de resposta é fixado em 200 tokens.


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,14	296,08	228,79	0,81	1,14	9.011,37
2	0,24	222,84	333,43	1,14	1,67	13.133,46
4	0,46	167,95	446,77	1,67	2,23	17.599
8	0,84	126,22	590,38	2,48	2,95	23.255,47
16	1,61	91,55	714,55	3,95	3,57	28.146,38
32	3	55,52	785,96	6,98	3,93	30.958,57
64	5,77	32,34	822,33	12,76	4,11	32.391,21
128	11,35	16,82	808,94	24,97	4,04	31.863,84
256	22,79	14,81	845,34	38,26	4,23	33.297,87

Cenário RAG 3

O cenário de geração aumentada de recuperação (RAG) tem uma entrada grande e uma resposta curta, como resumir casos de uso. Neste cenário, o comprimento de entrada é fixado em 128.000 tokens e o comprimento de resposta é fixado em 200 tokens.


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	5,43	208,76	28,33	6,38	0,14	17.876,33
2	8,33	77,55	30,22	12,56	0,15	19.068,05
4	14,16	33,64	30,84	24,39	0,15	19.460,28
8	26,2	15,26	31	48,22	0,16	19.559,97
16	61,38	11,42	34,23	87,75	0,17	21.601,48
32	144,11	11,35	33,68	170,42	0,17	21.253,95
64	286,47	11,33	33,45	312,79	0,17	21.105,36
128	479,74	11,39	32,22	506,03	0,16	20.326,17
256	570,15	11,44	28,66	596,46	0,14	18.085,14