Meta Llama 4 Maverick

Revise os benchmarks de desempenho do modelo meta.llama-4-maverick-17b-128e-instruct-fp8 (Meta Llama 4 Scout) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.

- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	160,92	156,72	1,88	0,53
2	144,6	282,14	2,14	0,93
4	130,72	508,33	2,3	1,73
8	115,38	891,47	2,76	2,85
16	93,39	1.415,86	3,27	4,73
32	69,48	2.040,86	4,28	7,02
64	49,96	2.709,44	5,82	9,55
128	35,25	3.300,96	8	12,39
256	16,01	2.302,47	16,04	9,58

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	164,93	153,48	0,65	1,53
2	144,84	265,33	0,75	2,65
4	137,8	499,68	0,79	5
8	125,67	896,43	0,89	8,96
16	112,67	1.598,32	0,98	15,98
32	93,28	2.454,19	1,19	24,54
64	81,8	3.984,66	1,42	39,85
128	62,56	6.152,13	1,9	61,52
256	21,94	4.642,28	5,03	46,42

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	161,55	159,91	6,24	0,16
2	145,3	286,51	6,95	0,29
4	136,6	541,22	7,38	0,54
8	127,96	1.009,45	7,89	1,01
16	111,65	1.750,32	9,06	1,75
32	90,76	2.855,66	11,14	2,86
64	75,55	4.702,83	13,41	4,7
128	59,49	7.378,83	17,11	7,38
256	22,47	5.622,02	44,94	5,62

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	161,27	149,17	1,33	0,75
2	142,81	266,51	1,49	1,33
4	132,11	475,77	1,65	2,38
8	121,12	819,25	1,91	4,1
16	103,7	1.288,25	2,36	6,44
32	79,09	1.806	3,29	9,03
64	60,38	2.453,36	4,73	12,27
128	42,01	2.970,15	7,53	14,85
256	17,37	2.601,33	16,93	13,01

Documentação do Oracle Cloud Infrastructure

Meta Llama 4 Maverick

Comprimento aleatório

Chat

Geração pesada

RAG