Meta Llama 4 Scout

Revise os benchmarks de desempenho do modelo meta.llama-4-scout-17b-16e-instruct (Meta Llama 4 Scout) hospedado em uma unidade Large Generic V2 de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	92.72	90.52	3.27	0.3
2	88.13	172.6	3.45	0.58
4	79.93	312.02	3.73	1.06
8	68.97	535.5	4.37	1.8
16	56.5	858.8	5.35	2.88
32	42.99	1,257.61	7.08	4.19
64	34.16	1,892.06	8.16	6.9
128	26.42	2,466.57	10.87	9.05
256	18.93	2,681.16	14.86	10.98

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	92.91	90.04	1.11	0.9
2	88.13	169.96	1.17	1.7
4	82.43	315.6	1.26	3.16
8	71.26	542.5	1.46	5.42
16	61.21	920.58	1.72	9.21
32	46.96	1,390.24	2.24	13.9
64	38.84	2,154.82	2.76	21.55
128	30.96	2,985.03	3.62	29.85
256	24.12	3,206.01	5.19	32.06

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	92.86	92.17	10.8	0.09
2	88.78	175.46	11.3	0.18
4	82.03	324.26	12.24	0.32
8	72.13	573.25	13.92	0.57
16	61.02	967.61	16.47	0.97
32	47.76	1,515.78	21.07	1.52
64	40.09	2,538.03	25.13	2.54
128	32.14	4,039.3	31.46	4.04
256	23.74	4,208.18	43.48	4.21

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	92.63	88.45	2.25	0.44
2	87.44	164.27	2.42	0.82
4	80.56	291.06	2.73	1.46
8	69.78	482.27	3.28	2.41
16	52.24	740.45	4.27	3.7
32	38.5	1,044.96	6.04	5.22
64	26.35	1,305.62	8.98	6.53
128	16	1,348.21	16.19	6.74
256	16	1,303.9	26.68	6.52

Documentação do Oracle Cloud Infrastructure

Meta Llama 4 Scout

Comprimento aleatório

Chat

Geração pesada

RAG