Meta Llama 4 Scout

Revise os benchmarks de desempenho do modelo meta.llama-4-scout-17b-16e-instruct (Meta Llama 4 Scout) hospedado em uma unidade Large Generic V2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 92.72 90.52 3.27 0.3
2 88.13 172.6 3.45 0.58
4 79.93 312.02 3.73 1.06
8 68.97 535.5 4.37 1.8
16 56.5 858.8 5.35 2.88
32 42.99 1,257.61 7.08 4.19
64 34.16 1,892.06 8.16 6.9
128 26.42 2,466.57 10.87 9.05
256 18.93 2,681.16 14.86 10.98

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 92.91 90.04 1.11 0.9
2 88.13 169.96 1.17 1.7
4 82.43 315.6 1.26 3.16
8 71.26 542.5 1.46 5.42
16 61.21 920.58 1.72 9.21
32 46.96 1,390.24 2.24 13.9
64 38.84 2,154.82 2.76 21.55
128 30.96 2,985.03 3.62 29.85
256 24.12 3,206.01 5.19 32.06

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 92.86 92.17 10.8 0.09
2 88.78 175.46 11.3 0.18
4 82.03 324.26 12.24 0.32
8 72.13 573.25 13.92 0.57
16 61.02 967.61 16.47 0.97
32 47.76 1,515.78 21.07 1.52
64 40.09 2,538.03 25.13 2.54
128 32.14 4,039.3 31.46 4.04
256 23.74 4,208.18 43.48 4.21

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 92.63 88.45 2.25 0.44
2 87.44 164.27 2.42 0.82
4 80.56 291.06 2.73 1.46
8 69.78 482.27 3.28 2.41
16 52.24 740.45 4.27 3.7
32 38.5 1,044.96 6.04 5.22
64 26.35 1,305.62 8.98 6.53
128 16 1,348.21 16.19 6.74
256 16 1,303.9 26.68 6.52