Meta Llama 4 Scout
Revise os benchmarks de desempenho do modelo meta.llama-4-scout-17b-16e-instruct (Meta Llama 4 Scout) hospedado em uma unidade Large Generic V2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 92,72 | 90,52 | 3,27 | 0,3 |
| 2 | 88,13 | 172,6 | 3,45 | 0,58 |
| 4 | 79,93 | 312,02 | 3,73 | 1,06 |
| 8 | 68,97 | 535,5 | 4,37 | 1,8 |
| 16 | 56,5 | 858,8 | 5,35 | 2,88 |
| 32 | 42,99 | 1.257,61 | 7,08 | 4,19 |
| 64 | 34,16 | 1.892,06 | 8,16 | 6,9 |
| 128 | 26,42 | 2.466,57 | 10,87 | 9,05 |
| 256 | 18,93 | 2.681,16 | 14,86 | 10,98 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 92,91 | 90,04 | 1,11 | 0,9 |
| 2 | 88,13 | 169,96 | 1,17 | 1,7 |
| 4 | 82,43 | 315,6 | 1,26 | 3,16 |
| 8 | 71,26 | 542,5 | 1,46 | 5,42 |
| 16 | 61,21 | 920,58 | 1,72 | 9,21 |
| 32 | 46,96 | 1.390,24 | 2,24 | 13,9 |
| 64 | 38,84 | 2.154,82 | 2,76 | 21,55 |
| 128 | 30,96 | 2.985,03 | 3,62 | 29,85 |
| 256 | 24,12 | 3.206,01 | 5,19 | 32,06 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 92,86 | 92,17 | 10,8 | 0,09 |
| 2 | 88,78 | 175,46 | 11,3 | 0,18 |
| 4 | 82,03 | 324,26 | 12,24 | 0,32 |
| 8 | 72,13 | 573,25 | 13,92 | 0,57 |
| 16 | 61,02 | 967,61 | 16,47 | 0,97 |
| 32 | 47,76 | 1.515,78 | 21,07 | 1,52 |
| 64 | 40,09 | 2.538,03 | 25,13 | 2,54 |
| 128 | 32,14 | 4.039,3 | 31,46 | 4,04 |
| 256 | 23,74 | 4.208,18 | 43,48 | 4,21 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 92,63 | 88,45 | 2,25 | 0,44 |
| 2 | 87,44 | 164,27 | 2,42 | 0,82 |
| 4 | 80,56 | 291,06 | 2,73 | 1,46 |
| 8 | 69,78 | 482,27 | 3,28 | 2,41 |
| 16 | 52,24 | 740,45 | 4,27 | 3,7 |
| 32 | 38,5 | 1.044,96 | 6,04 | 5,22 |
| 64 | 26,35 | 1.305,62 | 8,98 | 6,53 |
| 128 | 16 | 1.348,21 | 16,19 | 6,74 |
| 256 | 16 | 1.303,9 | 26,68 | 6,52 |