Meta Llama 4 Maverick
Revise os benchmarks de desempenho do modelo meta.llama-4-maverick-17b-128e-instruct-fp8 (Meta Llama 4 Scout) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 160,92 | 156,72 | 1,88 | 0,53 |
| 2 | 144,6 | 282,14 | 2,14 | 0,93 |
| 4 | 130,72 | 508,33 | 2,3 | 1,73 |
| 8 | 115,38 | 891,47 | 2,76 | 2,85 |
| 16 | 93,39 | 1.415,86 | 3,27 | 4,73 |
| 32 | 69,48 | 2.040,86 | 4,28 | 7,02 |
| 64 | 49,96 | 2.709,44 | 5,82 | 9,55 |
| 128 | 35,25 | 3.300,96 | 8 | 12,39 |
| 256 | 16,01 | 2.302,47 | 16,04 | 9,58 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 164,93 | 153,48 | 0,65 | 1,53 |
| 2 | 144,84 | 265,33 | 0,75 | 2,65 |
| 4 | 137,8 | 499,68 | 0,79 | 5 |
| 8 | 125,67 | 896,43 | 0,89 | 8,96 |
| 16 | 112,67 | 1.598,32 | 0,98 | 15,98 |
| 32 | 93,28 | 2.454,19 | 1,19 | 24,54 |
| 64 | 81,8 | 3.984,66 | 1,42 | 39,85 |
| 128 | 62,56 | 6.152,13 | 1,9 | 61,52 |
| 256 | 21,94 | 4.642,28 | 5,03 | 46,42 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 161,55 | 159,91 | 6,24 | 0,16 |
| 2 | 145,3 | 286,51 | 6,95 | 0,29 |
| 4 | 136,6 | 541,22 | 7,38 | 0,54 |
| 8 | 127,96 | 1.009,45 | 7,89 | 1,01 |
| 16 | 111,65 | 1.750,32 | 9,06 | 1,75 |
| 32 | 90,76 | 2.855,66 | 11,14 | 2,86 |
| 64 | 75,55 | 4.702,83 | 13,41 | 4,7 |
| 128 | 59,49 | 7.378,83 | 17,11 | 7,38 |
| 256 | 22,47 | 5.622,02 | 44,94 | 5,62 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 161,27 | 149,17 | 1,33 | 0,75 |
| 2 | 142,81 | 266,51 | 1,49 | 1,33 |
| 4 | 132,11 | 475,77 | 1,65 | 2,38 |
| 8 | 121,12 | 819,25 | 1,91 | 4,1 |
| 16 | 103,7 | 1.288,25 | 2,36 | 6,44 |
| 32 | 79,09 | 1.806 | 3,29 | 9,03 |
| 64 | 60,38 | 2.453,36 | 4,73 | 12,27 |
| 128 | 42,01 | 2.970,15 | 7,53 | 14,85 |
| 256 | 17,37 | 2.601,33 | 16,93 | 13,01 |