Meta Llama 4 Maverick

Revise os benchmarks de desempenho do modelo meta.llama-4-maverick-17b-128e-instruct-fp8 (Meta Llama 4 Scout) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 160,92 156,72 1,88 0,53
2 144,6 282,14 2,14 0,93
4 130,72 508,33 2,3 1,73
8 115,38 891,47 2,76 2,85
16 93,39 1.415,86 3,27 4,73
32 69,48 2.040,86 4,28 7,02
64 49,96 2.709,44 5,82 9,55
128 35,25 3.300,96 8 12,39
256 16,01 2.302,47 16,04 9,58

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 164,93 153,48 0,65 1,53
2 144,84 265,33 0,75 2,65
4 137,8 499,68 0,79 5
8 125,67 896,43 0,89 8,96
16 112,67 1.598,32 0,98 15,98
32 93,28 2.454,19 1,19 24,54
64 81,8 3.984,66 1,42 39,85
128 62,56 6.152,13 1,9 61,52
256 21,94 4.642,28 5,03 46,42

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 161,55 159,91 6,24 0,16
2 145,3 286,51 6,95 0,29
4 136,6 541,22 7,38 0,54
8 127,96 1.009,45 7,89 1,01
16 111,65 1.750,32 9,06 1,75
32 90,76 2.855,66 11,14 2,86
64 75,55 4.702,83 13,41 4,7
128 59,49 7.378,83 17,11 7,38
256 22,47 5.622,02 44,94 5,62

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 161,27 149,17 1,33 0,75
2 142,81 266,51 1,49 1,33
4 132,11 475,77 1,65 2,38
8 121,12 819,25 1,91 4,1
16 103,7 1.288,25 2,36 6,44
32 79,09 1.806 3,29 9,03
64 60,38 2.453,36 4,73 12,27
128 42,01 2.970,15 7,53 14,85
256 17,37 2.601,33 16,93 13,01