Meta Llama 3.2 90B Vision
Revise os benchmarks de desempenho do modelo meta.llama-3.2-90b-vision-instruct (Meta Llama 3.2 90B Vision) hospedado em uma unidade Large Generic V2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 48,75 | 47,98 | 6,37 | 9,4 |
| 2 | 47,28 | 92,89 | 6,63 | 18 |
| 4 | 45,1 | 176,53 | 6,65 | 35,8 |
| 8 | 42,53 | 333,45 | 7,04 | 67,8 |
| 16 | 38,39 | 597,84 | 7,95 | 119,7 |
| 32 | 29,86 | 929,18 | 10,12 | 187,4 |
| 64 | 30 | 933,09 | 20,11 | 187,2 |
| 128 | 30,03 | 934,3 | 39,85 | 186 |
| 256 | 30,05 | 932,61 | 76,19 | 187,79 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 50,2 | 48,67 | 2,05 | 29,2 |
| 2 | 49,53 | 96,67 | 2,06 | 58 |
| 4 | 49,08 | 188 | 2,12 | 112,8 |
| 8 | 48,4 | 356 | 2,23 | 213,6 |
| 16 | 47,26 | 645,33 | 2,44 | 387,2 |
| 32 | 42,22 | 1.077,33 | 2,9 | 646,4 |
| 64 | 44,95 | 1.162,65 | 5,41 | 697,59 |
| 128 | 44,92 | 1.162,64 | 10,84 | 697,58 |
| 256 | 45,02 | 1.162,21 | 21,58 | 697,32 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 49,15 | 48,33 | 20,37 | 2,9 |
| 2 | 48,73 | 96,67 | 20,57 | 2,9 |
| 4 | 48,17 | 186,67 | 20,85 | 11,2 |
| 8 | 47,53 | 373,33 | 21,2 | 22,4 |
| 16 | 46,69 | 720 | 21,75 | 43,2 |
| 32 | 41,65 | 1.279,99 | 24,54 | 76,8 |
| 64 | 41,92 | 1.279,98 | 47,75 | 76,8 |
| 128 | 41,93 | 1.279,96 | 91,49 | 76,8 |
| 256 | 41,88 | 1.279,93 | 166,93 | 76,8 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 47,83 | 44,33 | 4,47 | 13,3 |
| 2 | 46,14 | 82,67 | 4,79 | 24,8 |
| 4 | 45,18 | 145,33 | 5,46 | 43,6 |
| 8 | 44,67 | 234,67 | 6,74 | 70,4 |
| 16 | 43,43 | 336 | 9,34 | 100,8 |
| 32 | 32,74 | 394,66 | 15,61 | 118,4 |
| 64 | 33,25 | 416 | 30,12 | 124,8 |
| 128 | 33,28 | 405,32 | 59,98 | 121,6 |
| 256 | 33,27 | 394,6 | 116,63 | 118,38 |