Meta Llama 3.2 11B Vision
Revise os benchmarks de desempenho do modelo meta.llama-3.2-11b-vision-instruct (Meta Llama 3.2 11B Vision) hospedado em uma unidade Small Generic V2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 105,74 | 104,3 | 2,75 | 21,7 |
| 2 | 103,21 | 204,22 | 2,82 | 42,4 |
| 4 | 99,41 | 393,69 | 3,1 | 77,1 |
| 8 | 93,98 | 745,29 | 3,26 | 146,7 |
| 16 | 81,62 | 1.294,14 | 3,64 | 262,6 |
| 32 | 60,55 | 1.924,74 | 4,97 | 384,4 |
| 64 | 60,54 | 1.928,7 | 10,03 | 379,4 |
| 128 | 62,57 | 1.912,53 | 19,68 | 383,09 |
| 256 | 60 | 1.911,45 | 38,36 | 386,14 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 111,04 | 109,67 | 0,91 | 65,8 |
| 2 | 108,57 | 212,33 | 0,91 | 127,4 |
| 4 | 105,67 | 408 | 0,91 | 244,8 |
| 8 | 102,65 | 408 | 1,02 | 461,6 |
| 16 | 96,48 | 1.370,66 | 1,13 | 822,4 |
| 32 | 78,96 | 2.110,49 | 1,42 | 822,4 |
| 64 | 89,8 | 2.522,64 | 2,41 | 1.513,58 |
| 128 | 89,69 | 2.516,96 | 4,94 | 1.510,17 |
| 256 | 90,27 | 2.517,19 | 9,96 | 1.510,31 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 106,36 | 105 | 9,41 | 6,3 |
| 2 | 104,89 | 206,67 | 9,55 | 12,4 |
| 4 | 101,93 | 400 | 9,84 | 24 |
| 8 | 98,89 | 773,33 | 10,17 | 46,4 |
| 16 | 91,2 | 1.439,99 | 11,07 | 86,4 |
| 32 | 72,13 | 2.239,98 | 14,03 | 134,4 |
| 64 | 72,29 | 2.293,3 | 27,49 | 137,6 |
| 128 | 72,3 | 2.239,89 | 53,75 | 134,39 |
| 256 | 72,27 | 2.239,84 | 102,37 | 134,39 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 105,23 | 101,67 | 1,95 | 30,5 |
| 2 | 100,86 | 191,33 | 2,08 | 57,4 |
| 4 | 96,79 | 348 | 2,28 | 104,4 |
| 8 | 86,6 | 568 | 2,77 | 170,4 |
| 16 | 72,41 | 837,33 | 3,73 | 251,2 |
| 32 | 43,23 | 1.002,66 | 6,19 | 300,8 |
| 64 | 47,43 | 1.066,65 | 11,63 | 320 |
| 128 | 47,45 | 1.066,62 | 23,25 | 319,99 |
| 256 | 47,41 | 1.066,6 | 45,83 | 319,98 |