Meta Llama 3.1 (70B)
Revise os benchmarks de desempenho do modelo meta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B)) hospedado em uma unidade Large Generic de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 95,5 | 51,58 | 6,12 | 9,78 |
| 2 | 92,25 | 98,89 | 6,44 | 18,53 |
| 4 | 90,51 | 184,54 | 7,37 | 30,67 |
| 8 | 83,38 | 326,71 | 7,64 | 57,06 |
| 16 | 71,45 | 509,03 | 8,77 | 90,02 |
| 32 | 58,48 | 724,23 | 10 | 138,82 |
| 64 | 44,74 | 1.146,92 | 14,07 | 206,58 |
| 128 | 27 | 1.434,57 | 22,48 | 268,58 |
| 256 | 18,03 | 1.635,95 | 41,06 | 309,97 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 97,11 | 51,67 | 1,98 | 30,14 |
| 2 | 95,38 | 99,17 | 2,04 | 57,87 |
| 4 | 93,91 | 183,96 | 2,1 | 107,5 |
| 8 | 89,79 | 318,53 | 2,23 | 186,09 |
| 16 | 81,05 | 506,12 | 2,47 | 294,03 |
| 32 | 64,15 | 909,4 | 3,18 | 530,15 |
| 64 | 50,35 | 1.405,67 | 4,08 | 818,96 |
| 128 | 33,59 | 1.786,6 | 6,26 | 1.040,74 |
| 256 | 18,77 | 1.866,83 | 11,43 | 1.086,94 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 95,37 | 52,01 | 19,56 | 3,07 |
| 2 | 92,77 | 101,29 | 20,04 | 5,98 |
| 4 | 91,6 | 191,83 | 20,34 | 11,32 |
| 8 | 86,83 | 338,87 | 21,51 | 19,97 |
| 16 | 78,12 | 547,34 | 23,92 | 32,23 |
| 32 | 64,77 | 1.111,24 | 28,91 | 65,46 |
| 64 | 50,52 | 1.722,11 | 37,23 | 101,48 |
| 128 | 31,29 | 2.123,49 | 60,17 | 125,12 |
| 256 | 14,93 | 2.002,12 | 126,87 | 117,98 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 53,37 | 50,55 | 3,93 | 15,16 |
| 2 | 51,06 | 96,43 | 4,11 | 28,93 |
| 4 | 48,31 | 183,35 | 4,33 | 55,01 |
| 8 | 41,85 | 309,97 | 5,05 | 92,99 |
| 16 | 33,93 | 489,93 | 6,29 | 146,98 |
| 32 | 23,61 | 663,3 | 9,12 | 198,99 |
| 64 | 18,27 | 724,11 | 15,87 | 217,23 |
| 128 | 18,27 | 724,07 | 28,49 | 217,22 |
| 256 | 18,35 | 709,78 | 45,89 | 212,94 |