Meta Llama 3 (70B)
Revise os benchmarks de desempenho do modelo meta.llama-3-70b-instruct (Meta Llama 3 (70B)) hospedado em uma unidade Large Generic de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 30,51 | 30,36 | 10,47 | 5,73 |
| 2 | 28,85 | 57,37 | 11,09 | 10,68 |
| 4 | 27,99 | 108,49 | 11,13 | 21,08 |
| 8 | 25,61 | 196,68 | 13,27 | 34,65 |
| 16 | 21,97 | 318,82 | 15,36 | 56,37 |
| 32 | 16,01 | 428,45 | 18,55 | 82,88 |
| 64 | 11,6 | 563,7 | 24,31 | 108,58 |
| 128 | 7,5 | 650,4 | 40,64 | 40,64 |
| 256 | 4,58 | 927,31 | 67,42 | 172,42 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 31,07 | 31,12 | 3,28 | 18,29 |
| 2 | 30,33 | 59,43 | 3,4 | 34,88 |
| 4 | 29,39 | 113,76 | 3,51 | 66,48 |
| 8 | 27,14 | 210 | 3,77 | 123,22 |
| 16 | 24,04 | 351,38 | 4,24 | 205,78 |
| 32 | 19,4 | 523,68 | 5,23 | 306,44 |
| 64 | 16,12 | 837,45 | 6,28 | 491 |
| 128 | 9,48 | 920,97 | 10,63 | 541,91 |
| 256 | 5,73 | 1.211,95 | 17,79 | 713,19 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 30,53 | 30,51 | 33,58 | 1,79 |
| 2 | 29,78 | 59,01 | 34,42 | 3,45 |
| 4 | 28,88 | 112,35 | 35,48 | 6,58 |
| 8 | 27,67 | 215,18 | 36,99 | 12,61 |
| 16 | 24,85 | 364,06 | 40,99 | 21,34 |
| 32 | 20,51 | 552,34 | 49,6 | 32,35 |
| 64 | 16,12 | 900,39 | 59,36 | 52,72 |
| 128 | 10,17 | 980,45 | 100,27 | 57,43 |
| 256 | 6,3 | 1.334,59 | 162,08 | 78,19 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 28,84 | 28,82 | 7,11 | 8,44 |
| 2 | 26,52 | 52,69 | 7,66 | 15,51 |
| 4 | 24,23 | 94,86 | 8,38 | 27,92 |
| 8 | 20,01 | 155,97 | 10,21 | 45,76 |
| 16 | 14,34 | 216,26 | 14,12 | 63,43 |
| 32 | 9,33 | 275,28 | 21,3 | 80,89 |
| 64 | 5,68 | 334,46 | 32,55 | 98,11 |
| 128 | 3,13 | 364,18 | 64,59 | 106,94 |
| 256 | 1,59 | 359,21 | 128,67 | 105,44 |