Meta Llama 3 (70B)
Revise os benchmarks de desempenho do modelo meta.llama-3-70b-instruct
(Meta Llama 3 (70B)) hospedado em uma unidade Large Generic de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 30.51 | 30.36 | 10.47 | 5.73 |
2 | 28.85 | 57.37 | 11.09 | 10.68 |
4 | 27.99 | 108.49 | 11.13 | 21.08 |
8 | 25.61 | 196.68 | 13.27 | 34.65 |
16 | 21.97 | 318.82 | 15.36 | 56.37 |
32 | 16.01 | 428.45 | 18.55 | 82.88 |
64 | 11.6 | 563.7 | 24.31 | 108.58 |
128 | 7.5 | 650.4 | 40.64 | 40.64 |
256 | 4.58 | 927.31 | 67.42 | 172.42 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 31.07 | 31.12 | 3.28 | 18.29 |
2 | 30.33 | 59.43 | 3.4 | 34.88 |
4 | 29.39 | 113.76 | 3.51 | 66.48 |
8 | 27.14 | 210 | 3.77 | 123.22 |
16 | 24.04 | 351.38 | 4.24 | 205.78 |
32 | 19.4 | 523.68 | 5.23 | 306.44 |
64 | 16.12 | 837.45 | 6.28 | 491 |
128 | 9.48 | 920.97 | 10.63 | 541.91 |
256 | 5.73 | 1,211.95 | 17.79 | 713.19 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 30.53 | 30.51 | 33.58 | 1.79 |
2 | 29.78 | 59.01 | 34.42 | 3.45 |
4 | 28.88 | 112.35 | 35.48 | 6.58 |
8 | 27.67 | 215.18 | 36.99 | 12.61 |
16 | 24.85 | 364.06 | 40.99 | 21.34 |
32 | 20.51 | 552.34 | 49.6 | 32.35 |
64 | 16.12 | 900.39 | 59.36 | 52.72 |
128 | 10.17 | 980.45 | 100.27 | 57.43 |
256 | 6.3 | 1,334.59 | 162.08 | 78.19 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 28.84 | 28.82 | 7.11 | 8.44 |
2 | 26.52 | 52.69 | 7.66 | 15.51 |
4 | 24.23 | 94.86 | 8.38 | 27.92 |
8 | 20.01 | 155.97 | 10.21 | 45.76 |
16 | 14.34 | 216.26 | 14.12 | 63.43 |
32 | 9.33 | 275.28 | 21.3 | 80.89 |
64 | 5.68 | 334.46 | 32.55 | 98.11 |
128 | 3.13 | 364.18 | 64.59 | 106.94 |
256 | 1.59 | 359.21 | 128.67 | 105.44 |