Meta Llama 3.1 (70B)

Revise os benchmarks de desempenho do modelo meta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B)) hospedado em uma unidade Large Generic de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 95.5 51.58 6.12 9.78
2 92.25 98.89 6.44 18.53
4 90.51 184.54 7.37 30.67
8 83.38 326.71 7.64 57.06
16 71.45 509.03 8.77 90.02
32 58.48 724.23 10 138.82
64 44.74 1,146.92 14.07 206.58
128 27 1,434.57 22.48 268.58
256 18.03 1,635.95 41.06 309.97

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 97.11 51.67 1.98 30.14
2 95.38 99.17 2.04 57.87
4 93.91 183.96 2.1 107.5
8 89.79 318.53 2.23 186.09
16 81.05 506.12 2.47 294.03
32 64.15 909.4 3.18 530.15
64 50.35 1,405.67 4.08 818.96
128 33.59 1,786.6 6.26 1,040.74
256 18.77 1,866.83 11.43 1,086.94

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 95.37 52.01 19.56 3.07
2 92.77 101.29 20.04 5.98
4 91.6 191.83 20.34 11.32
8 86.83 338.87 21.51 19.97
16 78.12 547.34 23.92 32.23
32 64.77 1,111.24 28.91 65.46
64 50.52 1,722.11 37.23 101.48
128 31.29 2,123.49 60.17 125.12
256 14.93 2,002.12 126.87 117.98

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 53.37 50.55 3.93 15.16
2 51.06 96.43 4.11 28.93
4 48.31 183.35 4.33 55.01
8 41.85 309.97 5.05 92.99
16 33.93 489.93 6.29 146.98
32 23.61 663.3 9.12 198.99
64 18.27 724.11 15.87 217.23
128 18.27 724.07 28.49 217.22
256 18.35 709.78 45.89 212.94