Meta Llama 3.1 (405B)

Revise os benchmarks de desempenho do modelo meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B)) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.
Importante

Você só pode hospedar o modelo meta.llama-3.1-405b-instruct em um cluster de IA dedicado do tipo Large Generic 2. Esse tipo se destina a fornecer melhor rendimento com menos hardware e um custo menor do que seu antecessor, Large Generic 4.

As tabelas a seguir fornecem benchmarks que foram executados para o modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 e em uma unidade Large Generic 4. Se o modelo estiver hospedado no tipo de cluster predecessor Grande Genérico 4, compare as tabelas a seguir para decidir se deseja hospedar o modelo nesta nova unidade.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 27.44 26.84 11.66 5.1
2 26.56 51.93 11.44 10.39
4 25.66 100.31 11.97 19.89
8 24.98 193.34 11.96 39.48
16 20.73 322.99 14.86 63.76
32 18.39 562.55 16.5 114.21
64 15.05 877.61 20.42 180.76
128 10.79 1,210.61 29.53 241.73
256 8.67 1,301.65 47.22 282.78
O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 32.66 25.79 10.78 5.56
2 31.36 50.81 10.06 11.68
4 29.86 96.01 10.87 21.52
8 27.89 170.45 10.87 34.09
16 24.74 282.52 13.51 60.35
32 21.51 457.24 16.73 91.42
64 17.68 676.9 18.29 152.47
128 13.06 1,035.08 25.59 222.67
256 7.82 1,302.71 41.88 289.08

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 27.38 26.65 3.74 15.99
2 26.43 51.3 3.88 30.78
4 25.92 100.61 3.96 60.36
8 25.52 196.72 4.06 118.03
16 21.24 328.32 4.84 196.99
32 19.32 588.59 5.36 353.15
64 16.73 1,003.22 6.29 601.93
128 12.56 1,433.27 8.59 859.96
256 8.6 1,586.86 8.59 952.11
O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 28.93 21.65 4.6 13.01
2 31.72 50.89 3.9 30.54
4 30.86 91.23 4.17 54.74
8 29.61 163.06 4.33 97.84
16 27.66 277.48 4.49 166.49
32 26.01 615.83 4.77 369.5
64 22.49 1,027.87 5.67 616.77
128 17.22 1,527.06 7.37 616.77
256 10.67 1,882.65 11.44 1,131.71

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 27.35 26.65 36.65 1.6
2 26.72 49.97 37.53 3
4 26.21 99.94 38.27 6
8 26.42 199.89 38 11.99
16 22.6 346.45 44.45 20.79
32 21.97 692.91 45.77 41.57
64 20.1 1,177.63 50.14 70.66
128 17.06 2,086.85 60.7 125.21
256 11.05 2,024.72 109.59 121.48
O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 31.28 26.55 18.5 3.24
2 30.79 50.88 16.14 7.12
4 29.46 93.36 18.15 12.09
8 28.2 170.2 19.4 21.4
16 26.37 271.8 17.73 40.56
32 25.24 419.13 21.06 55.06
64 22.19 755.43 24.38 98.29
128 17.43 1,248.19 29.45 168
256 11.27 1,794.88 44.85 236.65

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 27.3 25.65 7.74 7.69
2 25.7 48.3 8.21 14.49
4 23.48 88.27 8.96 26.48
8 20.09 150.57 10.52 45.17
16 14.89 223.85 14.1 67.15
32 10.97 330.1 19.1 99.03
64 8.8 386.54 32.06 115.96
128 8.82 386.74 62.04 116.02
256 8.82 375.21 119.99 112.56
O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 32.94 25.28 7.91 7.58
2 31.31 49.05 8.15 14.71
4 28.85 87.28 8.85 26.18
8 24.24 141.04 10.42 42.31
16 20.31 219.48 12.52 65.85
32 15.99 366.75 16.7 110.03
64 11.03 485.78 24.63 145.74
128 8.27 560.24 41.22 168.07
256 8.01 583.97 74.21 175.19