Meta Llama 3.1 (405B)
Revise os benchmarks de desempenho do modelo meta.llama-3.1-405b-instruct
(Meta Llama 3.1 (405B)) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.
- Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Clusters de IA dedicados para hospedar este modelo.
- Verifique as métricas.
Você só pode hospedar o modelo meta.llama-3.1-405b-instruct
em um cluster de IA dedicado do tipo Large Generic 2. Esse tipo se destina a fornecer melhor rendimento com menos hardware e um custo menor do que seu antecessor, Large Generic 4.
As tabelas a seguir fornecem benchmarks que foram executados para o modelo meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 2 e em uma unidade Large Generic 4. Se o modelo estiver hospedado no tipo de cluster predecessor Grande Genérico 4, compare as tabelas a seguir para decidir se deseja hospedar o modelo nesta nova unidade.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27.44 26.84 11.66 5.1 2 26.56 51.93 11.44 10.39 4 25.66 100.31 11.97 19.89 8 24.98 193.34 11.96 39.48 16 20.73 322.99 14.86 63.76 32 18.39 562.55 16.5 114.21 64 15.05 877.61 20.42 180.76 128 10.79 1,210.61 29.53 241.73 256 8.67 1,301.65 47.22 282.78 - O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 32.66 25.79 10.78 5.56 2 31.36 50.81 10.06 11.68 4 29.86 96.01 10.87 21.52 8 27.89 170.45 10.87 34.09 16 24.74 282.52 13.51 60.35 32 21.51 457.24 16.73 91.42 64 17.68 676.9 18.29 152.47 128 13.06 1,035.08 25.59 222.67 256 7.82 1,302.71 41.88 289.08
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27.38 26.65 3.74 15.99 2 26.43 51.3 3.88 30.78 4 25.92 100.61 3.96 60.36 8 25.52 196.72 4.06 118.03 16 21.24 328.32 4.84 196.99 32 19.32 588.59 5.36 353.15 64 16.73 1,003.22 6.29 601.93 128 12.56 1,433.27 8.59 859.96 256 8.6 1,586.86 8.59 952.11 - O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 28.93 21.65 4.6 13.01 2 31.72 50.89 3.9 30.54 4 30.86 91.23 4.17 54.74 8 29.61 163.06 4.33 97.84 16 27.66 277.48 4.49 166.49 32 26.01 615.83 4.77 369.5 64 22.49 1,027.87 5.67 616.77 128 17.22 1,527.06 7.37 616.77 256 10.67 1,882.65 11.44 1,131.71
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27.35 26.65 36.65 1.6 2 26.72 49.97 37.53 3 4 26.21 99.94 38.27 6 8 26.42 199.89 38 11.99 16 22.6 346.45 44.45 20.79 32 21.97 692.91 45.77 41.57 64 20.1 1,177.63 50.14 70.66 128 17.06 2,086.85 60.7 125.21 256 11.05 2,024.72 109.59 121.48 - O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 31.28 26.55 18.5 3.24 2 30.79 50.88 16.14 7.12 4 29.46 93.36 18.15 12.09 8 28.2 170.2 19.4 21.4 16 26.37 271.8 17.73 40.56 32 25.24 419.13 21.06 55.06 64 22.19 755.43 24.38 98.29 128 17.43 1,248.19 29.45 168 256 11.27 1,794.88 44.85 236.65
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27.3 25.65 7.74 7.69 2 25.7 48.3 8.21 14.49 4 23.48 88.27 8.96 26.48 8 20.09 150.57 10.52 45.17 16 14.89 223.85 14.1 67.15 32 10.97 330.1 19.1 99.03 64 8.8 386.54 32.06 115.96 128 8.82 386.74 62.04 116.02 256 8.82 375.21 119.99 112.56 - O modelo
meta.llama-3.1-405b-instruct
hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 32.94 25.28 7.91 7.58 2 31.31 49.05 8.15 14.71 4 28.85 87.28 8.85 26.18 8 24.24 141.04 10.42 42.31 16 20.31 219.48 12.52 65.85 32 15.99 366.75 16.7 110.03 64 11.03 485.78 24.63 145.74 128 8.27 560.24 41.22 168.07 256 8.01 583.97 74.21 175.19