Meta Llama 3.1 (405B)
Revise os benchmarks de desempenho do modelo meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B)) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Você só pode hospedar o modelo meta.llama-3.1-405b-instruct em um cluster de IA dedicado do tipo Large Generic 2. Esse tipo se destina a fornecer melhor rendimento com menos hardware e um custo menor do que seu antecessor, Large Generic 4.
As tabelas a seguir fornecem benchmarks que foram executados para o modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 e em uma unidade Large Generic 4. Se o modelo estiver hospedado no tipo de cluster predecessor Grande Genérico 4, compare as tabelas a seguir para decidir se deseja hospedar o modelo nesta nova unidade.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27,44 26,84 11,66 5,1 2 26,56 51,93 11,44 10,39 4 25,66 100,31 11,97 19,89 8 24,98 193,34 11,96 39,48 16 20,73 322,99 14,86 63,76 32 18,39 562,55 16,5 114,21 64 15,05 877,61 20,42 180,76 128 10,79 1.210,61 29,53 241,73 256 8,67 1.301,65 47,22 282,78 - O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 32,66 25,79 10,78 5,56 2 31,36 50,81 10,06 11,68 4 29,86 96,01 10,87 21,52 8 27,89 170,45 10,87 34,09 16 24,74 282,52 13,51 60,35 32 21,51 457,24 16,73 91,42 64 17,68 676,9 18,29 152,47 128 13,06 1.035,08 25,59 222,67 256 7,82 1.302,71 41,88 289,08
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27,38 26,65 3,74 15,99 2 26,43 51,3 3,88 30,78 4 25,92 100,61 3,96 60,36 8 25,52 196,72 4,06 118,03 16 21,24 328,32 4,84 196,99 32 19,32 588,59 5,36 353,15 64 16,73 1.003,22 6,29 601,93 128 12,56 1.433,27 8,59 859,96 256 8,6 1.586,86 8,59 952,11 - O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 28,93 21,65 4,6 13,01 2 31,72 50,89 3,9 30,54 4 30,86 91,23 4,17 54,74 8 29,61 163,06 4,33 97,84 16 27,66 277,48 4,49 166,49 32 26,01 615,83 4,77 369,5 64 22,49 1.027,87 5,67 616,77 128 17,22 1.527,06 7,37 616,77 256 10,67 1.882,65 11,44 1.131,71
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27,35 26,65 36,65 1,6 2 26,72 49,97 37,53 3 4 26,21 99,94 38,27 6 8 26,42 199,89 38 11,99 16 22,6 346,45 44,45 20,79 32 21,97 692,91 45,77 41,57 64 20,1 1.177,63 50,14 70,66 128 17,06 2.086,85 60,7 125,21 256 11,05 2.024,72 109,59 121,48 - O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 31,28 26,55 18,5 3,24 2 30,79 50,88 16,14 7,12 4 29,46 93,36 18,15 12,09 8 28,2 170,2 19,4 21,4 16 26,37 271,8 17,73 40,56 32 25,24 419,13 21,06 55,06 64 22,19 755,43 24,38 98,29 128 17,43 1.248,19 29,45 168 256 11,27 1.794,88 44,85 236,65
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 2 de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 27,3 25,65 7,74 7,69 2 25,7 48,3 8,21 14,49 4 23,48 88,27 8,96 26,48 8 20,09 150,57 10,52 45,17 16 14,89 223,85 14,1 67,15 32 10,97 330,1 19,1 99,03 64 8,8 386,54 32,06 115,96 128 8,82 386,74 62,04 116,02 256 8,82 375,21 119,99 112,56 - O modelo
meta.llama-3.1-405b-instructhospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) 1 32,94 25,28 7,91 7,58 2 31,31 49,05 8,15 14,71 4 28,85 87,28 8,85 26,18 8 24,24 141,04 10,42 42,31 16 20,31 219,48 12,52 65,85 32 15,99 366,75 16,7 110,03 64 11,03 485,78 24,63 145,74 128 8,27 560,24 41,22 168,07 256 8,01 583,97 74,21 175,19