Meta Llama 3.3 (70B)

Revise os benchmarks de desempenho do modelo Meta Llama 3.3 (70B):

  • meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões disponíveis, exceto para UAE East (Dubai)
  • meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado somente para a região UAE East (Dubai)
  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,05 58,64 58,02 5,19 0,19 143,72
2 0,06 57,98 114,84 5,34 0,37 286,52
4 0,06 56,74 224,06 5,29 0,75 574,6
8 0,07 54,74 425,3 5,44 1,44 1.086,78
16 0,09 50,89 775,13 5,94 2,59 1.999,12
32 0,16 44,32 1.296,53 6,59 4,53 3.456,77
64 0,4 35,74 1.914,2 8,52 6,58 5.132,42
128 1,29 25,6 2.314,73 11,93 8,49 6.334,64
256 4,09 15,27 1.976,65 20,16 8,09 5.691,5
O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,05 71,89 70,69 4,24 0,23 181,67
2 0,05 71,98 141,95 4.15 0,48 365,92
4 0,05 69,95 275,7 4,36 0,91 707,8
8 0,05 67,52 531,75 4,57 1,74 1.327,51
16 0,06 62,77 982,23 4,99 3,17 2.475,3
32 0,09 52,94 1.639,05 5,74 5,47 4.294,03
64 0,16 42,07 2.522,18 7,24 8,49 6.564,64
128 0,47 28,89 3.274,75 10,69 11,11 8.678,22
256 1,42 16,84 3.407,77 18,21 12,07 9.006,65
O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,16 48,04 46,17 6,7 8,79 111,27
2 0,17 47,6 92,31 6,35 18,78 234,74
4 0,19 44,98 173,37 7,1 33,47 455,1
8 0,19 41,03 316,43 7,62 62,35 795,71
16 0,22 33,54 514,93 8,85 107,34 1.365,97
32 0,29 24,98 759,52 12,4 151,9 1.939,62
64 0,64 16,78 984,11 18,71 197,12 2.554,59
128 1,7 9,84 1.099,59 31,4 226,32 2.846,33
256 17,22 6,88 1.094,51 59,29 226,27 2.874,42

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,03 58,84 58,33 1,71 0,58 113,87
2 0,04 58,51 115,31 1,73 1,15 225,2
4 0,05 57,7 225,43 1,77 2,25 440,2
8 0,08 56,45 429,3 1,83 4,29 839,09
16 0,09 53,98 820,89 1,92 8,21 1.602,31
32 0,17 49,8 1.453,58 2,16 14,54 2.839,35
64 0,31 44,96 2.457,59 2,51 24,58 4.800,51
128 0,63 36,7 3.484,65 3,34 34,85 6.797,06
256 1,33 24,95 3.137,39 5,34 31,37 6.131,39
O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,02 70,87 70,46 1,42 0,7 137,38
2 0,03 71,03 139,91 1,42 1,4 272,93
4 0,03 69,9 275,32 1,45 2,75 537,34
8 0,05 68,57 532,09 1,49 5,32 1.039,21
16 0,06 65,47 1.000,33 1,58 10 1.952,54
32 0,13 59,57 1.762,88 1,79 17,63 3.442,56
64 0,21 52,5 2.933,83 2,1 29,34 5.729,27
128 0,52 43,1 4.243,57 2,84 42,44 8.285,42
256 1,06 27,89 5.129,28 4,65 51,29 10.008,78
O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,08 48,06 46,46 2,14 27,88 90,59
2 0,08 47,76 92,6 2,15 55,56 180,97
4 0,11 46,29 177,34 2,25 106,4 346,25
8 0,1 41,94 323,36 2.46 194,02 630,83
16 0,23 37,87 556,47 2,85 333,88 1.086,1
32 0,35 29,6 852,79 3,7 511,68 1.664,38
64 0,48 20,76 1.191,76 5,25 715,06 2.325,16
128 0,79 12,25 1.378,27 8,87 826,96 2.691
256 3,23 7.21 1.342,09 16,97 805,25 2.620,44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,03 58,67 58,3 17,06 0,06 63,82
2 0,04 58,32 113,26 17,17 0,11 124,07
4 0,05 57,67 226,53 17,38 0,23 248,17
8 0,08 56,64 439,73 17,72 0,44 481,54
16 0,14 54,48 863,09 18,48 0,86 945,33
32 0,15 50,83 1.529,11 19,8 1,53 1.674,84
64 0,26 47,1 2.960,77 21,47 2,96 3.242,25
128 0,59 39,95 4.332,27 25,6 4.33 4.743,64
256 1,37 28,47 4.197,95 36,47 4,2 4.597,71
O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,02 71,7 71,62 13,95 0,07 78,45
2 0,03 71,85 143,25 13,93 0,14 156,92
4 0,04 70,78 279,83 14,15 0,28 306,47
8 0,06 69,8 546,34 14,37 0,55 598,4
16 0,08 67,47 1.066,03 14,88 1,07 1.167,35
32 0,13 62,06 1.931,09 16,23 1.93 2.115
64 0,28 56,97 3.575,74 17,82 3,58 3.915,91
128 0,49 47,49 5.876,91 21,53 5,88 6.436,45
256 1,1 31,5 7.660,84 32,82 7,66 8.389,08
O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,08 48,04 46,63 20,87 2,8 51,07
2 0,09 48,43 93,27 20,72 5,6 102,15
4 0,13 47,35 186,54 21,22 11,19 204,3
8 0,17 45,78 359,64 21,99 21,58 393,9
16 0,31 42 639,44 24,1 38,37 700,29
32 0,38 35,04 1.065,59 28,89 63,94 1.167,2
64 0,48 27,7 1.719,72 36,55 103,18 1.883,3
128 0,84 18,49 2.279,01 54,86 136,74 2.496,1
256 12,49 10,14 1.923,79 112,88 115,43 2.106,78

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,15 58,36 55,63 3,56 0,28 600,44
2 0,21 57,01 107,46 3,7 0,54 1.160,14
4 0,43 55,58 197,86 4,02 0,99 2.135,93
8 0,76 51,24 339,08 4,67 1,7 3.659,93
16 1,17 41,9 528,08 5,97 2,64 5.701,12
32 1,77 29,93 740,37 8,52 3,7 7.992,66
64 2,39 17,06 831,99 14,07 4,16 8.980,85
128 5,24 9,28 793,96 26,69 3,97 8.570,79
256 18,88 5,36 668,72 56,04 3,34 7.219,15
O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,14 72,03 68,29 2.9 0,34 737,19
2 0,21 70,65 131,24 3,03 0,66 1.416,72
4 0,42 68,48 238,49 3,34 1,19 2.574,37
8 0,74 62,7 402,85 3,94 2,01 4.348,39
16 1,19 50,86 615,7 5,15 3,08 6.646,93
32 1,5 32,62 821,95 7,64 4.11 8.873,44
64 1,79 18,54 989,99 12,53 4,95 10.686,14
128 2,7 9,82 1.054,49 22,96 5,27 11.384,1
256 5,92 4,91 995,45 46,42 4,98 10.745,88
O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM) Throughput Total (tokens/segundo)
1 0,61 47,82 41,63 4,77 12,49 449,51
2 0,71 44,86 76,59 5,15 22,98 826,74
4 0,81 37,37 129,16 6,14 38,75 1.394,37
8 0,88 27,43 194,45 8,13 58,33 2.099,01
16 1,02 17,67 256,65 12,28 77 2.770,52
32 1,24 10,19 302,47 20,76 90,74 3.265,01
64 10,99 7,16 318,93 38,77 95,68 3.443,02
128 47,31 7,16 318,49 75,1 95,55 3.438,12
256 117,96 7,16 305,59 145,75 91,68 3.299,34