Meta Llama 3.3 (70B)

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,05	58,64	58,02	5,19	0,19	143,72
2	0,06	57,98	114,84	5,34	0,37	286,52
4	0,06	56,74	224,06	5,29	0,75	574,6
8	0,07	54,74	425,3	5,44	1,44	1.086,78
16	0,09	50,89	775,13	5,94	2,59	1.999,12
32	0,16	44,32	1.296,53	6,59	4,53	3.456,77
64	0,4	35,74	1.914,2	8,52	6,58	5.132,42
128	1,29	25,6	2.314,73	11,93	8,49	6.334,64
256	4,09	15,27	1.976,65	20,16	8,09	5.691,5

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,05	71,89	70,69	4,24	0,23	181,67
2	0,05	71,98	141,95	4,15	0,48	365,92
4	0,05	69,95	275,7	4,36	0,91	707,8
8	0,05	67,52	531,75	4,57	1,74	1.327,51
16	0,06	62,77	982,23	4,99	3,17	2.475,3
32	0,09	52,94	1.639,05	5,74	5,47	4.294,03
64	0,16	42,07	2.522,18	7,24	8,49	6.564,64
128	0,47	28,89	3.274,75	10,69	11,11	8.678,22
256	1,42	16,84	3.407,77	18,21	12,07	9.006,65

O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,16	48,04	46,17	6,7	8,79	111,27
2	0,17	47,6	92,31	6,35	18,78	234,74
4	0,19	44,98	173,37	7,1	33,47	455,1
8	0,19	41,03	316,43	7,62	62,35	795,71
16	0,22	33,54	514,93	8,85	107,34	1.365,97
32	0,29	24,98	759,52	12,4	151,9	1.939,62
64	0,64	16,78	984,11	18,71	197,12	2.554,59
128	1,7	9,84	1.099,59	31,4	226,32	2.846,33
256	17,22	6,88	1.094,51	59,29	226,27	2.874,42

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,03	58,84	58,33	1,71	0,58	113,87
2	0,04	58,51	115,31	1,73	1,15	225,2
4	0,05	57,7	225,43	1,77	2,25	440,2
8	0,08	56,45	429,3	1,83	4,29	839,09
16	0,09	53,98	820,89	1,92	8,21	1.602,31
32	0,17	49,8	1.453,58	2,16	14,54	2.839,35
64	0,31	44,96	2.457,59	2,51	24,58	4.800,51
128	0,63	36,7	3.484,65	3,34	34,85	6.797,06
256	1,33	24,95	3.137,39	5,34	31,37	6.131,39

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,02	70,87	70,46	1,42	0,7	137,38
2	0,03	71,03	139,91	1,42	1,4	272,93
4	0,03	69,9	275,32	1,45	2,75	537,34
8	0,05	68,57	532,09	1,49	5,32	1.039,21
16	0,06	65,47	1.000,33	1,58	10	1.952,54
32	0,13	59,57	1.762,88	1,79	17,63	3.442,56
64	0,21	52,5	2.933,83	2,1	29,34	5.729,27
128	0,52	43,1	4.243,57	2,84	42,44	8.285,42
256	1,06	27,89	5.129,28	4,65	51,29	10.008,78

O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,08	48,06	46,46	2,14	27,88	90,59
2	0,08	47,76	92,6	2,15	55,56	180,97
4	0,11	46,29	177,34	2,25	106,4	346,25
8	0,1	41,94	323,36	2,46	194,02	630,83
16	0,23	37,87	556,47	2,85	333,88	1.086,1
32	0,35	29,6	852,79	3,7	511,68	1.664,38
64	0,48	20,76	1.191,76	5,25	715,06	2.325,16
128	0,79	12,25	1.378,27	8,87	826,96	2.691
256	3,23	7,21	1.342,09	16,97	805,25	2.620,44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,03	58,67	58,3	17,06	0,06	63,82
2	0,04	58,32	113,26	17,17	0,11	124,07
4	0,05	57,67	226,53	17,38	0,23	248,17
8	0,08	56,64	439,73	17,72	0,44	481,54
16	0,14	54,48	863,09	18,48	0,86	945,33
32	0,15	50,83	1.529,11	19,8	1,53	1.674,84
64	0,26	47,1	2.960,77	21,47	2,96	3.242,25
128	0,59	39,95	4.332,27	25,6	4,33	4.743,64
256	1,37	28,47	4.197,95	36,47	4,2	4.597,71

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,02	71,7	71,62	13,95	0,07	78,45
2	0,03	71,85	143,25	13,93	0,14	156,92
4	0,04	70,78	279,83	14,15	0,28	306,47
8	0,06	69,8	546,34	14,37	0,55	598,4
16	0,08	67,47	1.066,03	14,88	1,07	1.167,35
32	0,13	62,06	1.931,09	16,23	1,93	2.115
64	0,28	56,97	3.575,74	17,82	3,58	3.915,91
128	0,49	47,49	5.876,91	21,53	5,88	6.436,45
256	1,1	31,5	7.660,84	32,82	7,66	8.389,08

O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,08	48,04	46,63	20,87	2,8	51,07
2	0,09	48,43	93,27	20,72	5,6	102,15
4	0,13	47,35	186,54	21,22	11,19	204,3
8	0,17	45,78	359,64	21,99	21,58	393,9
16	0,31	42	639,44	24,1	38,37	700,29
32	0,38	35,04	1.065,59	28,89	63,94	1.167,2
64	0,48	27,7	1.719,72	36,55	103,18	1.883,3
128	0,84	18,49	2.279,01	54,86	136,74	2.496,1
256	12,49	10,14	1.923,79	112,88	115,43	2.106,78

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,15	58,36	55,63	3,56	0,28	600,44
2	0,21	57,01	107,46	3,7	0,54	1.160,14
4	0,43	55,58	197,86	4,02	0,99	2.135,93
8	0,76	51,24	339,08	4,67	1,7	3.659,93
16	1,17	41,9	528,08	5,97	2,64	5.701,12
32	1,77	29,93	740,37	8,52	3,7	7.992,66
64	2,39	17,06	831,99	14,07	4,16	8.980,85
128	5,24	9,28	793,96	26,69	3,97	8.570,79
256	18,88	5,36	668,72	56,04	3,34	7.219,15

O modelo meta.llama-3.3-70b-instruct hospedado em uma unidade Large Generic de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,14	72,03	68,29	2,9	0,34	737,19
2	0,21	70,65	131,24	3,03	0,66	1.416,72
4	0,42	68,48	238,49	3,34	1,19	2.574,37
8	0,74	62,7	402,85	3,94	2,01	4.348,39
16	1,19	50,86	615,7	5,15	3,08	6.646,93
32	1,5	32,62	821,95	7,64	4,11	8.873,44
64	1,79	18,54	989,99	12,53	4,95	10.686,14
128	2,7	9,82	1.054,49	22,96	5,27	11.384,1
256	5,92	4,91	995,45	46,42	4,98	10.745,88

O modelo meta.llama-3.3-70b-instruct-fp8-dynamic hospedado em uma unidade LARGE_GENERIC_V1 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)	Throughput Total (tokens/segundo)
1	0,61	47,82	41,63	4,77	12,49	449,51
2	0,71	44,86	76,59	5,15	22,98	826,74
4	0,81	37,37	129,16	6,14	38,75	1.394,37
8	0,88	27,43	194,45	8,13	58,33	2.099,01
16	1,02	17,67	256,65	12,28	77	2.770,52
32	1,24	10,19	302,47	20,76	90,74	3.265,01
64	10,99	7,16	318,93	38,77	95,68	3.443,02
128	47,31	7,16	318,49	75,1	95,55	3.438,12
256	117,96	7,16	305,59	145,75	91,68	3.299,34

Documentação do Oracle Cloud Infrastructure

Meta Llama 3.3 (70B)

Comprimento aleatório

Chat

Geração pesada

RAG