Meta Llama 3.1 (405B)

Revise os benchmarks de desempenho do modelo meta.llama-3.1-405b-instruct (Meta Llama 3.1 (405B)) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Clusters de IA dedicados para hospedar este modelo.
Verifique as métricas.

Importante

Você só pode hospedar o modelo meta.llama-3.1-405b-instruct em um cluster de IA dedicado do tipo Large Generic 2. Esse tipo se destina a fornecer melhor rendimento com menos hardware e um custo menor do que seu antecessor, Large Generic 4.

As tabelas a seguir fornecem benchmarks que foram executados para o modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 e em uma unidade Large Generic 4. Se o modelo estiver hospedado no tipo de cluster predecessor Grande Genérico 4, compare as tabelas a seguir para decidir se deseja hospedar o modelo nesta nova unidade.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	27.44	26.84	11.66	5.1
2	26.56	51.93	11.44	10.39
4	25.66	100.31	11.97	19.89
8	24.98	193.34	11.96	39.48
16	20.73	322.99	14.86	63.76
32	18.39	562.55	16.5	114.21
64	15.05	877.61	20.42	180.76
128	10.79	1,210.61	29.53	241.73
256	8.67	1,301.65	47.22	282.78

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	32.66	25.79	10.78	5.56
2	31.36	50.81	10.06	11.68
4	29.86	96.01	10.87	21.52
8	27.89	170.45	10.87	34.09
16	24.74	282.52	13.51	60.35
32	21.51	457.24	16.73	91.42
64	17.68	676.9	18.29	152.47
128	13.06	1,035.08	25.59	222.67
256	7.82	1,302.71	41.88	289.08

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	27.38	26.65	3.74	15.99
2	26.43	51.3	3.88	30.78
4	25.92	100.61	3.96	60.36
8	25.52	196.72	4.06	118.03
16	21.24	328.32	4.84	196.99
32	19.32	588.59	5.36	353.15
64	16.73	1,003.22	6.29	601.93
128	12.56	1,433.27	8.59	859.96
256	8.6	1,586.86	8.59	952.11

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	28.93	21.65	4.6	13.01
2	31.72	50.89	3.9	30.54
4	30.86	91.23	4.17	54.74
8	29.61	163.06	4.33	97.84
16	27.66	277.48	4.49	166.49
32	26.01	615.83	4.77	369.5
64	22.49	1,027.87	5.67	616.77
128	17.22	1,527.06	7.37	616.77
256	10.67	1,882.65	11.44	1,131.71

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	27.35	26.65	36.65	1.6
2	26.72	49.97	37.53	3
4	26.21	99.94	38.27	6
8	26.42	199.89	38	11.99
16	22.6	346.45	44.45	20.79
32	21.97	692.91	45.77	41.57
64	20.1	1,177.63	50.14	70.66
128	17.06	2,086.85	60.7	125.21
256	11.05	2,024.72	109.59	121.48

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	31.28	26.55	18.5	3.24
2	30.79	50.88	16.14	7.12
4	29.46	93.36	18.15	12.09
8	28.2	170.2	19.4	21.4
16	26.37	271.8	17.73	40.56
32	25.24	419.13	21.06	55.06
64	22.19	755.43	24.38	98.29
128	17.43	1,248.19	29.45	168
256	11.27	1,794.88	44.85	236.65

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	27.3	25.65	7.74	7.69
2	25.7	48.3	8.21	14.49
4	23.48	88.27	8.96	26.48
8	20.09	150.57	10.52	45.17
16	14.89	223.85	14.1	67.15
32	10.97	330.1	19.1	99.03
64	8.8	386.54	32.06	115.96
128	8.82	386.74	62.04	116.02
256	8.82	375.21	119.99	112.56

O modelo meta.llama-3.1-405b-instruct hospedado em uma unidade Large Generic 4 predecessora de um cluster de IA dedicado


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	32.94	25.28	7.91	7.58
2	31.31	49.05	8.15	14.71
4	28.85	87.28	8.85	26.18
8	24.24	141.04	10.42	42.31
16	20.31	219.48	12.52	65.85
32	15.99	366.75	16.7	110.03
64	11.03	485.78	24.63	145.74
128	8.27	560.24	41.22	168.07
256	8.01	583.97	74.21	175.19

Documentação do Oracle Cloud Infrastructure

Meta Llama 3.1 (405B)

Comprimento aleatório

Chat

Geração pesada

RAG