Meta Llama 3.1 (70B)

Revise os benchmarks de desempenho do modelo meta.llama-3.1-70b-instruct (Meta Llama 3.1 (70B)) hospedado em uma unidade Large Generic de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	95.5	51.58	6.12	9.78
2	92.25	98.89	6.44	18.53
4	90.51	184.54	7.37	30.67
8	83.38	326.71	7.64	57.06
16	71.45	509.03	8.77	90.02
32	58.48	724.23	10	138.82
64	44.74	1,146.92	14.07	206.58
128	27	1,434.57	22.48	268.58
256	18.03	1,635.95	41.06	309.97

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	97.11	51.67	1.98	30.14
2	95.38	99.17	2.04	57.87
4	93.91	183.96	2.1	107.5
8	89.79	318.53	2.23	186.09
16	81.05	506.12	2.47	294.03
32	64.15	909.4	3.18	530.15
64	50.35	1,405.67	4.08	818.96
128	33.59	1,786.6	6.26	1,040.74
256	18.77	1,866.83	11.43	1,086.94

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	95.37	52.01	19.56	3.07
2	92.77	101.29	20.04	5.98
4	91.6	191.83	20.34	11.32
8	86.83	338.87	21.51	19.97
16	78.12	547.34	23.92	32.23
32	64.77	1,111.24	28.91	65.46
64	50.52	1,722.11	37.23	101.48
128	31.29	2,123.49	60.17	125.12
256	14.93	2,002.12	126.87	117.98

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	53.37	50.55	3.93	15.16
2	51.06	96.43	4.11	28.93
4	48.31	183.35	4.33	55.01
8	41.85	309.97	5.05	92.99
16	33.93	489.93	6.29	146.98
32	23.61	663.3	9.12	198.99
64	18.27	724.11	15.87	217.23
128	18.27	724.07	28.49	217.22
256	18.35	709.78	45.89	212.94

Documentação do Oracle Cloud Infrastructure

Meta Llama 3.1 (70B)

Comprimento aleatório

Chat

Geração pesada

RAG