Cohere Command R+

Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2 de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	122.46	101.28	4.31	13.21
2	114.38	177.67	5.7	17.78
4	107.48	367.88	5.09	45.22
8	95.32	644.56	7.23	62.61
16	82.42	1,036.84	7.91	62.61
32	66.46	1,529.28	10.12	145.82
64	45.7	1,924.84	12.43	206.26
128	33.96	2,546.35	18.22	272.53
256	23.86	2,914.77	30.75	298.88

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	112.29	95.11	1.82	31.65
2	109.27	186.61	1.91	60.55
4	104.19	350.17	1.98	115.7
8	93.66	625.1	2.24	200.55
16	84.6	1,087.14	2.46	354.44
32	68.8	1,718.2	2.96	557.7
64	53.25	2,455.21	3.53	827.78
128	38.02	3,366.97	5.48	1,113.31
256	25.19	3,983.61	8.35	1,322.15

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	126.4	110.9	13.07	4.57
2	122.93	213.92	13.33	8.87
4	117.03	403.27	15.32	15.26
8	106.11	707.45	16.86	26.78
16	98.06	1,258.94	18.22	47.94
32	86.74	2,147.82	21.04	79.38
64	72.43	3,011.59	25.5	107.48
128	55.8	5,058.49	32.38	191.22
256	36.56	5,025.93	52.34	189.68

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	107.17	94.33	4.17	14.12
2	100.71	176.04	4.44	26.35
4	90.03	310.18	4.96	46.44
8	70.71	493.3	6.26	73.86
16	53.45	716.66	8.2	108.07
32	35.6	929.63	12.22	139.13
64	21.75	1,150.16	18.41	172.14
128	17.99	1,209.36	31.93	181.05
256	9.19	1,213.82	53.31	181.7

Documentação do Oracle Cloud Infrastructure

Cohere Command R+

Comprimento aleatório

Chat

Geração pesada

RAG