Cohere Command R+ 08-2024 (tp4)

Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024-tp4-64k (Cohere Command R+ 08-2024 (tp4)) hospedado em uma unidade Large Cohere de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo (RPS)
1	32.58	30	6.22	0.16
2	31.55	58.34	6.38	0.31
4	29.11	108.83	6.8	0.58
8	25.1	183.23	7.48	1.05
16	21.5	310.06	8.78	1.75
32	17.09	463.86	10.76	2.71
64	11.11	559.95	15.13	3.56
128	7.04	564.99	24.79	3.88
256	6.79	538.17	41.5	3.75

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	33.49	29.22	2.93	0.34
2	32.5	56.4	3.01	0.66
4	30.58	104.8	3.23	1.23
8	25.49	178.61	3.79	2.07
16	22.82	309.48	4.31	3.59
32	18.93	483.12	5.32	5.59
64	13.84	655.57	7.55	7.71
128	9.94	840.47	11.98	9.72
256	8.57	743.99	20.73	8.59

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	33.58	31.58	8.57	0.12
2	32.98	51.12	9.65	0.17
4	32	80.11	9.74	0.27
8	27.24	204.28	11.31	0.7
16	25.1	366.64	11.73	1.3
32	22.16	626.35	14.38	2.06
64	17.22	861.29	17.18	3.08
128	13.62	1,076.15	24.63	4.11
256	13.66	1,018.4	39.1	3.91

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	33.41	25.69	3.09	0.32
2	29.81	45.2	3.36	0.59
4	24.22	72.06	4.09	0.95
8	16.45	103.47	5.85	1.33
16	11.02	131.39	8.67	1.77
32	5.92	144.29	14.56	2.04
64	3.37	137.64	26.18	2.05
128	3.2	132.83	48.95	2.06
256	2.26	9.77	82.37	0.12

Documentação do Oracle Cloud Infrastructure

Cohere Command R+ 08-2024 (tp4)

Comprimento aleatório

Chat

Geração pesada

RAG