Cohere Command R

Revise os benchmarks de desempenho do modelo cohere.command-r-16k (Cohere Command R) hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Tamanho da unidade de cluster de IA dedicado para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	51.3	50.46	4.63	12.75
2	51.06	97.86	5.07	23.14
4	47.52	186.75	5.3	44.48
8	43.55	305.45	5.68	75.18
16	36.49	505.11	6.71	127.88
32	29.02	768.4	8.84	177.03
64	18.57	735.37	14.55	168
128	12.59	809.5	21.27	186.76
256	6.54	859.45	38.69	200.42

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	42.36	38.82	2.23	26.07
2	42.49	77.95	2.18	52.86
4	42.15	155.04	2.15	106.28
8	39.72	274.21	2.33	192.82
16	37.28	527.72	2.36	366.2
32	32.87	828.91	2.88	538.91
64	24.48	1,175.93	3.4	816
128	19.21	1,522.53	5.38	1,023.93
256	10.11	1,668.07	8.49	1,127.35

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	47.2	50.32	3.53	16.65
2	45.06	98.42	3.61	32.48
4	43.85	165.6	3.26	63.91
8	40.56	292.22	3.04	133.2
16	38.35	416.13	3.61	171.22
32	28.68	557.5	4.64	219.01
64	15.19	613.72	9.65	171.83
128	10.74	664.11	11.67	233.87
256	5.83	721.5	22.78	253.54

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	49.33	47.66	4.14	14.24
2	45.65	86.9	4.5	26.04
4	40.32	152.1	5.09	45.51
8	30.69	235.78	6.57	70.43
16	24.6	310.44	9.74	93.07
32	9.95	307.32	18.21	91.81
64	5.43	297.06	31.41	89.08
128	4.44	313.47	44.9	93.89
256	2.36	312.97	85.35	93.53

Documentação do Oracle Cloud Infrastructure

Cohere Command R

Comprimento aleatório

Chat

Geração pesada

RAG