Cohere Command Light 6 B

Revise os benchmarks de desempenho do modelo cohere.command-light (Cohere Command Light 6 B) hospedado em uma unidade Small Cohere de um cluster de IA dedicado na OCI Generative AI.

- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	69,17	69,19	3,57	15,69
8	38,75	208,22	6,54	45,08
32	17,98	337,35	13,49	75,5
128	4,01	397,36	37,69	92,17

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	71,85	54,49	1,74	30,21
8	41,91	191,52	2,87	105,63
32	31,37	395,49	3,55	216,87
128	28,27	557,57	3,9	302,44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	80,38	83,61	9,19	6,34
8	45,96	278,91	13,89	22,46
32	23,9	493,78	27,34	41,13
128	5,12	565,06	82,15	44,89

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	56,71	50,88	3,14	17,61
8	24,7	148,42	6,15	53,93
32	11,06	235,31	13,37	85,14
128	3,4	280,3	31,64	105,77

Documentação do Oracle Cloud Infrastructure

Cohere Command Light 6 B

Comprimento aleatório

Chat

Geração pesada

RAG