Cohere Command Light 6 B

Revise os benchmarks de desempenho do modelo cohere.command-light (Cohere Command Light 6 B) hospedado em uma unidade Small Cohere de um cluster de IA dedicado na OCI Generative AI.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 69,17 69,19 3,57 15,69
8 38,75 208,22 6,54 45,08
32 17,98 337,35 13,49 75,5
128 4,01 397,36 37,69 92,17

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 71,85 54,49 1,74 30,21
8 41,91 191,52 2,87 105,63
32 31,37 395,49 3,55 216,87
128 28,27 557,57 3,9 302,44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 80,38 83,61 9,19 6,34
8 45,96 278,91 13,89 22,46
32 23,9 493,78 27,34 41,13
128 5,12 565,06 82,15 44,89

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 56,71 50,88 3,14 17,61
8 24,7 148,42 6,15 53,93
32 11,06 235,31 13,37 85,14
128 3,4 280,3 31,64 105,77