Cohere Command Light 6 B
Revise os benchmarks de desempenho do modelo cohere.command-light (Cohere Command Light 6 B) hospedado em uma unidade Small Cohere de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 69,17 | 69,19 | 3,57 | 15,69 |
| 8 | 38,75 | 208,22 | 6,54 | 45,08 |
| 32 | 17,98 | 337,35 | 13,49 | 75,5 |
| 128 | 4,01 | 397,36 | 37,69 | 92,17 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 71,85 | 54,49 | 1,74 | 30,21 |
| 8 | 41,91 | 191,52 | 2,87 | 105,63 |
| 32 | 31,37 | 395,49 | 3,55 | 216,87 |
| 128 | 28,27 | 557,57 | 3,9 | 302,44 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 80,38 | 83,61 | 9,19 | 6,34 |
| 8 | 45,96 | 278,91 | 13,89 | 22,46 |
| 32 | 23,9 | 493,78 | 27,34 | 41,13 |
| 128 | 5,12 | 565,06 | 82,15 | 44,89 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 56,71 | 50,88 | 3,14 | 17,61 |
| 8 | 24,7 | 148,42 | 6,15 | 53,93 |
| 32 | 11,06 | 235,31 | 13,37 | 85,14 |
| 128 | 3,4 | 280,3 | 31,64 | 105,77 |