Cohere Command 52 B
Revise os benchmarks de desempenho do modelo cohere.command (Cohere Command 52 B) hospedado em uma unidade Large Cohere de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 36,32 | 31,29 | 8,15 | 7,12 |
| 8 | 30,15 | 106,03 | 13,19 | 23,86 |
| 32 | 23,94 | 204,41 | 23,9 | 45,84 |
| 128 | 14,36 | 254,54 | 65,26 | 56,58 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 34,98 | 28,85 | 3,21 | 17,3 |
| 8 | 29,51 | 119,83 | 5,34 | 71,62 |
| 32 | 27,44 | 293,58 | 5,91 | 177,09 |
| 128 | 25,56 | 482,88 | 6,67 | 291,95 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 35,78 | 33,43 | 10,98 | 5,33 |
| 8 | 31,41 | 99,67 | 13,87 | 16,61 |
| 32 | 28,49 | 237,1 | 19,48 | 40,24 |
| 128 | 23,01 | 326,93 | 53,13 | 54,89 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 33,13 | 25,28 | 6,68 | 8,62 |
| 8 | 23,24 | 90,64 | 13,29 | 29,84 |
| 32 | 13,03 | 163,48 | 26,56 | 54,21 |
| 128 | 5,6 | 186,31 | 65,3 | 61,32 |