Cohere Command R
Revise os benchmarks de desempenho do modelo cohere.command-r-16k (Cohere Command R) hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 51,3 | 50,46 | 4,63 | 12,75 |
| 2 | 51,06 | 97,86 | 5,07 | 23,14 |
| 4 | 47,52 | 186,75 | 5,3 | 44,48 |
| 8 | 43,55 | 305,45 | 5,68 | 75,18 |
| 16 | 36,49 | 505,11 | 6,71 | 127,88 |
| 32 | 29,02 | 768,4 | 8,84 | 177,03 |
| 64 | 18,57 | 735,37 | 14,55 | 168 |
| 128 | 12,59 | 809,5 | 21,27 | 186,76 |
| 256 | 6,54 | 859,45 | 38,69 | 200,42 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 42,36 | 38,82 | 2,23 | 26,07 |
| 2 | 42,49 | 77,95 | 2,18 | 52,86 |
| 4 | 42,15 | 155,04 | 2,15 | 106,28 |
| 8 | 39,72 | 274,21 | 2,33 | 192,82 |
| 16 | 37,28 | 527,72 | 2,36 | 366,2 |
| 32 | 32,87 | 828,91 | 2,88 | 538,91 |
| 64 | 24,48 | 1.175,93 | 3,4 | 816 |
| 128 | 19,21 | 1.522,53 | 5,38 | 1.023,93 |
| 256 | 10,11 | 1.668,07 | 8,49 | 1.127,35 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 47,2 | 50,32 | 3,53 | 16,65 |
| 2 | 45,06 | 98,42 | 3,61 | 32,48 |
| 4 | 43,85 | 165,6 | 3,26 | 63,91 |
| 8 | 40,56 | 292,22 | 3,04 | 133,2 |
| 16 | 38,35 | 416,13 | 3,61 | 171,22 |
| 32 | 28,68 | 557,5 | 4,64 | 219,01 |
| 64 | 15,19 | 613,72 | 9,65 | 171,83 |
| 128 | 10,74 | 664,11 | 11,67 | 233,87 |
| 256 | 5,83 | 721,5 | 22,78 | 253,54 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 49,33 | 47,66 | 4,14 | 14,24 |
| 2 | 45,65 | 86,9 | 4,5 | 26,04 |
| 4 | 40,32 | 152,1 | 5,09 | 45,51 |
| 8 | 30,69 | 235,78 | 6,57 | 70,43 |
| 16 | 24,6 | 310,44 | 9,74 | 93,07 |
| 32 | 9,95 | 307,32 | 18,21 | 91,81 |
| 64 | 5,43 | 297,06 | 31,41 | 89,08 |
| 128 | 4,44 | 313,47 | 44,9 | 93,89 |
| 256 | 2,36 | 312,97 | 85,35 | 93,53 |