Cohere Command R+ 08-2024 (tp4)
Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024-tp4-64k (Cohere Command R+ 08-2024 (tp4)) hospedado em uma unidade Large Cohere de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo (RPS) |
|---|---|---|---|---|
| 1 | 32,58 | 30 | 6,22 | 0,16 |
| 2 | 31,55 | 58,34 | 6,38 | 0,31 |
| 4 | 29,11 | 108,83 | 6,8 | 0,58 |
| 8 | 25,1 | 183,23 | 7,48 | 1,05 |
| 16 | 21,5 | 310,06 | 8,78 | 1,75 |
| 32 | 17,09 | 463,86 | 10,76 | 2,71 |
| 64 | 11,11 | 559,95 | 15,13 | 3,56 |
| 128 | 7,04 | 564,99 | 24,79 | 3,88 |
| 256 | 6,79 | 538,17 | 41,5 | 3,75 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 33,49 | 29,22 | 2,93 | 0,34 |
| 2 | 32,5 | 56,4 | 3,01 | 0,66 |
| 4 | 30,58 | 104,8 | 3,23 | 1,23 |
| 8 | 25,49 | 178,61 | 3,79 | 2,07 |
| 16 | 22,82 | 309,48 | 4,31 | 3,59 |
| 32 | 18,93 | 483,12 | 5,32 | 5,59 |
| 64 | 13,84 | 655,57 | 7,55 | 7,71 |
| 128 | 9,94 | 840,47 | 11,98 | 9,72 |
| 256 | 8,57 | 743,99 | 20,73 | 8,59 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 33,58 | 31,58 | 8,57 | 0,12 |
| 2 | 32,98 | 51,12 | 9,65 | 0,17 |
| 4 | 32 | 80,11 | 9,74 | 0,27 |
| 8 | 27,24 | 204,28 | 11,31 | 0,7 |
| 16 | 25,1 | 366,64 | 11,73 | 1,3 |
| 32 | 22,16 | 626,35 | 14,38 | 2,06 |
| 64 | 17,22 | 861,29 | 17,18 | 3,08 |
| 128 | 13,62 | 1.076,15 | 24,63 | 4,11 |
| 256 | 13,66 | 1.018,4 | 39,1 | 3,91 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|---|
| 1 | 33,41 | 25,69 | 3,09 | 0,32 |
| 2 | 29,81 | 45,2 | 3,36 | 0,59 |
| 4 | 24,22 | 72,06 | 4,09 | 0,95 |
| 8 | 16,45 | 103,47 | 5,85 | 1,33 |
| 16 | 11,02 | 131,39 | 8,67 | 1,77 |
| 32 | 5,92 | 144,29 | 14,56 | 2,04 |
| 64 | 3,37 | 137,64 | 26,18 | 2,05 |
| 128 | 3,2 | 132,83 | 48,95 | 2,06 |
| 256 | 2,26 | 9,77 | 82,37 | 0,12 |