Cohere Command R+
Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2 de um cluster de IA dedicado na OCI Generative AI.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 122,46 | 101,28 | 4,31 | 13,21 |
| 2 | 114,38 | 177,67 | 5,7 | 17,78 |
| 4 | 107,48 | 367,88 | 5,09 | 45,22 |
| 8 | 95,32 | 644,56 | 7,23 | 62,61 |
| 16 | 82,42 | 1.036,84 | 7,91 | 62,61 |
| 32 | 66,46 | 1.529,28 | 10,12 | 145,82 |
| 64 | 45,7 | 1.924,84 | 12,43 | 206,26 |
| 128 | 33,96 | 2.546,35 | 18,22 | 272,53 |
| 256 | 23,86 | 2.914,77 | 30,75 | 298,88 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 112,29 | 95,11 | 1,82 | 31,65 |
| 2 | 109,27 | 186,61 | 1,91 | 60,55 |
| 4 | 104,19 | 350,17 | 1,98 | 115,7 |
| 8 | 93,66 | 625,1 | 2,24 | 200,55 |
| 16 | 84,6 | 1.087,14 | 2,46 | 354,44 |
| 32 | 68,8 | 1.718,2 | 2,96 | 557,7 |
| 64 | 53,25 | 2.455,21 | 3,53 | 827,78 |
| 128 | 38,02 | 3.366,97 | 5,48 | 1.113,31 |
| 256 | 25,19 | 3.983,61 | 8,35 | 1.322,15 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 126,4 | 110,9 | 13,07 | 4,57 |
| 2 | 122,93 | 213,92 | 13,33 | 8,87 |
| 4 | 117,03 | 403,27 | 15,32 | 15,26 |
| 8 | 106,11 | 707,45 | 16,86 | 26,78 |
| 16 | 98,06 | 1.258,94 | 18,22 | 47,94 |
| 32 | 86,74 | 2.147,82 | 21,04 | 79,38 |
| 64 | 72,43 | 3.011,59 | 25,5 | 107,48 |
| 128 | 55,8 | 5.058,49 | 32,38 | 191,22 |
| 256 | 36,56 | 5.025,93 | 52,34 | 189,68 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
| Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
|---|---|---|---|---|
| 1 | 107,17 | 94,33 | 4,17 | 14,12 |
| 2 | 100,71 | 176,04 | 4,44 | 26,35 |
| 4 | 90,03 | 310,18 | 4,96 | 46,44 |
| 8 | 70,71 | 493,3 | 6,26 | 73,86 |
| 16 | 53,45 | 716,66 | 8,2 | 108,07 |
| 32 | 35,6 | 929,63 | 12,22 | 139,13 |
| 64 | 21,75 | 1.150,16 | 18,41 | 172,14 |
| 128 | 17,99 | 1.209,36 | 31,93 | 181,05 |
| 256 | 9,19 | 1.213,82 | 53,31 | 181,7 |