Cohere Command R 08-2024
Revise os benchmarks de desempenho do modelo cohere.command-r-08-2024
(Cohere Command R 08-2024) hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 66.43 52.84 2.68 0.37 2 64.11 105.8 3.01 0.66 4 59.66 198.97 3.27 1.2 8 53.36 357.07 3.62 2.16 16 44.39 583.18 3.88 3.92 32 35.61 906.21 5.03 5.81 64 24.01 1,073.21 6.86 7.67 128 15.89 1,034.44 12.18 7.96 256 16.24 1,052.12 19.47 8.19 - O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 77.29 69.62 3.89 0.26 2 76.36 138.03 4.03 0.49 4 73.69 266.03 4.03 0.98 8 70.41 505.38 4.33 1.8 16 63.38 888.54 4.57 3.33 32 55.54 1,540.69 5.83 5.14 64 42.29 2,201.45 6.93 8.12 128 28.35 2,496.73 10.5 9.7 256 28.69 2,394.67 18.04 9.02
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 67.4 46.63 1.58 0.63 2 65.55 90.56 1.59 1.24 4 61.38 173.89 1.71 2.31 8 55.53 317.1 1.81 4.32 16 49.01 555.54 2.03 7.49 32 41.59 843.26 2.53 11.59 64 29.63 1,231.41 3.31 16.86 128 19.64 1,340.32 5.57 18.54 256 20.1 1,313.56 9.41 17.91 - O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 76.4 59.84 1.61 0.62 2 75.94 118.12 1.62 1.22 4 75.32 233.5 1.64 2.41 8 73.41 450.63 1.69 4.65 16 70.81 835.46 1.76 8.64 32 66.82 1,407.97 1.95 14.53 64 58.49 2,320.21 2.42 23.97 128 46.58 2,866.51 3.35 29.55 256 42.43 3,057.44 5.26 31.58
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 67.35 54.93 2.82 0.35 2 65.72 106.49 2.96 0.67 4 62.54 205.55 2.99 1.32 8 57.08 361.81 2.99 2.56 16 51.99 668.26 3.44 4.41 32 44.49 1,060.46 3.79 7.52 64 35.05 1,633.24 4.89 11.02 128 25.59 1,676.8 7.09 13.5 256 26.23 1,609.94 11.96 12.5 - O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 76.15 77.02 4.62 0.23 2 78.71 151.85 12.97 0.15 4 77.94 296.54 13.07 0.3 8 76.05 587 13.41 0.59 16 73.99 1,132.69 13.81 1.14 32 69.18 2,085.87 14.88 2.1 64 60.54 3,520.34 17.26 3.55 128 47.76 5,511.72 22.13 5.56 256 47.14 5,432.58 36.85 5.48
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 65.07 48.27 2.62 0.38 2 59.6 89.68 2.84 0.7 4 50.85 156.94 3.23 1.22 8 40.68 247.23 4.06 1.93 16 28.73 351.66 5.6 2.76 32 18.19 425.94 8.82 3.37 64 9.78 440.59 15.46 3.61 128 5.86 392.06 29.1 3.55 256 6.13 425.79 48.52 3.47 - O modelo
cohere.command-r-08-2024
hospedado em uma unidade Small Cohere V2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 76.63 64.4 2.97 0.33 2 74.08 122.71 3.11 0.64 4 69.81 223.99 3.38 1.17 8 62.8 382.46 3.93 1.99 16 53.08 584.74 5.01 3.04 32 40.67 809.47 7.2 4.21 64 21.57 946.96 11.98 4.9 128 10.4 866.21 23.76 4.5 256 9.6 830.4 41.13 4.31