Cohere Command R+ 08-2024
Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo (RPS) 1 59.4 51.39 3.97 0.25 2 56.82 99.37 4.07 0.49 4 53.54 187.3 4.29 0.92 8 45.14 321.74 4.98 1.57 16 37.45 527.84 6.06 2.52 32 31.06 835.95 7.05 4.17 64 21.23 1,013.92 9.91 5.36 128 12.27 1,013.5 15.17 6.28 256 11.97 711.27 41.84 4.49 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 68.26 57.04 4.56 0.22 2 66.98 113.61 4.65 0.43 4 63.73 217.25 4.94 0.8 8 59.32 403.93 5.15 1.53 16 54.51 737.83 5.63 2.75 32 45.65 1,213.09 6.57 4.55 64 35.81 1,791.62 8.42 6.71 128 24.2 2,030.12 11.87 8.22 256 23.53 2,064.19 19.82 8.42
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 59.64 44.86 1.99 0.5 2 57.81 87.16 2.02 0.98 4 54.31 164.73 2.12 1.86 8 46.73 290.36 2.43 3.22 16 40.77 496.24 2.76 5.52 32 34.74 786.28 3.53 8.77 64 25.08 1,074.45 4.57 12.13 128 17.46 1,402.86 7.15 15.58 256 14.68 1,321.52 12.48 14.82 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 69.01 47.06 1.97 0.5 2 67.99 92.76 1.99 1 4 66.71 182.12 2.03 1.95 8 64.71 345.04 2.09 3.7 16 61.79 658.79 2.19 7.06 32 57.74 1,196.06 2.37 12.79 64 50.01 1,861.32 2.86 19.97 128 37.88 2,266.4 4 24.28 256 35.73 2,753.63 6.15 29.5
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 58.51 48.56 4.08 0.24 2 55.59 91.08 4.35 0.46 4 51.26 162.12 4.87 0.81 8 42.35 251.89 6.25 1.26 16 32.91 371.92 8.47 1.86 32 28.74 555.48 11.29 2.78 64 15.69 627.51 19 3.14 128 7.11 577.71 36.95 2.9 256 6.27 541.87 63.18 2.72 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 66.69 62.92 14.14 0.07 2 66.4 123.84 14.32 0.14 4 64.72 244.79 14.51 0.27 8 63.87 486.7 14.9 0.53 16 60.49 915.45 15.54 1.02 32 57.09 1,708.15 16.57 1.89 64 49.88 2,943.89 18.9 3.3 128 40.01 4,514.92 23.89 5.05 256 39.84 4,740.55 39.5 5.26
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 61.54 58.82 12.2 0.08 2 59.46 113.88 14.32 0.14 4 56.83 216.43 13.34 0.29 8 50.35 383.52 14.16 0.55 16 45.71 681.87 16.28 0.94 32 42.04 1,203.12 16.03 1.81 64 32.83 1,870.11 19.12 2.99 128 24.8 2,728.79 27.59 3.96 256 24.51 2,532.47 43.73 3.69 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) 1 69.52 54.09 3.46 0.29 2 67.31 103.91 3.62 0.55 4 63.19 189.23 3.91 1.01 8 57.13 331.56 4.48 1.77 16 48.48 524.4 5.64 2.79 32 38.31 735.33 7.84 3.9 64 22.66 894.11 12.58 4.73 128 10.61 819.11 24.39 4.35 256 9.16 803.95 42.18 4.25