Cohere Command A
Revise os benchmarks de desempenho do modelo cohere.command-a-03-2025
(Cohere Command A) hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.64 36.07 33.25 8.55 0.12 84.39 2 0.65 35.41 64.98 8.48 0.23 179.66 4 0.73 34.37 123.92 8.97 0.44 329.48 8 0.8 32.22 231.51 9.41 0.84 589.64 16 0.81 28.11 396.14 10.77 1.44 1,132.72 32 1.01 23.12 634.55 13.25 2.24 1,630.96 64 12.51 22.17 619.43 25.02 2.28 1,816.53 128 30.89 21.9 622.78 42.94 2.38 1,719.41 256 45.91 19.89 482.91 60.27 1.86 1,345.8 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.8 44.25 39.38 7.31 0.14 105.57 2 0.8 44.17 77.29 7.29 0.27 206.67 4 0.86 42.09 148.23 7.64 0.52 393.64 8 0.88 38.8 271.18 8.48 0.92 701.66 16 0.94 33.89 463.68 9.49 1.61 1,236.27 32 1.17 27.24 738.08 12.26 2.45 1,932.98 64 10.53 25.87 739.56 21.41 2.64 2,019.43 128 27.58 25.89 736.3 38.27 2.65 1,986.29 256 44.59 24.74 616.97 56.67 2.15 1,613.15 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.66 29.72 27.28 10.34 0.09 73.66 2 0.66 28.97 53.23 10.43 0.19 141.35 4 0.72 27.52 102.17 11.18 0.35 269.89 8 1.02 25.51 184.06 12.69 0.62 479.75 16 0.97 20.65 298.17 15.01 1.03 774.93 32 1.37 15.4 419.11 19.19 1.54 1,166.62 64 2.41 9.99 514.52 30.97 1.84 1,354.47 128 24.85 8.34 484.54 58.04 1.75 1,318.84 256 45.98 6.87 352.45 87.8 1.33 995.58
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.71 35.92 28.36 3.29 0.3 57.73 2 0.67 35.93 57.53 3.25 0.61 117 4 0.78 35.49 109.42 3.38 1.17 223.01 8 1 34.22 198.45 3.7 2.13 404.7 16 1.34 31.51 333.75 4.29 3.57 680.26 32 1.92 26.64 517.73 5.5 5.51 1,053.9 64 5.9 19.91 516.36 10.57 5.51 1,050.88 128 14.3 19.88 514.45 18.96 5.49 1,047.35 256 24.58 20.15 511.25 29.19 5.46 1,041.15 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.86 44.47 31.66 2.96 0.34 64.24 2 0.84 44.81 64.06 2.91 0.68 130.43 4 0.94 43.94 120.99 3.05 1.29 246.5 8 1.15 42.81 221.2 3.33 2.36 449.37 16 1.49 38.47 374.52 3.92 4 761.89 32 2.05 32.03 576.48 5.05 6.15 1,172.43 64 5.29 23.19 577.06 9.3 6.15 1,173.82 128 12.91 22.95 576.3 16.96 6.14 1,172.48 256 22.36 23.18 570.21 26.37 6.07 1,158.97 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.72 29.97 24.46 3.8 0.26 50.02 2 0.65 29.74 49.35 3.76 0.53 100.55 4 0.85 29.25 92.17 4.01 0.99 187.9 8 1.25 28.28 162.54 4.52 1.74 330.74 16 2.05 26.43 260.6 5.56 2.79 530.63 32 3.41 21.33 365.8 7.78 3.9 743.86 64 5.35 14.6 466.61 11.96 4.99 951.35 128 6.42 5.28 431.36 24.06 4.61 879.33 256 21.53 5.4 430.52 38.72 4.61 877.44
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1.08 35.51 32.66 27.39 0.03 36.04 2 0.68 35.16 67.73 26.98 0.07 74.85 4 0.79 35.13 130.61 27.38 0.14 144.14 8 1.03 34.25 260.45 28.22 0.28 287.63 16 1.35 32.8 497.46 29.63 0.54 549.5 32 1.92 30.8 915.24 32.1 0.98 1,010.8 64 29.85 29.67 916.69 61.12 0.99 1,012.47 128 78.31 29.94 852.79 109.34 0.92 941.47 256 96.26 29.98 726.6 127.26 0.78 802.38 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1.14 43.35 40.11 22.51 0.04 44.29 2 0.86 43.86 83.17 21.95 0.09 91.92 4 0.95 43.32 161.5 22.48 0.17 178.25 8 1.17 42.21 308.96 23.16 0.33 341.27 16 1.51 40.79 606.6 24.29 0.65 669.78 32 2.06 38.21 1,115.21 26.41 1.2 1,231.36 64 24.52 36.45 1,117.31 49.89 1.21 1,234.37 128 47.43 36.94 1,099.25 72.62 1.18 1,213.73 256 65.37 36 923.6 91.3 0.99 1,019.91 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1.03 29.13 27.76 32.84 0.03 30.69 2 0.7 28.95 55.79 32.85 0.06 61.62 4 0.87 28.6 105.88 33.57 0.11 116.84 8 1.27 27.07 197.75 35.56 0.21 218.4 16 2.02 24.51 370.3 39.85 0.4 409.03 32 3.41 20.29 602 49.21 0.65 664.88 64 3.95 13.96 792.68 70.8 0.85 875.53 128 22.38 9.81 708.1 122.64 0.76 781.78 256 87.99 9.41 600.13 196.22 0.64 662.66
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1.01 34.27 28.56 6.25 0.16 344.06 2 1.12 34.29 56.05 6.38 0.31 673.78 4 1.35 31.44 100.94 7.08 0.56 1,215.89 8 2.14 29 171.12 8.35 0.95 2,072.96 16 3.27 23.98 259.25 10.94 1.44 3,134.4 32 4.23 15.11 338.19 16.28 1.86 4,060.07 64 16.39 12.1 332.78 31.24 1.84 4,011.11 128 43.34 11.95 320.85 58.38 1.78 3,870.48 256 41.98 10.81 22.63 62.65 0.13 275.02 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1.06 42.4 33.84 5.32 0.19 405.82 2 1.25 42.78 65.84 5.47 0.36 789.91 4 1.66 40.07 116.06 6.14 0.64 1,401.03 8 2.28 35.52 193.05 7.42 1.07 2,321.7 16 3.43 29.09 288.39 9.88 1.59 3,465.03 32 5.25 19.32 371.72 14.89 2.07 4,496.7 64 15.06 13.44 366.1 28.46 2.02 4,405.68 128 38.58 13.39 358.48 51.98 1.99 4,327.78 256 42.95 13.33 28.62 56.34 0.16 347.19 - O modelo
cohere.command-a-03-2025
hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 1.01 26.47 22.75 7.69 0.13 278.43 2 1.35 26.48 43.67 8.1 0.24 528.5 4 2.19 25.9 78.72 9.08 0.44 955.39 8 3.6 23.15 125.73 11.27 0.71 1,536.67 16 5.72 17.93 177.7 15.91 0.99 2,153.78 32 5.16 8.33 206.41 26.81 1.14 2,491.38 64 28.94 8.25 205.11 50.65 1.14 2,490.27 128 88.92 6.53 117.32 121.12 0.66 1,427.63 256 46.78 7.74 9.14 76.55 0.05 112.07