Cohere Command A

Revise os benchmarks de desempenho do modelo cohere.command-a-03-2025 (Cohere Command A) hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0.64 36.07 33.25 8.55 0.12 84.39
2 0.65 35.41 64.98 8.48 0.23 179.66
4 0.73 34.37 123.92 8.97 0.44 329.48
8 0.8 32.22 231.51 9.41 0.84 589.64
16 0.81 28.11 396.14 10.77 1.44 1,132.72
32 1.01 23.12 634.55 13.25 2.24 1,630.96
64 12.51 22.17 619.43 25.02 2.28 1,816.53
128 30.89 21.9 622.78 42.94 2.38 1,719.41
256 45.91 19.89 482.91 60.27 1.86 1,345.8
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0.8 44.25 39.38 7.31 0.14 105.57
2 0.8 44.17 77.29 7.29 0.27 206.67
4 0.86 42.09 148.23 7.64 0.52 393.64
8 0.88 38.8 271.18 8.48 0.92 701.66
16 0.94 33.89 463.68 9.49 1.61 1,236.27
32 1.17 27.24 738.08 12.26 2.45 1,932.98
64 10.53 25.87 739.56 21.41 2.64 2,019.43
128 27.58 25.89 736.3 38.27 2.65 1,986.29
256 44.59 24.74 616.97 56.67 2.15 1,613.15
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0.66 29.72 27.28 10.34 0.09 73.66
2 0.66 28.97 53.23 10.43 0.19 141.35
4 0.72 27.52 102.17 11.18 0.35 269.89
8 1.02 25.51 184.06 12.69 0.62 479.75
16 0.97 20.65 298.17 15.01 1.03 774.93
32 1.37 15.4 419.11 19.19 1.54 1,166.62
64 2.41 9.99 514.52 30.97 1.84 1,354.47
128 24.85 8.34 484.54 58.04 1.75 1,318.84
256 45.98 6.87 352.45 87.8 1.33 995.58

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0.71 35.92 28.36 3.29 0.3 57.73
2 0.67 35.93 57.53 3.25 0.61 117
4 0.78 35.49 109.42 3.38 1.17 223.01
8 1 34.22 198.45 3.7 2.13 404.7
16 1.34 31.51 333.75 4.29 3.57 680.26
32 1.92 26.64 517.73 5.5 5.51 1,053.9
64 5.9 19.91 516.36 10.57 5.51 1,050.88
128 14.3 19.88 514.45 18.96 5.49 1,047.35
256 24.58 20.15 511.25 29.19 5.46 1,041.15
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0.86 44.47 31.66 2.96 0.34 64.24
2 0.84 44.81 64.06 2.91 0.68 130.43
4 0.94 43.94 120.99 3.05 1.29 246.5
8 1.15 42.81 221.2 3.33 2.36 449.37
16 1.49 38.47 374.52 3.92 4 761.89
32 2.05 32.03 576.48 5.05 6.15 1,172.43
64 5.29 23.19 577.06 9.3 6.15 1,173.82
128 12.91 22.95 576.3 16.96 6.14 1,172.48
256 22.36 23.18 570.21 26.37 6.07 1,158.97
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0.72 29.97 24.46 3.8 0.26 50.02
2 0.65 29.74 49.35 3.76 0.53 100.55
4 0.85 29.25 92.17 4.01 0.99 187.9
8 1.25 28.28 162.54 4.52 1.74 330.74
16 2.05 26.43 260.6 5.56 2.79 530.63
32 3.41 21.33 365.8 7.78 3.9 743.86
64 5.35 14.6 466.61 11.96 4.99 951.35
128 6.42 5.28 431.36 24.06 4.61 879.33
256 21.53 5.4 430.52 38.72 4.61 877.44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1.08 35.51 32.66 27.39 0.03 36.04
2 0.68 35.16 67.73 26.98 0.07 74.85
4 0.79 35.13 130.61 27.38 0.14 144.14
8 1.03 34.25 260.45 28.22 0.28 287.63
16 1.35 32.8 497.46 29.63 0.54 549.5
32 1.92 30.8 915.24 32.1 0.98 1,010.8
64 29.85 29.67 916.69 61.12 0.99 1,012.47
128 78.31 29.94 852.79 109.34 0.92 941.47
256 96.26 29.98 726.6 127.26 0.78 802.38
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1.14 43.35 40.11 22.51 0.04 44.29
2 0.86 43.86 83.17 21.95 0.09 91.92
4 0.95 43.32 161.5 22.48 0.17 178.25
8 1.17 42.21 308.96 23.16 0.33 341.27
16 1.51 40.79 606.6 24.29 0.65 669.78
32 2.06 38.21 1,115.21 26.41 1.2 1,231.36
64 24.52 36.45 1,117.31 49.89 1.21 1,234.37
128 47.43 36.94 1,099.25 72.62 1.18 1,213.73
256 65.37 36 923.6 91.3 0.99 1,019.91
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1.03 29.13 27.76 32.84 0.03 30.69
2 0.7 28.95 55.79 32.85 0.06 61.62
4 0.87 28.6 105.88 33.57 0.11 116.84
8 1.27 27.07 197.75 35.56 0.21 218.4
16 2.02 24.51 370.3 39.85 0.4 409.03
32 3.41 20.29 602 49.21 0.65 664.88
64 3.95 13.96 792.68 70.8 0.85 875.53
128 22.38 9.81 708.1 122.64 0.76 781.78
256 87.99 9.41 600.13 196.22 0.64 662.66

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1.01 34.27 28.56 6.25 0.16 344.06
2 1.12 34.29 56.05 6.38 0.31 673.78
4 1.35 31.44 100.94 7.08 0.56 1,215.89
8 2.14 29 171.12 8.35 0.95 2,072.96
16 3.27 23.98 259.25 10.94 1.44 3,134.4
32 4.23 15.11 338.19 16.28 1.86 4,060.07
64 16.39 12.1 332.78 31.24 1.84 4,011.11
128 43.34 11.95 320.85 58.38 1.78 3,870.48
256 41.98 10.81 22.63 62.65 0.13 275.02
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1.06 42.4 33.84 5.32 0.19 405.82
2 1.25 42.78 65.84 5.47 0.36 789.91
4 1.66 40.07 116.06 6.14 0.64 1,401.03
8 2.28 35.52 193.05 7.42 1.07 2,321.7
16 3.43 29.09 288.39 9.88 1.59 3,465.03
32 5.25 19.32 371.72 14.89 2.07 4,496.7
64 15.06 13.44 366.1 28.46 2.02 4,405.68
128 38.58 13.39 358.48 51.98 1.99 4,327.78
256 42.95 13.33 28.62 56.34 0.16 347.19
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1.01 26.47 22.75 7.69 0.13 278.43
2 1.35 26.48 43.67 8.1 0.24 528.5
4 2.19 25.9 78.72 9.08 0.44 955.39
8 3.6 23.15 125.73 11.27 0.71 1,536.67
16 5.72 17.93 177.7 15.91 0.99 2,153.78
32 5.16 8.33 206.41 26.81 1.14 2,491.38
64 28.94 8.25 205.11 50.65 1.14 2,490.27
128 88.92 6.53 117.32 121.12 0.66 1,427.63
256 46.78 7.74 9.14 76.55 0.05 112.07