Cohere Command A

Revise os benchmarks de desempenho do modelo cohere.command-a-03-2025 (Cohere Command A) hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado na OCI Generative AI.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,64 36,07 33,25 8,55 0,12 84,39
2 0,65 35,41 64,98 8,48 0,23 179,66
4 0,73 34,37 123,92 8,97 0,44 329,48
8 0,8 32,22 231,51 9,41 0,84 589,64
16 0,81 28,11 396,14 10,77 1,44 1.132,72
32 1,01 23,12 634,55 13,25 2,24 1.630,96
64 12,51 22,17 619,43 25,02 2,28 1.816,53
128 30,89 21,9 622,78 42,94 2,38 1.719,41
256 45,91 19,89 482,91 60,27 1,86 1.345,8
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,8 44,25 39,38 7,31 0,14 105,57
2 0,8 44,17 77,29 7,29 0,27 206,67
4 0,86 42,09 148,23 7,64 0,52 393,64
8 0,88 38,8 271,18 8,48 0,92 701,66
16 0,94 33,89 463,68 9,49 1,61 1.236,27
32 1,17 27,24 738,08 12,26 2,45 1.932,98
64 10,53 25,87 739,56 21,41 2,64 2.019,43
128 27,58 25,89 736,3 38,27 2,65 1.986,29
256 44,59 24,74 616,97 56,67 2,15 1.613,15
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,66 29,72 27,28 10,34 0,09 73,66
2 0,66 28,97 53,23 10,43 0,19 141,35
4 0,72 27,52 102,17 11,18 0,35 269,89
8 1,02 25,51 184,06 12,69 0,62 479,75
16 0,97 20,65 298,17 15,01 1,03 774,93
32 1,37 15,4 419,11 19,19 1,54 1.166,62
64 2,41 9,99 514,52 30,97 1,84 1.354,47
128 24,85 8,34 484,54 58,04 1,75 1.318,84
256 45,98 6,87 352,45 87,8 1,33 995,58

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,71 35,92 28,36 3,29 0,3 57,73
2 0,67 35,93 57,53 3,25 0,61 117
4 0,78 35,49 109,42 3,38 1,17 223,01
8 1 34,22 198,45 3,7 2,13 404,7
16 1,34 31,51 333,75 4,29 3,57 680,26
32 1,92 26,64 517,73 5,5 5,51 1.053,9
64 5,9 19,91 516,36 10,57 5,51 1.050,88
128 14,3 19,88 514,45 18,96 5,49 1.047,35
256 24,58 20,15 511,25 29,19 5,46 1.041,15
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,86 44,47 31,66 2,96 0,34 64,24
2 0,84 44,81 64,06 2,91 0,68 130,43
4 0,94 43,94 120,99 3,05 1,29 246,5
8 1,15 42,81 221,2 3,33 2,36 449,37
16 1,49 38,47 374,52 3,92 4 761,89
32 2,05 32,03 576,48 5,05 6,15 1.172,43
64 5,29 23,19 577,06 9,3 6,15 1.173,82
128 12,91 22,95 576,3 16,96 6,14 1.172,48
256 22,36 23,18 570,21 26,37 6,07 1.158,97
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 0,72 29,97 24,46 3,8 0,26 50,02
2 0,65 29,74 49,35 3,76 0,53 100,55
4 0,85 29,25 92,17 4,01 0,99 187,9
8 1,25 28,28 162,54 4,52 1,74 330,74
16 2,05 26,43 260,6 5,56 2,79 530,63
32 3,41 21,33 365,8 7,78 3,9 743,86
64 5,35 14,6 466,61 11,96 4,99 951,35
128 6,42 5,28 431,36 24,06 4,61 879,33
256 21,53 5,4 430,52 38,72 4,61 877,44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1,08 35,51 32,66 27,39 0,03 36,04
2 0,68 35,16 67,73 26,98 0,07 74,85
4 0,79 35,13 130,61 27,38 0,14 144,14
8 1,03 34,25 260,45 28,22 0,28 287,63
16 1,35 32,8 497,46 29,63 0,54 549,5
32 1,92 30,8 915,24 32,1 0,98 1.010,8
64 29,85 29,67 916,69 61,12 0,99 1.012,47
128 78,31 29,94 852,79 109,34 0,92 941,47
256 96,26 29,98 726,6 127,26 0,78 802,38
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1,14 43,35 40,11 22,51 0,04 44,29
2 0,86 43,86 83,17 21,95 0,09 91,92
4 0,95 43,32 161,5 22,48 0,17 178,25
8 1,17 42,21 308,96 23,16 0,33 341,27
16 1,51 40,79 606,6 24,29 0,65 669,78
32 2,06 38,21 1.115,21 26,41 1,2 1.231,36
64 24,52 36,45 1.117,31 49,89 1,21 1.234,37
128 47,43 36,94 1.099,25 72,62 1,18 1.213,73
256 65,37 36 923,6 91,3 0,99 1.019,91
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1,03 29,13 27,76 32,84 0,03 30,69
2 0,7 28,95 55,79 32,85 0,06 61,62
4 0,87 28,6 105,88 33,57 0,11 116,84
8 1,27 27,07 197,75 35,56 0,21 218,4
16 2,02 24,51 370,3 39,85 0,4 409,03
32 3,41 20,29 602 49,21 0,65 664,88
64 3,95 13,96 792,68 70,8 0,85 875,53
128 22,38 9,81 708,1 122,64 0,76 781,78
256 87,99 9,41 600,13 196,22 0,64 662,66

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1,01 34,27 28,56 6,25 0,16 344,06
2 1,12 34,29 56,05 6,38 0,31 673,78
4 1,35 31,44 100,94 7,08 0,56 1.215,89
8 2,14 29 171,12 8,35 0,95 2.072,96
16 3,27 23,98 259,25 10,94 1,44 3.134,4
32 4,23 15,11 338,19 16,28 1,86 4.060,07
64 16,39 12,1 332,78 31,24 1,84 4.011,11
128 43,34 11,95 320,85 58,38 1,78 3.870,48
256 41,98 10,81 22,63 62,65 0,13 275,02
O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1,06 42,4 33,84 5,32 0,19 405,82
2 1,25 42,78 65,84 5,47 0,36 789,91
4 1,66 40,07 116,06 6,14 0,64 1.401,03
8 2,28 35,52 193,05 7,42 1,07 2.321,7
16 3,43 29,09 288,39 9,88 1,59 3.465,03
32 5,25 19,32 371,72 14,89 2,07 4.496,7
64 15,06 13,44 366,1 28,46 2,02 4.405,68
128 38,58 13,39 358,48 51,98 1,99 4.327,78
256 42,95 13,33 28,62 56,34 0,16 347,19
O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo)
1 1,01 26,47 22,75 7,69 0,13 278,43
2 1,35 26,48 43,67 8,1 0,24 528,5
4 2,19 25,9 78,72 9,08 0,44 955,39
8 3,6 23,15 125,73 11,27 0,71 1.536,67
16 5,72 17,93 177,7 15,91 0,99 2.153,78
32 5,16 8,33 206,41 26,81 1,14 2.491,38
64 28,94 8,25 205,11 50,65 1,14 2.490,27
128 88,92 6,53 117,32 121,12 0,66 1.427,63
256 46,78 7,74 9,14 76,55 0,05 112,07