Comando Cohere A

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,64	36,07	33,25	8,55	0,12	84,39
2	0,65	35,41	64,98	8,48	0,23	179,66
4	0,73	34,37	123,92	8,97	0,44	329,48
8	0,8	32,22	231,51	9,41	0,84	589,64
16	0,81	28,11	396,14	10,77	1,44	1.132,72
32	1,01	23,12	634,55	13,25	2,24	1.630,96
64	12,51	22,17	619,43	25,02	2,28	1.816,53
128	30,89	21,9	622,78	42,94	2,38	1.719,41
256	45,91	19,89	482,91	60,27	1,86	1.345,8

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,8	44,25	39,38	7,31	0,14	105,57
2	0,8	44,17	77,29	7,29	0,27	206,67
4	0,86	42,09	148,23	7,64	0,52	393,64
8	0,88	38,8	271,18	8,48	0,92	701,66
16	0,94	33,89	463,68	9,49	1,61	1.236,27
32	1,17	27,24	738,08	12,26	2,45	1.932,98
64	10,53	25,87	739,56	21,41	2,64	2.019,43
128	27,58	25,89	736,3	38,27	2,65	1.986,29
256	44,59	24,74	616,97	56,67	2,15	1.613,15

O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,66	29,72	27,28	10,34	0,09	73,66
2	0,66	28,97	53,23	10,43	0,19	141,35
4	0,72	27,52	102,17	11,18	0,35	269,89
8	1,02	25,51	184,06	12,69	0,62	479,75
16	0,97	20,65	298,17	15,01	1,03	774,93
32	1,37	15,4	419,11	19,19	1,54	1.166,62
64	2,41	9,99	514,52	30,97	1,84	1.354,47
128	24,85	8,34	484,54	58,04	1,75	1.318,84
256	45,98	6,87	352,45	87,8	1,33	995,58

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,71	35,92	28,36	3,29	0,3	57,73
2	0,67	35,93	57,53	3,25	0,61	117
4	0,78	35,49	109,42	3,38	1,17	223,01
8	1	34,22	198,45	3,7	2,13	404,7
16	1,34	31,51	333,75	4,29	3,57	680,26
32	1,92	26,64	517,73	5,5	5,51	1.053,9
64	5,9	19,91	516,36	10,57	5,51	1.050,88
128	14,3	19,88	514,45	18,96	5,49	1.047,35
256	24,58	20,15	511,25	29,19	5,46	1.041,15

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,86	44,47	31,66	2,96	0,34	64,24
2	0,84	44,81	64,06	2,91	0,68	130,43
4	0,94	43,94	120,99	3,05	1,29	246,5
8	1,15	42,81	221,2	3,33	2,36	449,37
16	1,49	38,47	374,52	3,92	4	761,89
32	2,05	32,03	576,48	5,05	6,15	1.172,43
64	5,29	23,19	577,06	9,3	6,15	1.173,82
128	12,91	22,95	576,3	16,96	6,14	1.172,48
256	22,36	23,18	570,21	26,37	6,07	1.158,97

O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0,72	29,97	24,46	3,8	0,26	50,02
2	0,65	29,74	49,35	3,76	0,53	100,55
4	0,85	29,25	92,17	4,01	0,99	187,9
8	1,25	28,28	162,54	4,52	1,74	330,74
16	2,05	26,43	260,6	5,56	2,79	530,63
32	3,41	21,33	365,8	7,78	3,9	743,86
64	5,35	14,6	466,61	11,96	4,99	951,35
128	6,42	5,28	431,36	24,06	4,61	879,33
256	21,53	5,4	430,52	38,72	4,61	877,44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	1,08	35,51	32,66	27,39	0,03	36,04
2	0,68	35,16	67,73	26,98	0,07	74,85
4	0,79	35,13	130,61	27,38	0,14	144,14
8	1,03	34,25	260,45	28,22	0,28	287,63
16	1,35	32,8	497,46	29,63	0,54	549,5
32	1,92	30,8	915,24	32,1	0,98	1.010,8
64	29,85	29,67	916,69	61,12	0,99	1.012,47
128	78,31	29,94	852,79	109,34	0,92	941,47
256	96,26	29,98	726,6	127,26	0,78	802,38

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	1,14	43,35	40,11	22,51	0,04	44,29
2	0,86	43,86	83,17	21,95	0,09	91,92
4	0,95	43,32	161,5	22,48	0,17	178,25
8	1,17	42,21	308,96	23,16	0,33	341,27
16	1,51	40,79	606,6	24,29	0,65	669,78
32	2,06	38,21	1.115,21	26,41	1,2	1.231,36
64	24,52	36,45	1.117,31	49,89	1,21	1.234,37
128	47,43	36,94	1.099,25	72,62	1,18	1.213,73
256	65,37	36	923,6	91,3	0,99	1.019,91

O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	1,03	29,13	27,76	32,84	0,03	30,69
2	0,7	28,95	55,79	32,85	0,06	61,62
4	0,87	28,6	105,88	33,57	0,11	116,84
8	1,27	27,07	197,75	35,56	0,21	218,4
16	2,02	24,51	370,3	39,85	0,4	409,03
32	3,41	20,29	602	49,21	0,65	664,88
64	3,95	13,96	792,68	70,8	0,85	875,53
128	22,38	9,81	708,1	122,64	0,76	781,78
256	87,99	9,41	600,13	196,22	0,64	662,66

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para todas as regiões, exceto para as regiões Centro da Arábia Saudita (Riad) e Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	1,01	34,27	28,56	6,25	0,16	344,06
2	1,12	34,29	56,05	6,38	0,31	673,78
4	1,35	31,44	100,94	7,08	0,56	1.215,89
8	2,14	29	171,12	8,35	0,95	2.072,96
16	3,27	23,98	259,25	10,94	1,44	3.134,4
32	4,23	15,11	338,19	16,28	1,86	4.060,07
64	16,39	12,1	332,78	31,24	1,84	4.011,11
128	43,34	11,95	320,85	58,38	1,78	3.870,48
256	41,98	10,81	22,63	62,65	0,13	275,02

O modelo cohere.command-a-03-2025 hospedado em uma unidade LARGE_COHERE_V3 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	1,06	42,4	33,84	5,32	0,19	405,82
2	1,25	42,78	65,84	5,47	0,36	789,91
4	1,66	40,07	116,06	6,14	0,64	1.401,03
8	2,28	35,52	193,05	7,42	1,07	2.321,7
16	3,43	29,09	288,39	9,88	1,59	3.465,03
32	5,25	19,32	371,72	14,89	2,07	4.496,7
64	15,06	13,44	366,1	28,46	2,02	4.405,68
128	38,58	13,39	358,48	51,98	1,99	4.327,78
256	42,95	13,33	28,62	56,34	0,16	347,19

O modelo cohere.command-a-03-2025 hospedado em uma unidade SMALL_COHERE_4 de um cluster de IA dedicado para a região Leste dos EAU (Dubai).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	1,01	26,47	22,75	7,69	0,13	278,43
2	1,35	26,48	43,67	8,1	0,24	528,5
4	2,19	25,9	78,72	9,08	0,44	955,39
8	3,6	23,15	125,73	11,27	0,71	1.536,67
16	5,72	17,93	177,7	15,91	0,99	2.153,78
32	5,16	8,33	206,41	26,81	1,14	2.491,38
64	28,94	8,25	205,11	50,65	1,14	2.490,27
128	88,92	6,53	117,32	121,12	0,66	1.427,63
256	46,78	7,74	9,14	76,55	0,05	112,07

Documentação do Oracle Cloud Infrastructure

Cohere Command A

Comprimento aleatório

Chat

Geração pesada

RAG