Comando A de Cohere

Longitud aleatoria

Este escenario imita los casos de uso de generación de texto en los que se desconoce el tamaño de la petición de datos y la respuesta con antelación. Debido a las longitudes de respuesta y de aviso desconocidas, hemos utilizado un enfoque estocástico donde tanto la longitud de respuesta como la de aviso siguen una distribución normal. La longitud de la petición de datos sigue una distribución normal con una media de 480 tokens y una desviación estándar de 240 tokens. La longitud de respuesta sigue a una distribución normal con una media de 300 tokens y una desviación estándar de 150 tokens.

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de IA dedicado para todas las regiones, excepto para las regiones Centro de Arabia Saudita (Riyadh) y Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,64	36,07	33,25	8,55	0,12	84,39
2	0,65	35,41	64,98	8,48	0,23	179,66
4	0,73	34,37	123,92	8,97	0,44	329,48
8	0,8	32,22	231,51	9,41	0,84	589,64
16	0,81	28,11	396,14	10,77	1,44	1.132,72
32	1,01	23,12	634,55	13,25	2,24	1.630,96
64	12,51	22,17	619,43	25,02	2,28	1.816,53
128	30,89	21,9	622,78	42,94	2,38	1.719,41
256	45,91	19,89	482,91	60,27	1,86	1.345,8

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,8	44,25	39,38	7,31	0,14	105,57
2	0,8	44,17	77,29	7,29	0,27	206,67
4	0,86	42,09	148,23	7,64	0,52	393,64
8	0,88	38,8	271,18	8,48	0,92	701,66
16	0,94	33,89	463,68	9,49	1,61	1.236,27
32	1,17	27,24	738,08	12,26	2,45	1.932,98
64	10,53	25,87	739,56	21,41	2,64	2.019,43
128	27,58	25,89	736,3	38,27	2,65	1.986,29
256	44,59	24,74	616,97	56,67	2,15	1.613,15

El modelo cohere.command-a-03-2025 alojado en una unidad SMALL_COHERE_4 de un cluster de IA dedicado para la región Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,66	29,72	27,28	10,34	0,09	73,66
2	0,66	28,97	53,23	10,43	0,19	141,35
4	0,72	27,52	102,17	11,18	0,35	269,89
8	1,02	25,51	184,06	12,69	0,62	479,75
16	0,97	20,65	298,17	15,01	1,03	774,93
32	1,37	15,4	419,11	19,19	1,54	1.166,62
64	2,41	9,99	514,52	30,97	1,84	1.354,47
128	24,85	8,34	484,54	58,04	1,75	1.318,84
256	45,98	6,87	352,45	87,8	1,33	995,58

Chat

Este escenario abarca casos de uso de chat y diálogo en los que la petición de datos y las respuestas son cortas. La petición de datos y la longitud de respuesta se fijan a 100 tokens.

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de IA dedicado para todas las regiones, excepto para las regiones Centro de Arabia Saudita (Riyadh) y Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,71	35,92	28,36	3,29	0,3	57,73
2	0,67	35,93	57,53	3,25	0,61	117
4	0,78	35,49	109,42	3,38	1,17	223,01
8	1	34,22	198,45	3,7	2,13	404,7
16	1,34	31,51	333,75	4,29	3,57	680,26
32	1,92	26,64	517,73	5,5	5,51	1.053,9
64	5,9	19,91	516,36	10,57	5,51	1.050,88
128	14,3	19,88	514,45	18,96	5,49	1.047,35
256	24,58	20,15	511,25	29,19	5,46	1.041,15

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,86	44,47	31,66	2,96	0,34	64,24
2	0,84	44,81	64,06	2,91	0,68	130,43
4	0,94	43,94	120,99	3,05	1,29	246,5
8	1,15	42,81	221,2	3,33	2,36	449,37
16	1,49	38,47	374,52	3,92	4	761,89
32	2,05	32,03	576,48	5,05	6,15	1.172,43
64	5,29	23,19	577,06	9,3	6,15	1.173,82
128	12,91	22,95	576,3	16,96	6,14	1.172,48
256	22,36	23,18	570,21	26,37	6,07	1.158,97

El modelo cohere.command-a-03-2025 alojado en una unidad SMALL_COHERE_4 de un cluster de IA dedicado para la región Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	0,72	29,97	24,46	3,8	0,26	50,02
2	0,65	29,74	49,35	3,76	0,53	100,55
4	0,85	29,25	92,17	4,01	0,99	187,9
8	1,25	28,28	162,54	4,52	1,74	330,74
16	2,05	26,43	260,6	5,56	2,79	530,63
32	3,41	21,33	365,8	7,78	3,9	743,86
64	5,35	14,6	466,61	11,96	4,99	951,35
128	6,42	5,28	431,36	24,06	4,61	879,33
256	21,53	5,4	430,52	38,72	4,61	877,44

Generación pesada

Este escenario es para casos de uso intensos de generación y respuesta de modelo. Por ejemplo, una descripción larga del trabajo generada a partir de una breve lista de viñetas de elementos. En este caso, la longitud de petición de datos se fija a 100 tokens y la longitud de respuesta se fija a 1.000 tokens.

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de IA dedicado para todas las regiones, excepto para las regiones Centro de Arabia Saudita (Riyadh) y Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,08	35,51	32,66	27,39	0,03	36,04
2	0,68	35,16	67,73	26,98	0,07	74,85
4	0,79	35,13	130,61	27,38	0,14	144,14
8	1,03	34,25	260,45	28,22	0,28	287,63
16	1,35	32,8	497,46	29,63	0,54	549,5
32	1,92	30,8	915,24	32,1	0,98	1.010,8
64	29,85	29,67	916,69	61,12	0,99	1.012,47
128	78,31	29,94	852,79	109,34	0,92	941,47
256	96,26	29,98	726,6	127,26	0,78	802,38

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,14	43,35	40,11	22,51	0,04	44,29
2	0,86	43,86	83,17	21,95	0,09	91,92
4	0,95	43,32	161,5	22,48	0,17	178,25
8	1,17	42,21	308,96	23,16	0,33	341,27
16	1,51	40,79	606,6	24,29	0,65	669,78
32	2,06	38,21	1.115,21	26,41	1,2	1.231,36
64	24,52	36,45	1.117,31	49,89	1,21	1.234,37
128	47,43	36,94	1.099,25	72,62	1,18	1.213,73
256	65,37	36	923,6	91,3	0,99	1.019,91

El modelo cohere.command-a-03-2025 alojado en una unidad SMALL_COHERE_4 de un cluster de IA dedicado para la región Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,03	29,13	27,76	32,84	0,03	30,69
2	0,7	28,95	55,79	32,85	0,06	61,62
4	0,87	28,6	105,88	33,57	0,11	116,84
8	1,27	27,07	197,75	35,56	0,21	218,4
16	2,02	24,51	370,3	39,85	0,4	409,03
32	3,41	20,29	602	49,21	0,65	664,88
64	3,95	13,96	792,68	70,8	0,85	875,53
128	22,38	9,81	708,1	122,64	0,76	781,78
256	87,99	9,41	600,13	196,22	0,64	662,66

RAG

El escenario de generación aumentada de recuperación (RAG) tiene una petición de datos muy larga y una respuesta corta, como el resumen de casos de uso. La longitud de petición de datos se fija a 2.000 tokens y la longitud de respuesta se fija a 200 tokens.

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de IA dedicado para todas las regiones, excepto para las regiones Centro de Arabia Saudita (Riyadh) y Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,01	34,27	28,56	6,25	0,16	344,06
2	1,12	34,29	56,05	6,38	0,31	673,78
4	1,35	31,44	100,94	7,08	0,56	1.215,89
8	2,14	29	171,12	8,35	0,95	2.072,96
16	3,27	23,98	259,25	10,94	1,44	3.134,4
32	4,23	15,11	338,19	16,28	1,86	4.060,07
64	16,39	12,1	332,78	31,24	1,84	4.011,11
128	43,34	11,95	320,85	58,38	1,78	3.870,48
256	41,98	10,81	22,63	62,65	0,13	275,02

El modelo cohere.command-a-03-2025 alojado en una unidad LARGE_COHERE_V3 de un cluster de AI dedicado para la región Centro de Arabia Saudita (Riyadh).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,06	42,4	33,84	5,32	0,19	405,82
2	1,25	42,78	65,84	5,47	0,36	789,91
4	1,66	40,07	116,06	6,14	0,64	1.401,03
8	2,28	35,52	193,05	7,42	1,07	2.321,7
16	3,43	29,09	288,39	9,88	1,59	3.465,03
32	5,25	19,32	371,72	14,89	2,07	4.496,7
64	15,06	13,44	366,1	28,46	2,02	4.405,68
128	38,58	13,39	358,48	51,98	1,99	4.327,78
256	42,95	13,33	28,62	56,34	0,16	347,19

El modelo cohere.command-a-03-2025 alojado en una unidad SMALL_COHERE_4 de un cluster de IA dedicado para la región Este de Emiratos Árabes Unidos (Dubái).


Simultaneidad	Tiempo hasta el primer token (TTFT) (segundo)	Velocidad de inferencia a nivel de token (tokens/segundo)	Rendimiento a nivel de token (tokens/segundo)	Latencia de nivel de solicitud (segundo)	Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)	Rendimiento Global Total (tokens/segundo)
1	1,01	26,47	22,75	7,69	0,13	278,43
2	1,35	26,48	43,67	8,1	0,24	528,5
4	2,19	25,9	78,72	9,08	0,44	955,39
8	3,6	23,15	125,73	11,27	0,71	1.536,67
16	5,72	17,93	177,7	15,91	0,99	2.153,78
32	5,16	8,33	206,41	26,81	1,14	2.491,38
64	28,94	8,25	205,11	50,65	1,14	2.490,27
128	88,92	6,53	117,32	121,12	0,66	1.427,63
256	46,78	7,74	9,14	76,55	0,05	112,07

Documentación de Oracle Cloud Infrastructure

Cohere Command A

Longitud aleatoria

Chat

Generación pesada

RAG