Comando Cohere A

Lunghezza casuale

Questo scenario imita i casi d'uso di generazione testo in cui la dimensione del prompt e della risposta è sconosciuta in anticipo. A causa della lunghezza del prompt e della risposta sconosciuta, abbiamo utilizzato un approccio stocastico in cui sia la lunghezza del prompt che la lunghezza della risposta seguono una distribuzione normale. La lunghezza del prompt segue una distribuzione normale con una media di 480 token e una deviazione standard di 240 token. La lunghezza della risposta segue una distribuzione normale con una media di 300 token e una deviazione standard di 150 token.

Il modello cohere.command-a-03-2025 ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	0,64	36,07	33,25	8,55	0,12	84,39
2	0,65	35,41	64,98	8,48	0,23	179,66
4	0,73	34,37	123,92	8,97	0,44	329,48
8	0,8	32,22	231,51	9,41	0,84	589,64
16	0,81	28,11	396,14	10,77	1,44	1.132,72
32	1,01	23,12	634,55	13,25	2,24	1.630,96
64	12,51	22,17	619,43	25,02	2,28	1.816,53
128	30,89	21,9	622,78	42,94	2,38	1.719,41
256	45,91	19,89	482,91	60,27	1,86	1.345,8

Il modello cohere.command-a-03-2025 è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	0,8	44,25	39,38	7,31	0,14	105,57
2	0,8	44,17	77,29	7,29	0,27	206,67
4	0,86	42,09	148,23	7,64	0,52	393,64
8	0,88	38,8	271,18	8,48	0,92	701,66
16	0,94	33,89	463,68	9,49	1,61	1.236,27
32	1,17	27,24	738,08	12,26	2,45	1.932,98
64	10,53	25,87	739,56	21,41	2,64	2.019,43
128	27,58	25,89	736,3	38,27	2,65	1.986,29
256	44,59	24,74	616,97	56,67	2,15	1.613,15

Il modello cohere.command-a-03-2025 ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	0,66	29,72	27,28	10,34	0,09	73,66
2	0,66	28,97	53,23	10,43	0,19	141,35
4	0,72	27,52	102,17	11,18	0,35	269,89
8	1,02	25,51	184,06	12,69	0,62	479,75
16	0,97	20,65	298,17	15,01	1,03	774,93
32	1,37	15,4	419,11	19,19	1,54	1.166,62
64	2,41	9,99	514,52	30,97	1,84	1.354,47
128	24,85	8,34	484,54	58,04	1,75	1.318,84
256	45,98	6,87	352,45	87,8	1,33	995,58

Chat

Questo scenario copre i casi d'uso di chat e finestre di dialogo in cui il prompt e le risposte sono brevi. La lunghezza del prompt e della risposta è fissata a 100 token.

Il modello cohere.command-a-03-2025 ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	0,71	35,92	28,36	3,29	0,3	57,73
2	0,67	35,93	57,53	3,25	0,61	117
4	0,78	35,49	109,42	3,38	1,17	223,01
8	1	34,22	198,45	3,7	2,13	404,7
16	1,34	31,51	333,75	4,29	3,57	680,26
32	1,92	26,64	517,73	5,5	5,51	1.053,9
64	5,9	19,91	516,36	10,57	5,51	1.050,88
128	14,3	19,88	514,45	18,96	5,49	1.047,35
256	24,58	20,15	511,25	29,19	5,46	1.041,15

Il modello cohere.command-a-03-2025 è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	0,86	44,47	31,66	2,96	0,34	64,24
2	0,84	44,81	64,06	2,91	0,68	130,43
4	0,94	43,94	120,99	3,05	1,29	246,5
8	1,15	42,81	221,2	3,33	2,36	449,37
16	1,49	38,47	374,52	3,92	4	761,89
32	2,05	32,03	576,48	5,05	6,15	1.172,43
64	5,29	23,19	577,06	9,3	6,15	1.173,82
128	12,91	22,95	576,3	16,96	6,14	1.172,48
256	22,36	23,18	570,21	26,37	6,07	1.158,97

Il modello cohere.command-a-03-2025 ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	0,72	29,97	24,46	3,8	0,26	50,02
2	0,65	29,74	49,35	3,76	0,53	100,55
4	0,85	29,25	92,17	4,01	0,99	187,9
8	1,25	28,28	162,54	4,52	1,74	330,74
16	2,05	26,43	260,6	5,56	2,79	530,63
32	3,41	21,33	365,8	7,78	3,9	743,86
64	5,35	14,6	466,61	11,96	4,99	951,35
128	6,42	5,28	431,36	24,06	4,61	879,33
256	21,53	5,4	430,52	38,72	4,61	877,44

Generazione pesante

Questo scenario si riferisce a casi d'uso intensi di generazione e risposta modello. Ad esempio, una descrizione lunga del lavoro generata da un breve elenco puntato di elementi. In questo caso, la lunghezza del prompt è fissata a 100 token e la lunghezza della risposta è fissata a 1.000 token.

Il modello cohere.command-a-03-2025 ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	1,08	35,51	32,66	27,39	0,03	36,04
2	0,68	35,16	67,73	26,98	0,07	74,85
4	0,79	35,13	130,61	27,38	0,14	144,14
8	1,03	34,25	260,45	28,22	0,28	287,63
16	1,35	32,8	497,46	29,63	0,54	549,5
32	1,92	30,8	915,24	32,1	0,98	1.010,8
64	29,85	29,67	916,69	61,12	0,99	1.012,47
128	78,31	29,94	852,79	109,34	0,92	941,47
256	96,26	29,98	726,6	127,26	0,78	802,38

Il modello cohere.command-a-03-2025 è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	1,14	43,35	40,11	22,51	0,04	44,29
2	0,86	43,86	83,17	21,95	0,09	91,92
4	0,95	43,32	161,5	22,48	0,17	178,25
8	1,17	42,21	308,96	23,16	0,33	341,27
16	1,51	40,79	606,6	24,29	0,65	669,78
32	2,06	38,21	1.115,21	26,41	1,2	1.231,36
64	24,52	36,45	1.117,31	49,89	1,21	1.234,37
128	47,43	36,94	1.099,25	72,62	1,18	1.213,73
256	65,37	36	923,6	91,3	0,99	1.019,91

Il modello cohere.command-a-03-2025 ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	1,03	29,13	27,76	32,84	0,03	30,69
2	0,7	28,95	55,79	32,85	0,06	61,62
4	0,87	28,6	105,88	33,57	0,11	116,84
8	1,27	27,07	197,75	35,56	0,21	218,4
16	2,02	24,51	370,3	39,85	0,4	409,03
32	3,41	20,29	602	49,21	0,65	664,88
64	3,95	13,96	792,68	70,8	0,85	875,53
128	22,38	9,81	708,1	122,64	0,76	781,78
256	87,99	9,41	600,13	196,22	0,64	662,66

RAG

Lo scenario di retrieval-augmented generation (RAG) ha un prompt molto lungo e una risposta breve, ad esempio il riepilogo dei casi d'uso. La lunghezza del prompt è fissata a 2.000 token e la lunghezza della risposta è fissata a 200 token.

Il modello cohere.command-a-03-2025 ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	1,01	34,27	28,56	6,25	0,16	344,06
2	1,12	34,29	56,05	6,38	0,31	673,78
4	1,35	31,44	100,94	7,08	0,56	1.215,89
8	2,14	29	171,12	8,35	0,95	2.072,96
16	3,27	23,98	259,25	10,94	1,44	3.134,4
32	4,23	15,11	338,19	16,28	1,86	4.060,07
64	16,39	12,1	332,78	31,24	1,84	4.011,11
128	43,34	11,95	320,85	58,38	1,78	3.870,48
256	41,98	10,81	22,63	62,65	0,13	275,02

Il modello cohere.command-a-03-2025 è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	1,06	42,4	33,84	5,32	0,19	405,82
2	1,25	42,78	65,84	5,47	0,36	789,91
4	1,66	40,07	116,06	6,14	0,64	1.401,03
8	2,28	35,52	193,05	7,42	1,07	2.321,7
16	3,43	29,09	288,39	9,88	1,59	3.465,03
32	5,25	19,32	371,72	14,89	2,07	4.496,7
64	15,06	13,44	366,1	28,46	2,02	4.405,68
128	38,58	13,39	358,48	51,98	1,99	4.327,78
256	42,95	13,33	28,62	56,34	0,16	347,19

Il modello cohere.command-a-03-2025 ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai).


Concorrenza	Time to First Token (TTFT)(secondo)	Velocità di inferenza a livello di token (token/secondo)	Throughput a livello di token (token/secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)	Throughput totale (token/secondo)
1	1,01	26,47	22,75	7,69	0,13	278,43
2	1,35	26,48	43,67	8,1	0,24	528,5
4	2,19	25,9	78,72	9,08	0,44	955,39
8	3,6	23,15	125,73	11,27	0,71	1.536,67
16	5,72	17,93	177,7	15,91	0,99	2.153,78
32	5,16	8,33	206,41	26,81	1,14	2.491,38
64	28,94	8,25	205,11	50,65	1,14	2.490,27
128	88,92	6,53	117,32	121,12	0,66	1.427,63
256	46,78	7,74	9,14	76,55	0,05	112,07

Documentazione dell'infrastruttura Oracle Cloud

Cohere Command A

Lunghezza casuale

Chat

Generazione pesante

RAG