Cohere Command A
Rivedere i benchmark delle prestazioni per il modello cohere.command-a-03-2025
(Cohere Command A) ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato in OCI Generative AI.
Lunghezza casuale
Questo scenario imita i casi d'uso di generazione testo in cui la dimensione del prompt e della risposta è sconosciuta in anticipo. A causa della lunghezza del prompt e della risposta sconosciuta, abbiamo utilizzato un approccio stocastico in cui sia la lunghezza del prompt che la lunghezza della risposta seguono una distribuzione normale. La lunghezza del prompt segue una distribuzione normale con una media di 480 token e una deviazione standard di 240 token. La lunghezza della risposta segue una distribuzione normale con una media di 300 token e una deviazione standard di 150 token.
- Il modello
cohere.command-a-03-2025
ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,64 36,07 33,25 8,55 0,12 84,39 2 0,65 35,41 64,98 8,48 0,23 179,66 4 0,73 34,37 123,92 8,97 0,44 329,48 8 0,8 32,22 231,51 9,41 0,84 589,64 16 0,81 28,11 396,14 10,77 1,44 1.132,72 32 1,01 23,12 634,55 13,25 2,24 1.630,96 64 12,51 22,17 619,43 25,02 2,28 1.816,53 128 30,89 21,9 622,78 42,94 2,38 1.719,41 256 45,91 19,89 482,91 60,27 1,86 1.345,8 - Il modello
cohere.command-a-03-2025
è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,8 44,25 39,38 7,31 0,14 105,57 2 0,8 44,17 77,29 7,29 0,27 206,67 4 0,86 42,09 148,23 7,64 0,52 393,64 8 0,88 38,8 271,18 8,48 0,92 701,66 16 0,94 33,89 463,68 9,49 1,61 1.236,27 32 1,17 27,24 738,08 12,26 2,45 1.932,98 64 10,53 25,87 739,56 21,41 2,64 2.019,43 128 27,58 25,89 736,3 38,27 2,65 1.986,29 256 44,59 24,74 616,97 56,67 2,15 1.613,15 - Il modello
cohere.command-a-03-2025
ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,66 29,72 27,28 10,34 0,09 73,66 2 0,66 28,97 53,23 10,43 0,19 141,35 4 0,72 27,52 102,17 11,18 0,35 269,89 8 1,02 25,51 184,06 12,69 0,62 479,75 16 0,97 20,65 298,17 15,01 1,03 774,93 32 1,37 15,4 419,11 19,19 1,54 1.166,62 64 2,41 9,99 514,52 30,97 1,84 1.354,47 128 24,85 8,34 484,54 58,04 1,75 1.318,84 256 45,98 6,87 352,45 87,8 1,33 995,58
Chat
Questo scenario copre i casi d'uso di chat e finestre di dialogo in cui il prompt e le risposte sono brevi. La lunghezza del prompt e della risposta è fissata a 100 token.
- Il modello
cohere.command-a-03-2025
ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,71 35,92 28,36 3,29 0,3 57,73 2 0,67 35,93 57,53 3,25 0,61 117 4 0,78 35,49 109,42 3,38 1,17 223,01 8 1 34,22 198,45 3,7 2,13 404,7 16 1,34 31,51 333,75 4,29 3,57 680,26 32 1,92 26,64 517,73 5,5 5,51 1.053,9 64 5,9 19,91 516,36 10,57 5,51 1.050,88 128 14,3 19,88 514,45 18,96 5,49 1.047,35 256 24,58 20,15 511,25 29,19 5,46 1.041,15 - Il modello
cohere.command-a-03-2025
è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,86 44,47 31,66 2,96 0,34 64,24 2 0,84 44,81 64,06 2,91 0,68 130,43 4 0,94 43,94 120,99 3,05 1,29 246,5 8 1,15 42,81 221,2 3,33 2,36 449,37 16 1,49 38,47 374,52 3,92 4 761,89 32 2,05 32,03 576,48 5,05 6,15 1.172,43 64 5,29 23,19 577,06 9,3 6,15 1.173,82 128 12,91 22,95 576,3 16,96 6,14 1.172,48 256 22,36 23,18 570,21 26,37 6,07 1.158,97 - Il modello
cohere.command-a-03-2025
ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,72 29,97 24,46 3,8 0,26 50,02 2 0,65 29,74 49,35 3,76 0,53 100,55 4 0,85 29,25 92,17 4,01 0,99 187,9 8 1,25 28,28 162,54 4,52 1,74 330,74 16 2,05 26,43 260,6 5,56 2,79 530,63 32 3,41 21,33 365,8 7,78 3,9 743,86 64 5,35 14,6 466,61 11,96 4,99 951,35 128 6,42 5,28 431,36 24,06 4,61 879,33 256 21,53 5,4 430,52 38,72 4,61 877,44
Generazione pesante
Questo scenario si riferisce a casi d'uso intensi di generazione e risposta modello. Ad esempio, una descrizione lunga del lavoro generata da un breve elenco puntato di elementi. In questo caso, la lunghezza del prompt è fissata a 100 token e la lunghezza della risposta è fissata a 1.000 token.
- Il modello
cohere.command-a-03-2025
ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,08 35,51 32,66 27,39 0,03 36,04 2 0,68 35,16 67,73 26,98 0,07 74,85 4 0,79 35,13 130,61 27,38 0,14 144,14 8 1,03 34,25 260,45 28,22 0,28 287,63 16 1,35 32,8 497,46 29,63 0,54 549,5 32 1,92 30,8 915,24 32,1 0,98 1.010,8 64 29,85 29,67 916,69 61,12 0,99 1.012,47 128 78,31 29,94 852,79 109,34 0,92 941,47 256 96,26 29,98 726,6 127,26 0,78 802,38 - Il modello
cohere.command-a-03-2025
è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,14 43,35 40,11 22,51 0,04 44,29 2 0,86 43,86 83,17 21,95 0,09 91,92 4 0,95 43,32 161,5 22,48 0,17 178,25 8 1,17 42,21 308,96 23,16 0,33 341,27 16 1,51 40,79 606,6 24,29 0,65 669,78 32 2,06 38,21 1.115,21 26,41 1,2 1.231,36 64 24,52 36,45 1.117,31 49,89 1,21 1.234,37 128 47,43 36,94 1.099,25 72,62 1,18 1.213,73 256 65,37 36 923,6 91,3 0,99 1.019,91 - Il modello
cohere.command-a-03-2025
ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,03 29,13 27,76 32,84 0,03 30,69 2 0,7 28,95 55,79 32,85 0,06 61,62 4 0,87 28,6 105,88 33,57 0,11 116,84 8 1,27 27,07 197,75 35,56 0,21 218,4 16 2,02 24,51 370,3 39,85 0,4 409,03 32 3,41 20,29 602 49,21 0,65 664,88 64 3,95 13,96 792,68 70,8 0,85 875,53 128 22,38 9,81 708,1 122,64 0,76 781,78 256 87,99 9,41 600,13 196,22 0,64 662,66
RAG
Lo scenario di retrieval-augmented generation (RAG) ha un prompt molto lungo e una risposta breve, ad esempio il riepilogo dei casi d'uso. La lunghezza del prompt è fissata a 2.000 token e la lunghezza della risposta è fissata a 200 token.
- Il modello
cohere.command-a-03-2025
ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per tutte le aree, ad eccezione delle aree Saudi Arabia Central (Riyadh) e UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,01 34,27 28,56 6,25 0,16 344,06 2 1,12 34,29 56,05 6,38 0,31 673,78 4 1,35 31,44 100,94 7,08 0,56 1.215,89 8 2,14 29 171,12 8,35 0,95 2.072,96 16 3,27 23,98 259,25 10,94 1,44 3.134,4 32 4,23 15,11 338,19 16,28 1,86 4.060,07 64 16,39 12,1 332,78 31,24 1,84 4.011,11 128 43,34 11,95 320,85 58,38 1,78 3.870,48 256 41,98 10,81 22,63 62,65 0,13 275,02 - Il modello
cohere.command-a-03-2025
è ospitato su un'unità LARGE_COHERE_V3 di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,06 42,4 33,84 5,32 0,19 405,82 2 1,25 42,78 65,84 5,47 0,36 789,91 4 1,66 40,07 116,06 6,14 0,64 1.401,03 8 2,28 35,52 193,05 7,42 1,07 2.321,7 16 3,43 29,09 288,39 9,88 1,59 3.465,03 32 5,25 19,32 371,72 14,89 2,07 4.496,7 64 15,06 13,44 366,1 28,46 2,02 4.405,68 128 38,58 13,39 358,48 51,98 1,99 4.327,78 256 42,95 13,33 28,62 56,34 0,16 347,19 - Il modello
cohere.command-a-03-2025
ospitato su un'unità SMALL_COHERE_4 di un cluster AI dedicato per l'area UAE East (Dubai). -
Concorrenza Time to First Token (TTFT)(secondo) Velocità di inferenza a livello di token (token/secondo) Throughput a livello di token (token/secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,01 26,47 22,75 7,69 0,13 278,43 2 1,35 26,48 43,67 8,1 0,24 528,5 4 2,19 25,9 78,72 9,08 0,44 955,39 8 3,6 23,15 125,73 11,27 0,71 1.536,67 16 5,72 17,93 177,7 15,91 0,99 2.153,78 32 5,16 8,33 206,41 26,81 1,14 2.491,38 64 28,94 8,25 205,11 50,65 1,14 2.490,27 128 88,92 6,53 117,32 121,12 0,66 1.427,63 256 46,78 7,74 9,14 76,55 0,05 112,07