Cohere Command A
Passez en revue les tests d'évaluation des performances du modèle cohere.command-a-03-2025
(Cohere Command A) hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié dans OCI Generative AI.
Longueur aléatoire
Ce scénario imite les cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. En raison des longueurs d'invite et de réponse inconnues, nous avons utilisé une approche stochastique où les longueurs d'invite et de réponse suivent une distribution normale. La longueur d'invite suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons. La longueur de réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.
- Le modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour toutes les régions, à l'exception des régions Centre de l'Arabie saoudite (Riyad) et Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,64 36,07 33,25 8,55 0,12 84,39 2 0,65 35,41 64,98 8,48 0,23 179,66 4 0,73 34,37 123,92 8,97 0,44 329,48 8 0,8 32,22 231,51 9,41 0,84 589,64 16 0,81 28,11 396,14 10,77 1,44 1 132,72 32 1,01 23,12 634,55 13,25 2,24 1 630,96 64 12,51 22,17 619,43 25,02 2,28 1 816,53 128 30,89 21,9 622,78 42,94 2,38 1 719,41 256 45,91 19,89 482,91 60,27 1,86 1 345,8 - Modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,8 44,25 39,38 7,31 0,14 105,57 2 0,8 44,17 77,29 7,29 0,27 206,67 4 0,86 42,09 148,23 7,64 0,52 393,64 8 0,88 38,8 271,18 8,48 0,92 701,66 16 0,94 33,89 463,68 9,49 1,61 1 236,27 32 1,17 27,24 738,08 12,26 2,45 1 932,98 64 10,53 25,87 739,56 21,41 2,64 2 019,43 128 27,58 25,89 736,3 38,27 2,65 1 986,29 256 44,59 24,74 616,97 56,67 2,15 1 613,15 - Modèle
cohere.command-a-03-2025
hébergé sur une unité SMALL_COHERE_4 d'un cluster d'IA dédié pour la région Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,66 29,72 27,28 10,34 0,09 73,66 2 0,66 28,97 53,23 10,43 0,19 141,35 4 0,72 27,52 102,17 11,18 0,35 269,89 8 1,02 25,51 184,06 12,69 0,62 479,75 16 0,97 20,65 298,17 15,01 1,03 774,93 32 1,37 15,4 419,11 19,19 1,54 1 166,62 64 2,41 9,99 514,52 30,97 1,84 1 354,47 128 24,85 8,34 484,54 58,04 1,75 1 318,84 256 45,98 6,87 352,45 87,8 1,33 995,58
Discussion
Ce scénario couvre les cas d'utilisation de discussion et de dialogue où l'invite et les réponses sont courtes. La longueur de l'invite et de la réponse est fixée à 100 jetons.
- Le modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour toutes les régions, à l'exception des régions Centre de l'Arabie saoudite (Riyad) et Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,71 35,92 28,36 3,29 0,3 57,73 2 0,67 35,93 57,53 3,25 0,61 117 4 0,78 35,49 109,42 3,38 1,17 223,01 8 1 34,22 198,45 3,7 2,13 404,7 16 1,34 31,51 333,75 4,29 3,57 680,26 32 1,92 26,64 517,73 5,5 5,51 1 053,9 64 5,9 19,91 516,36 10,57 5,51 1 050,88 128 14,3 19,88 514,45 18,96 5,49 1 047,35 256 24,58 20,15 511,25 29,19 5,46 1 041,15 - Modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,86 44,47 31,66 2,96 0,34 64,24 2 0,84 44,81 64,06 2,91 0,68 130,43 4 0,94 43,94 120,99 3,05 1,29 246,5 8 1,15 42,81 221,2 3,33 2,36 449,37 16 1,49 38,47 374,52 3,92 4 761,89 32 2,05 32,03 576,48 5,05 6,15 1 172,43 64 5,29 23,19 577,06 9,3 6,15 1 173,82 128 12,91 22,95 576,3 16,96 6,14 1 172,48 256 22,36 23,18 570,21 26,37 6,07 1 158,97 - Modèle
cohere.command-a-03-2025
hébergé sur une unité SMALL_COHERE_4 d'un cluster d'IA dédié pour la région Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,72 29,97 24,46 3,8 0,26 50,02 2 0,65 29,74 49,35 3,76 0,53 100,55 4 0,85 29,25 92,17 4,01 0,99 187,9 8 1,25 28,28 162,54 4,52 1,74 330,74 16 2,05 26,43 260,6 5,56 2,79 530,63 32 3,41 21,33 365,8 7,78 3,9 743,86 64 5,35 14,6 466,61 11,96 4,99 951,35 128 6,42 5,28 431,36 24,06 4,61 879,33 256 21,53 5,4 430,52 38,72 4,61 877,44
Génération lourde
Ce scénario est destiné à la génération et aux cas d'utilisation complexes de réponse de modèle. Par exemple, une description longue d'emploi générée à partir d'une courte liste à puces d'articles. Dans ce cas, la longueur de l'invite est fixée à 100 jetons et la longueur de la réponse est fixée à 1 000 jetons.
- Le modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour toutes les régions, à l'exception des régions Centre de l'Arabie saoudite (Riyad) et Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,08 35,51 32,66 27,39 0,03 36,04 2 0,68 35,16 67,73 26,98 0,07 74,85 4 0,79 35,13 130,61 27,38 0,14 144,14 8 1,03 34,25 260,45 28,22 0,28 287,63 16 1,35 32,8 497,46 29,63 0,54 549,5 32 1,92 30,8 915,24 32,1 0,98 1 010,8 64 29,85 29,67 916,69 61,12 0,99 1 012,47 128 78,31 29,94 852,79 109,34 0,92 941,47 256 96,26 29,98 726,6 127,26 0,78 802,38 - Modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,14 43,35 40,11 22,51 0,04 44,29 2 0,86 43,86 83,17 21,95 0,09 91,92 4 0,95 43,32 161,5 22,48 0,17 178,25 8 1,17 42,21 308,96 23,16 0,33 341,27 16 1,51 40,79 606,6 24,29 0,65 669,78 32 2,06 38,21 1 115,21 26,41 1,2 1 231,36 64 24,52 36,45 1 117,31 49,89 1,21 1 234,37 128 47,43 36,94 1 099,25 72,62 1,18 1 213,73 256 65,37 36 923,6 91,3 0,99 1 019,91 - Modèle
cohere.command-a-03-2025
hébergé sur une unité SMALL_COHERE_4 d'un cluster d'IA dédié pour la région Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,03 29,13 27,76 32,84 0,03 30,69 2 0,7 28,95 55,79 32,85 0,06 61,62 4 0,87 28,6 105,88 33,57 0,11 116,84 8 1,27 27,07 197,75 35,56 0,21 218,4 16 2,02 24,51 370,3 39,85 0,4 409,03 32 3,41 20,29 602 49,21 0,65 664,88 64 3,95 13,96 792,68 70,8 0,85 875,53 128 22,38 9,81 708,1 122,64 0,76 781,78 256 87,99 9,41 600,13 196,22 0,64 662,66
Génération augmentée de récupération
Le scénario de génération augmentée de récupération (RAG) comporte une invite très longue et une réponse courte, telle que la synthèse des cas d'utilisation. La longueur de l'invite est fixée à 2 000 jetons et la longueur de la réponse à 200 jetons.
- Le modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour toutes les régions, à l'exception des régions Centre de l'Arabie saoudite (Riyad) et Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,01 34,27 28,56 6,25 0,16 344,06 2 1,12 34,29 56,05 6,38 0,31 673,78 4 1,35 31,44 100,94 7,08 0,56 1 215,89 8 2,14 29 171,12 8,35 0,95 2 072,96 16 3,27 23,98 259,25 10,94 1,44 3 134,4 32 4,23 15,11 338,19 16,28 1,86 4 060,07 64 16,39 12,1 332,78 31,24 1,84 4 011,11 128 43,34 11,95 320,85 58,38 1,78 3 870,48 256 41,98 10,81 22,63 62,65 0,13 275,02 - Modèle
cohere.command-a-03-2025
hébergé sur une unité LARGE_COHERE_V3 d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,06 42,4 33,84 5,32 0,19 405,82 2 1,25 42,78 65,84 5,47 0,36 789,91 4 1,66 40,07 116,06 6,14 0,64 1 401,03 8 2,28 35,52 193,05 7,42 1,07 2 321,7 16 3,43 29,09 288,39 9,88 1,59 3 465,03 32 5,25 19,32 371,72 14,89 2,07 4 496,7 64 15,06 13,44 366,1 28,46 2,02 4 405,68 128 38,58 13,39 358,48 51,98 1,99 4 327,78 256 42,95 13,33 28,62 56,34 0,16 347,19 - Modèle
cohere.command-a-03-2025
hébergé sur une unité SMALL_COHERE_4 d'un cluster d'IA dédié pour la région Est des Emirats arabes unis (Dubaï). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Vitesse d'inférence au niveau du jeton (jetons/seconde) Débit au niveau du jeton (jetons/seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,01 26,47 22,75 7,69 0,13 278,43 2 1,35 26,48 43,67 8,1 0,24 528,5 4 2,19 25,9 78,72 9,08 0,44 955,39 8 3,6 23,15 125,73 11,27 0,71 1 536,67 16 5,72 17,93 177,7 15,91 0,99 2 153,78 32 5,16 8,33 206,41 26,81 1,14 2 491,38 64 28,94 8,25 205,11 50,65 1,14 2 490,27 128 88,92 6,53 117,32 121,12 0,66 1 427,63 256 46,78 7,74 9,14 76,55 0,05 112,07