Cohere Command R

Passez en revue les tests d'évaluation des performances du modèle cohere.command-r-16k (Cohere Command R) hébergé sur une unité Small Cohere V2 d'un cluster d'IA dédié dans OCI Generative AI.

- Reportez-vous aux régions disponibles pour ce modèle.
- Vérifiez la taille d'unité de cluster d'IA dédié pour l'hébergement de ce modèle sur la page du modèle.
- Consultez les mesures.

Longueur aléatoire

Ce scénario imite les cas d'utilisation de génération de texte où la taille de l'invite et de la réponse sont inconnues à l'avance. En raison des longueurs d'invite et de réponse inconnues, nous avons utilisé une approche stochastique où les longueurs d'invite et de réponse suivent une distribution normale. La longueur d'invite suit une distribution normale avec une moyenne de 480 jetons et un écart-type de 240 jetons. La longueur de réponse suit une distribution normale avec une moyenne de 300 jetons et un écart-type de 150 jetons.


Accès simultané	Vitesse d'inférence au niveau du jeton (jeton/seconde)	Débit au niveau du jeton (jeton/seconde)	Latence de niveau demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	51,3	50,46	4,63	12,75
2	51,06	97,86	5,07	23,14
4	47,52	186,75	5,3	44,48
8	43,55	305,45	5,68	75,18
16	36,49	505,11	6,71	127,88
32	29,02	768,4	8,84	177,03
64	18,57	735,37	14,55	168
128	12,59	809,5	21,27	186,76
256	6,54	859,45	38,69	200,42

Discussion

Ce scénario couvre les cas d'utilisation de discussion et de dialogue où l'invite et les réponses sont courtes. La longueur de l'invite et de la réponse est fixée à 100 jetons.


Accès simultané	Vitesse d'inférence au niveau du jeton (jeton/seconde)	Débit au niveau du jeton (jeton/seconde)	Latence de niveau demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	42,36	38,82	2,23	26,07
2	42,49	77,95	2,18	52,86
4	42,15	155,04	2,15	106,28
8	39,72	274,21	2,33	192,82
16	37,28	527,72	2,36	366,2
32	32,87	828,91	2,88	538,91
64	24,48	1 175,93	3,4	816
128	19,21	1 522,53	5,38	1 023,93
256	10,11	1 668,07	8,49	1 127,35

Génération lourde

Ce scénario est destiné à la génération et aux cas d'utilisation complexes de réponse de modèle. Par exemple, une description longue d'emploi générée à partir d'une courte liste à puces d'articles. Dans ce cas, la longueur de l'invite est fixée à 100 jetons et la longueur de la réponse est fixée à 1 000 jetons.


Accès simultané	Vitesse d'inférence au niveau du jeton (jeton/seconde)	Débit au niveau du jeton (jeton/seconde)	Latence de niveau demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	47,2	50,32	3,53	16,65
2	45,06	98,42	3,61	32,48
4	43,85	165,6	3,26	63,91
8	40,56	292,22	3,04	133,2
16	38,35	416,13	3,61	171,22
32	28,68	557,5	4,64	219,01
64	15,19	613,72	9,65	171,83
128	10,74	664,11	11,67	233,87
256	5,83	721,5	22,78	253,54

Génération augmentée de récupération

Le scénario de génération augmentée de récupération (RAG) comporte une invite très longue et une réponse courte, telle que la synthèse des cas d'utilisation. La longueur de l'invite est fixée à 2 000 jetons et la longueur de la réponse à 200 jetons.


Accès simultané	Vitesse d'inférence au niveau du jeton (jeton/seconde)	Débit au niveau du jeton (jeton/seconde)	Latence de niveau demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	49,33	47,66	4,14	14,24
2	45,65	86,9	4,5	26,04
4	40,32	152,1	5,09	45,51
8	30,69	235,78	6,57	70,43
16	24,6	310,44	9,74	93,07
32	9,95	307,32	18,21	91,81
64	5,43	297,06	31,41	89,08
128	4,44	313,47	44,9	93,89
256	2,36	312,97	85,35	93,53

Documentation Oracle Cloud Infrastructure

Cohere Command R

Longueur aléatoire

Discussion

Génération lourde

Génération augmentée de récupération