Scénario 6 : tests d'évaluation de la charge de travail des incorporations plus légères dans l'IA générative

Le scénario d'intégration plus léger est similaire au scénario d'intégration de texte 5, sauf que nous réduisons la taille de chaque demande à 16 documents, chacun avec 512 jetons. Les fichiers de plus petite taille avec moins de mots peuvent être pris en charge par le scénario 6.

Passez en revue les termes utilisés dans les tests d'évaluation du cluster AI dédié de l'hébergement. Pour obtenir la liste des scénarios et leur description, reportez-vous à la rubrique Scénarios d'intégration de texte. Le scénario d'incorporation de texte est effectué dans la région suivante.

Est du Brésil (São Paulo)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,19	54
8	1,41	348
32	3,47	600
128	12,08	558

Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,28	42
8	1,38	288
32	3,44	497
128	11,94	702

Germany Central (Frankfurt)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,19	54
8	1,41	348
32	3,47	600
128	12,08	558

Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,28	42
8	1,38	288
32	3,44	497
128	11,94	702

UK South (London)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,19	54
8	1,41	348
32	3,47	600
128	12,08	558

Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,28	42
8	1,38	288
32	3,44	497
128	11,94	702

US Midwest (Chicago)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,19	54
8	1,41	348
32	3,47	600
128	12,08	558

Modèle : cohere.embed-english-light-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	0,85	48
8	1,15	354
32	3,15	594
128	11,26	846

Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,28	42
8	1,38	288
32	3,44	497
128	11,94	702

Modèle : cohere.embed-multilingual-light-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié


Accès simultané	Latence au niveau de la demande (seconde)	Débit au niveau de la demande (demande par minute) (RPM)
1	1,03	54
8	1,35	300
32	3,11	570
128	11,5	888

Documentation Oracle Cloud Infrastructure

Scénario 6 : tests d'évaluation de la charge de travail des incorporations plus légères dans l'IA générative

Est du Brésil (São Paulo)

Germany Central (Frankfurt)

UK South (London)

US Midwest (Chicago)