Scénario 6 : tests d'évaluation de la charge de travail des incorporations plus légères dans l'IA générative

Le scénario d'intégration plus léger est similaire au scénario d'intégration de texte 5, sauf que nous réduisons la taille de chaque demande à 16 documents, chacun avec 512 jetons. Les fichiers de plus petite taille avec moins de mots peuvent être pris en charge par le scénario 6.

Passez en revue les termes utilisés dans les tests d'évaluation du cluster AI dédié de l'hébergement. Pour obtenir la liste des scénarios et leur description, reportez-vous à la rubrique Scénarios d'intégration de texte. Le scénario d'incorporation de texte est effectué dans la région suivante.

Est du Brésil (São Paulo)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,19 54
8 1,41 348
32 3,47 600
128 12,08 558
Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,28 42
8 1,38 288
32 3,44 497
128 11,94 702

Germany Central (Frankfurt)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,19 54
8 1,41 348
32 3,47 600
128 12,08 558
Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,28 42
8 1,38 288
32 3,44 497
128 11,94 702

UK South (London)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,19 54
8 1,41 348
32 3,47 600
128 12,08 558
Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,28 42
8 1,38 288
32 3,44 497
128 11,94 702

US Midwest (Chicago)

Modèle : cohere.embed-english-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,19 54
8 1,41 348
32 3,47 600
128 12,08 558
Modèle : cohere.embed-english-light-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 0,85 48
8 1,15 354
32 3,15 594
128 11,26 846
Modèle : cohere.embed-multilingual-v3.0 hébergé sur une unité Embed Cohere d'un cluster d'IA dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,28 42
8 1,38 288
32 3,44 497
128 11,94 702
Modèle : cohere.embed-multilingual-light-v3.0 hébergé sur une unité Embed Cohere d'un cluster AI dédié
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM)
1 1,03 54
8 1,35 300
32 3,11 570
128 11,5 888