Scénario 6 : tests d'évaluation de la charge de travail des incorporations plus légères dans l'IA générative
Le scénario d'intégration plus léger est similaire au scénario d'intégration de texte 5, sauf que nous réduisons la taille de chaque demande à 16 documents, chacun avec 512 jetons. Les fichiers de plus petite taille avec moins de mots peuvent être pris en charge par le scénario 6.
Passez en revue les termes utilisés dans les tests d'évaluation du cluster AI dédié de l'hébergement. Pour obtenir la liste des scénarios et leur description, reportez-vous à la rubrique Scénarios d'intégration de texte. Le scénario d'incorporation de texte est effectué dans la région suivante.
Est du Brésil (São Paulo)
- Modèle :
cohere.embed-english-v3.0
hébergé sur une unité Embed Cohere d'un cluster AI dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,19 54 8 1,41 348 32 3,47 600 128 12,08 558 - Modèle :
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster AI dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,28 42 8 1,38 288 32 3,44 497 128 11,94 702
Germany Central (Frankfurt)
- Modèle :
cohere.embed-english-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,19 54 8 1,41 348 32 3,47 600 128 12,08 558 - Modèle :
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,28 42 8 1,38 288 32 3,44 497 128 11,94 702
UK South (London)
- Modèle :
cohere.embed-english-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,19 54 8 1,41 348 32 3,47 600 128 12,08 558 - Modèle :
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,28 42 8 1,38 288 32 3,44 497 128 11,94 702
US Midwest (Chicago)
- Modèle :
cohere.embed-english-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,19 54 8 1,41 348 32 3,47 600 128 12,08 558 - Modèle :
cohere.embed-english-light-v3.0
hébergé sur une unité Embed Cohere d'un cluster AI dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 0,85 48 8 1,15 354 32 3,15 594 128 11,26 846 - Modèle :
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,28 42 8 1,38 288 32 3,44 497 128 11,94 702 - Modèle :
cohere.embed-multilingual-light-v3.0
hébergé sur une unité Embed Cohere d'un cluster AI dédié -
Accès simultané Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par minute) (RPM) 1 1,03 54 8 1,35 300 32 3,11 570 128 11,5 888