Cohere Embed Multilingual 3
Passez en revue les tests d'évaluation des performances du modèle cohere.embed-multilingual-v3.0
(Cohere Embed Multilingual 3) hébergé sur une unité Embed Cohere d'un cluster d'IA dédié dans OCI Generative AI.
Intégrations de texte
Ce scénario s'applique uniquement aux modèles d'intégration avec saisie de texte. Ce scénario imite la génération d'intégration dans le cadre du pipeline d'ingestion de données d'une base de données vectorielle. Dans chaque scénario, toutes les demandes ont la même taille, soit 96 documents, chacun ayant le même nombre de jetons. Par exemple, pour le scénario de 512 jetons imite un ensemble de fichiers PDF volumineux, chaque fichier contenant plus de 30 000 mots qu'un utilisateur ingérerait dans une base de données vectorielle.
64 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, 64 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,86 607,39 2 0,1 0,1 9,66 1 192,6 4 0,11 0,11 9,3 2 295,8 8 0,11 0,11 8,69 4 296,59 24 0,15 0,15 6,69 9 900,74 48 0,19 0,19 5,1 15 114,13 96 0,28 0,28 3,43 20 339,92 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,09 0,09 11,29 697,03 2 0,09 0,09 11,06 1 365,27 4 0,09 0,09 10,58 2 616,91 8 0,1 0,1 9,78 4 818,35 24 0,14 0,14 7,18 10 639,81 48 0,18 0,18 5,32 15 775,42 96 0,28 0,28 3,46 20 495,8
128 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, 128 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,78 1 243,08 2 0,1 0,1 9,55 2 428,37 4 0,11 0,11 9,16 4 660,31 8 0,12 0,12 8,42 8 561,42 24 0,15 0,15 6,31 19 255,04 48 0,21 0,21 4,62 28 172,8 96 0,31 0,31 3,01 36 706,87 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,09 0,09 11,28 1 435,6 2 0,09 0,09 10,92 2 773,25 4 0,09 0,09 10,36 5 284,49 8 0,1 0,1 9,41 9 575,47 24 0,14 0,14 6,78 20 686 48 0,2 0,2 4,82 29 426,82 96 0,35 0,35 2,64 32 277,12
256 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, 256 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,65 2 493,61 2 0,1 0,1 9,37 4 840,64 4 0,11 0,11 8,81 9 107,3 8 0,12 0,12 7,88 16 286,08 24 0,17 0,17 5,5 34 074,47 48 0,24 0,24 3,85 47 783,85 96 0,43 0,43 2,16 53 652,55
512 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, 512 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,21 4 791,85 2 0,11 0,11 8,74 9 094,38 4 0,12 0,12 7,76 16 165,29 8 0,15 0,15 6,39 26 582,37 24 0,23 0,23 4,03 50 284,92 48 0,37 0,37 2,44 61 014,65 96 0,63 0,63 1,42 71 048,17 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,09 0,09 10,34 5 379,92 2 0,1 0,1 9,79 10 190,27 4 0,11 0,11 8,67 18 059,39 8 0,13 0,13 7 29 158,44 24 0,22 0,22 4,2 52 493,14 48 0,36 0,36 2,36 58 908,72 96 0,62 0,62 1,44 71 746,46
1 024 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, soit 1 024 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,09 0,09 8,96 9 348,26 2 0,1 0,1 8,25 17 233,64 4 0,12 0,12 6,87 28 670,18 8 0,15 0,15 5,37 44 877,47 24 0,28 0,28 2,86 71 733,22 48 0,53 0,53 1,52 76 050,39 96 0,99 0,99 0,8 80 597,64
2 048 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, soit 2 048 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,11 0,11 8,16 17 069,42 2 0,13 0,13 7,17 30 023,1 4 0,15 0,15 5,82 48 737,45 8 0,21 0,21 4,21 70 449,76 24 0,48 0,48 1,79 90 090,74 48 0,93 0,93 0,92 92 553,18 96 1,68 1,68 0,51 101 574,61 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 6,27 13 116,54 2 0,12 0,12 5,65 23 647,68 4 0,14 0,14 4,7 39 382,39 8 0,2 0,2 3,32 55 564,63 24 0,48 0,48 1,37 68 783,08 48 0,89 0,89 0,73 72 944,21 96 1,66 1,66 0,39 77 928,29
8 096 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, 8 096 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,15 0,15 5,4 44 724,35 2 0,2 0,2 4,05 67 118,88 4 0,31 0,31 2,59 85 752,57 8 0,59 0,59 1,41 93 369,42 24 1,56 1,56 0,53 105 492,68 48 2,84 2,84 0,29 115 098,5 96 5,27 5,27 0,15 121 706,97 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,14 0,14 1,32 10 962,57 2 0,19 0,19 1,06 17 550,18 4 0,29 0,29 0,76 25 090,59 8 0,56 0,56 0,38 25 436,88 24 1,52 1,52 0,15 30 238,8 48 2,79 2,79 0,11 43 355,58 96 5,21 5,21 0,05 42 052,47
32 000 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, soit 32 000 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,38 0,38 1,9 62 367,46 2 0,57 0,57 1,3 85 209,04 4 1,05 1,05 0,75 97 631,79 8 1,91 1,91 0,42 109 411,13 24 5,12 5,12 0,16 122 915,27 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,36 0,36 0,01 198,49 8 2,13 2,13 0,37 94 825,57 24 5,78 5,78 0,14 104 466,77
128 000 jetons
Les tableaux suivants présentent les références pour un scénario de 96 documents, soit 128 000 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour toutes les régions, à l'exception de la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1 1 0,99 121 894,93 2 2,26 2,26 0,44 134 957,95 4 3,36 3,36 0,29 146 216,07 - Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié pour la région Centre de l'Arabie saoudite (Riyad). -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1,1 1,1 0,9 109 801,35 2 2,01 2,01 0,49 120 154,57 4 3,74 3,74 0,26 129 080,96