Cohere Embed Multilingual Image 3
Passez en revue les tests d'évaluation des performances du modèle cohere.embed-multilingual-image-v3.0
(Cohere Embed Multilingual Image 3) hébergé sur une unité Embed Cohere d'un cluster d'IA dédié dans OCI Generative AI.
Intégrations de texte
Ce scénario s'applique uniquement aux modèles d'intégration avec saisie de texte. Ce scénario imite la génération d'intégration dans le cadre du pipeline d'ingestion de données d'une base de données vectorielle. Dans chaque scénario, toutes les demandes ont la même taille, soit 96 documents, chacun ayant le même nombre de jetons. Par exemple, pour le scénario de 512 jetons imite un ensemble de fichiers PDF volumineux, chaque fichier contenant plus de 30 000 mots qu'un utilisateur ingérerait dans une base de données vectorielle.
64 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, 64 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,86 607,39 2 0,1 0,1 9,66 1 192,6 4 0,11 0,11 9,3 2 295,8 8 0,11 0,11 8,69 4 296,59 24 0,15 0,15 6,69 9 900,74 48 0,19 0,19 5,1 15 114,13 96 0,28 0,28 3,43 20 339,92
128 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, 128 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,78 1 243,08 2 0,1 0,1 9,55 2 428,37 4 0,11 0,11 9,16 4 660,31 8 0,12 0,12 8,42 8 561,42 24 0,15 0,15 6,31 19 255,04 48 0,21 0,21 4,62 28 172,8 96 0,31 0,31 3,01 36 706,87
256 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, 256 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,65 2 493,61 2 0,1 0,1 9,37 4 840,64 4 0,11 0,11 8,81 9 107,3 8 0,12 0,12 7,88 16 286,08 24 0,17 0,17 5,5 34 074,47 48 0,24 0,24 3,85 47 783,85 96 0,43 0,43 2,16 53 652,55
512 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, 512 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,1 0,1 9,21 4 791,85 2 0,11 0,11 8,74 9 094,38 4 0,12 0,12 7,76 16 165,29 8 0,15 0,15 6,39 26 582,37 24 0,23 0,23 4,03 50 284,92 48 0,37 0,37 2,44 61 014,65 96 0,63 0,63 1,42 71 048,17
1 024 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, soit 1 024 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,09 0,09 8,96 9 348,26 2 0,1 0,1 8,25 17 233,64 4 0,12 0,12 6,87 28 670,18 8 0,15 0,15 5,37 44 877,47 24 0,28 0,28 2,86 71 733,22 48 0,53 0,53 1,52 76 050,39 96 0,99 0,99 0,8 80 597,64
2 048 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, soit 2 048 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,11 0,11 8,16 17 069,42 2 0,13 0,13 7,17 30 023,1 4 0,15 0,15 5,82 48 737,45 8 0,21 0,21 4,21 70 449,76 24 0,48 0,48 1,79 90 090,74 48 0,93 0,93 0,92 92 553,18 96 1,68 1,68 0,51 101 574,61
8 096 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, 8 096 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,15 0,15 5,4 44 724,35 2 0,2 0,2 4,05 67 118,88 4 0,31 0,31 2,59 85 752,57 8 0,59 0,59 1,41 93 369,42 24 1,56 1,56 0,53 105 492,68 48 2,84 2,84 0,29 115 098,5 96 5,27 5,27 0,15 121 706,97
32 000 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, soit 32 000 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0,38 0,38 1,9 62 367,46 2 0,57 0,57 1,3 85 209,04 4 1,05 1,05 0,75 97 631,79 8 1,91 1,91 0,42 109 411,13 24 5,12 5,12 0,16 122 915,27
128 000 jetons
Le tableau suivant présente les références pour un scénario de 96 documents, soit 128 000 jetons par document.
- Modèle
cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié. -
Accès simultané Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1 1 0,99 121 894,93 2 2,26 2,26 0,44 134 957,95 4 3,36 3,36 0,29 146 216,07
Intégrations d'images
Ce scénario s'applique uniquement aux modèles d'intégration avec entrée d'image. Dans chaque scénario, I(M,N) : Image de hauteur Npx et de largeur Mpx représente une image de hauteur M
et de largeur N
pixels. Par exemple, I(1024 512) est une image d'une hauteur de 1 024 pixels et d'une largeur de 512 pixels.
I(512 512)
Le tableau suivant présente les tests d'évaluation de cluster d'IA dédié hosting avec cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié, dans un scénario d'image avec une hauteur et une largeur de 512 pixels.
Accès simultané | Latence de niveau demande (seconde) | Débit de niveau demande (demande par seconde) (RPS) |
---|---|---|
1 | 0,13 | 6,5 |
2 | 0,13 | 12,2 |
4 | 0,14 | 22,71 |
8 | 0,15 | 39,19 |
16 | 0,19 | 62,23 |
32 | 0,31 | 80,75 |
64 | 0,46 | 113,57 |
128 | 1,25 | 83,8 |
256 | 2,6 | 80,95 |
I(1024 512)
Le tableau suivant présente les tests d'évaluation de cluster d'IA dédié hosting avec cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié, dans un scénario d'image d'une hauteur de 1 024 pixels et d'une largeur de 512 pixels.
Accès simultané | Latence de niveau demande (seconde) | Débit de niveau demande (demande par seconde) (RPS) |
---|---|---|
1 | 0,14 | 5,79 |
2 | 0,14 | 10,67 |
4 | 0,16 | 18,74 |
8 | 0,17 | 32,08 |
16 | 0,24 | 47,64 |
32 | 0,44 | 58,76 |
64 | 0,93 | 60,67 |
128 | 1,71 | 64,96 |
256 | 3,06 | 68,54 |
I(2048,2048)
Le tableau suivant présente les tests d'évaluation de cluster d'IA dédié hosting avec cohere.embed-multilingual-image-v3.0
hébergé sur une unité Embed Cohere d'un cluster d'IA dédié, dans un scénario d'image avec une hauteur et une largeur de 2 048 pixels.
Accès simultané | Latence de niveau demande (seconde) | Débit de niveau demande (demande par seconde) (RPS) |
---|---|---|
1 | 0,26 | 2,82 |
2 | 0,3 | 4,77 |
4 | 0,29 | 10,43 |
8 | 0,34 | 18,14 |
16 | 0,57 | 21,93 |
32 | 1,09 | 25,44 |
64 | 2,08 | 26,99 |
128 | 4,14 | 26,24 |
256 | 10,17 | 23,6 |