Cohere Embed Multilingual 3
Consultez les points de référence de performance pour le modèle cohere.embed-multilingual-v3.0
(Cohere Embed Multilingual 3) hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA dans l'IA générative OCI.
Plongements de texte
Ce scénario s'applique uniquement aux modèles d'intégration avec entrée de texte. Ce scénario imite la génération d'intégration dans le pipeline d'ingestion de données d'une base de données vectorielle. Dans chaque scénario, toutes les demandes ont la même taille, soit 96 documents, chacun avec le même nombre de jetons. Par exemple, pour le scénario de 512 jetons imite une collection de fichiers PDF volumineux, chaque fichier contenant plus de 30 000 mots qu'un utilisateur ingérerait dans une base de données vectorielle.
64 Jetons
Les tableaux suivants présentent les points de référence pour un scénario de 96 documents, soit 64 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.1 0.1 9.86 607.39 2 0.1 0.1 9.66 1,192.6 4 0.11 0.11 9.3 2,295.8 8 0.11 0.11 8.69 4,296.59 24 0.15 0.15 6.69 9,900.74 48 0.19 0.19 5.1 15,114.13 96 0.28 0.28 3.43 20,339.92 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.09 0.09 11.29 697.03 2 0.09 0.09 11.06 1,365.27 4 0.09 0.09 10.58 2,616.91 8 0.1 0.1 9.78 4,818.35 24 0.14 0.14 7.18 10,639.81 48 0.18 0.18 5.32 15,775.42 96 0.28 0.28 3.46 20,495.8
128 Jetons 128
Les tableaux suivants montrent les points de référence pour un scénario de 96 documents, soit 128 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.1 0.1 9.78 1,243.08 2 0.1 0.1 9.55 2,428.37 4 0.11 0.11 9.16 4,660.31 8 0.12 0.12 8.42 8,561.42 24 0.15 0.15 6.31 19,255.04 48 0.21 0.21 4.62 28,172.8 96 0.31 0.31 3.01 36,706.87 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.09 0.09 11.28 1,435.6 2 0.09 0.09 10.92 2,773.25 4 0.09 0.09 10.36 5,284.49 8 0.1 0.1 9.41 9,575.47 24 0.14 0.14 6.78 20,686 48 0.2 0.2 4.82 29,426.82 96 0.35 0.35 2.64 32,277.12
256 Jetons
Le tableau suivant présente les points de référence pour un scénario de 96 documents, soit 256 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.1 0.1 9.65 2,493.61 2 0.1 0.1 9.37 4,840.64 4 0.11 0.11 8.81 9,107.3 8 0.12 0.12 7.88 16,286.08 24 0.17 0.17 5.5 34,074.47 48 0.24 0.24 3.85 47,783.85 96 0.43 0.43 2.16 53,652.55
512 Jetons
Les tableaux suivants montrent les points de référence pour un scénario de 96 documents, soit 512 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.1 0.1 9.21 4,791.85 2 0.11 0.11 8.74 9,094.38 4 0.12 0.12 7.76 16,165.29 8 0.15 0.15 6.39 26,582.37 24 0.23 0.23 4.03 50,284.92 48 0.37 0.37 2.44 61,014.65 96 0.63 0.63 1.42 71,048.17 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.09 0.09 10.34 5,379.92 2 0.1 0.1 9.79 10,190.27 4 0.11 0.11 8.67 18,059.39 8 0.13 0.13 7 29,158.44 24 0.22 0.22 4.2 52,493.14 48 0.36 0.36 2.36 58,908.72 96 0.62 0.62 1.44 71,746.46
1,024 Jetons
Le tableau suivant présente les points de référence pour un scénario de 96 documents, soit 1 024 jetons par document.
- Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.09 0.09 8.96 9,348.26 2 0.1 0.1 8.25 17,233.64 4 0.12 0.12 6.87 28,670.18 8 0.15 0.15 5.37 44,877.47 24 0.28 0.28 2.86 71,733.22 48 0.53 0.53 1.52 76,050.39 96 0.99 0.99 0.8 80,597.64
2,048 Jetons
Les tableaux suivants présentent les points de référence pour un scénario de 96 documents, soit 2 048 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.11 0.11 8.16 17,069.42 2 0.13 0.13 7.17 30,023.1 4 0.15 0.15 5.82 48,737.45 8 0.21 0.21 4.21 70,449.76 24 0.48 0.48 1.79 90,090.74 48 0.93 0.93 0.92 92,553.18 96 1.68 1.68 0.51 101,574.61 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.1 0.1 6.27 13,116.54 2 0.12 0.12 5.65 23,647.68 4 0.14 0.14 4.7 39,382.39 8 0.2 0.2 3.32 55,564.63 24 0.48 0.48 1.37 68,783.08 48 0.89 0.89 0.73 72,944.21 96 1.66 1.66 0.39 77,928.29
8,096 Jetons
Les tableaux suivants présentent les points de référence pour un scénario de 96 documents, soit 8 096 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.15 0.15 5.4 44,724.35 2 0.2 0.2 4.05 67,118.88 4 0.31 0.31 2.59 85,752.57 8 0.59 0.59 1.41 93,369.42 24 1.56 1.56 0.53 105,492.68 48 2.84 2.84 0.29 115,098.5 96 5.27 5.27 0.15 121,706.97 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.14 0.14 1.32 10,962.57 2 0.19 0.19 1.06 17,550.18 4 0.29 0.29 0.76 25,090.59 8 0.56 0.56 0.38 25,436.88 24 1.52 1.52 0.15 30,238.8 48 2.79 2.79 0.11 43,355.58 96 5.21 5.21 0.05 42,052.47
32,000 Jetons
Les tableaux suivants présentent les points de référence pour un scénario de 96 documents, soit 32 000 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.38 0.38 1.9 62,367.46 2 0.57 0.57 1.3 85,209.04 4 1.05 1.05 0.75 97,631.79 8 1.91 1.91 0.42 109,411.13 24 5.12 5.12 0.16 122,915.27 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 0.36 0.36 0.01 198.49 8 2.13 2.13 0.37 94,825.57 24 5.78 5.78 0.14 104,466.77
128,000 Jetons
Les tableaux suivants présentent les points de référence pour un scénario de 96 documents, soit 128 000 jetons par document.
- Modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour toutes les régions, à l'exception de la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1 1 0.99 121,894.93 2 2.26 2.26 0.44 134,957.95 4 3.36 3.36 0.29 146,216.07 - Le modèle
cohere.embed-multilingual-v3.0
hébergé sur une unité Embed Cohere d'une grappe dédiée à l'IA pour la région Arabie saoudite - Centre (Riyad). -
Concurrence Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS) Débit total (jetons/seconde) 1 1.1 1.1 0.9 109,801.35 2 2.01 2.01 0.49 120,154.57 4 3.74 3.74 0.26 129,080.96