Cohere Embed Multilingual 3
Prüfen Sie Performancebenchmarks für das cohere.embed-multilingual-v3.0
(Cohere Embed Multilingual 3)-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters in OCI Generative AI gehostet wird.
Texteinbettungen
Dieses Szenario gilt nur für die Einbettungsmodelle mit Texteingabe. Dieses Szenario ahmt die Einbettungsgenerierung als Teil der Datenaufnahme-Pipeline einer Vektordatenbank nach. In jedem Szenario haben alle Anforderungen die gleiche Größe, d.h. 96 Dokumente, die jeweils dieselbe Anzahl von Token aufweisen. Zum Beispiel ahmt für das Szenario von 512 Token eine Sammlung großer PDF-Dateien nach, jede Datei mit mehr als 30.000 Wörtern, die ein Benutzer in eine Vektor-DB aufnehmen würde.
64 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 64 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,1 0,1 9,86 607,39 2 0,1 0,1 9,66 1.192,6 4 0,11 0,11 9,3 2.295,8 8 0,11 0,11 8,69 4.296,59 24 0,15 0,15 6,69 9.900,74 48 0,19 0,19 5,1 15.114,13 96 0,28 0,28 3,43 20.339,92 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,09 0,09 11,29 697,03 2 0,09 0,09 11,06 1.365,27 4 0,09 0,09 10,58 2.616,91 8 0,1 0,1 9,78 4.818,35 24 0,14 0,14 7,18 10.639,81 48 0,18 0,18 5,32 15.775,42 96 0,28 0,28 3,46 20.495,8
128 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 128 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,1 0,1 9,78 1.243,08 2 0,1 0,1 9,55 2.428,37 4 0,11 0,11 9,16 4.660,31 8 0,12 0,12 8,42 8.561,42 24 0,15 0,15 6,31 19.255,04 48 0,21 0,21 4,62 28.172,8 96 0,31 0,31 3,01 36.706,87 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,09 0,09 11,28 1.435,6 2 0,09 0,09 10,92 2.773,25 4 0,09 0,09 10,36 5.284,49 8 0,1 0,1 9,41 9.575,47 24 0,14 0,14 6,78 20.686 48 0,2 0,2 4,82 29.426,82 96 0,35 0,35 2,64 32.277,12
256 Token
Die folgende Tabelle zeigt die Benchmarks für ein Szenario mit 96 Dokumenten, 256 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,1 0,1 9,65 2.493,61 2 0,1 0,1 9,37 4.840,64 4 0,11 0,11 8,81 9.107,3 8 0,12 0,12 7,88 16.286,08 24 0,17 0,17 5,5 34.074,47 48 0,24 0,24 3,85 47.783,85 96 0,43 0,43 2,16 53.652,55
512 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 512 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,1 0,1 9,21 4.791,85 2 0,11 0,11 8,74 9.094,38 4 0,12 0,12 7,76 16.165,29 8 0,15 0,15 6,39 26.582,37 24 0,23 0,23 4,03 50.284,92 48 0,37 0,37 2,44 61.014,65 96 0,63 0,63 1,42 71.048,17 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,09 0,09 10,34 5.379,92 2 0,1 0,1 9,79 10.190,27 4 0,11 0,11 8,67 18.059,39 8 0,13 0,13 7 29.158,44 24 0,22 0,22 4,2 52.493,14 48 0,36 0,36 2,36 58.908,72 96 0,62 0,62 1,44 71.746,46
1,024 Token
Die folgende Tabelle zeigt die Benchmarks für ein Szenario mit 96 Dokumenten, 1.024 Token pro Dokument.
- Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,09 0,09 8,96 9.348,26 2 0,1 0,1 8,25 17.233,64 4 0,12 0,12 6,87 28.670,18 8 0,15 0,15 5,37 44.877,47 24 0,28 0,28 2,86 71.733,22 48 0,53 0,53 1,52 76.050,39 96 0,99 0,99 0,8 80.597,64
2,048 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 2.048 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,11 0,11 8,16 17.069,42 2 0,13 0,13 7,17 30.023,1 4 0,15 0,15 5,82 48.737,45 8 0,21 0,21 4,21 70.449,76 24 0,48 0,48 1,79 90.090,74 48 0,93 0,93 0,92 92.553,18 96 1,68 1,68 0,51 101.574,61 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,1 0,1 6,27 13.116,54 2 0,12 0,12 5,65 23.647,68 4 0,14 0,14 4,7 39.382,39 8 0,2 0,2 3,32 55.564,63 24 0,48 0,48 1,37 68.783,08 48 0,89 0,89 0,73 72.944,21 96 1,66 1,66 0,39 77.928,29
8,096 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 8.096 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,15 0,15 5,4 44.724,35 2 0,2 0,2 4,05 67.118,88 4 0,31 0,31 2,59 85.752,57 8 0,59 0,59 1,41 93.369,42 24 1,56 1,56 0,53 105.492,68 48 2,84 2,84 0,29 115.098,5 96 5,27 5,27 0,15 121.706,97 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,14 0,14 1,32 10.962,57 2 0,19 0,19 1,06 17.550,18 4 0,29 0,29 0,76 25.090,59 8 0,56 0,56 0,38 25.436,88 24 1,52 1,52 0,15 30.238,8 48 2,79 2,79 0,11 43.355,58 96 5,21 5,21 0,05 42.052,47
32,000 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 32.000 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,38 0,38 1,9 62.367,46 2 0,57 0,57 1,3 85.209,04 4 1,05 1,05 0,75 97.631,79 8 1,91 1,91 0,42 109.411,13 24 5,12 5,12 0,16 122.915,27 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 0,36 0,36 0,01 198,49 8 2,13 2,13 0,37 94.825,57 24 5,78 5,78 0,14 104.466,77
128,000 Token
Die folgenden Tabellen zeigen die Benchmarks für ein Szenario mit 96 Dokumenten, 128.000 Token pro Dokument.
- Das Modell
cohere.embed-multilingual-v3.0
, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für alle Regionen gehostet wird, mit Ausnahme der Region Saudi Arabia Central (Riyadh). -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 1 1 0,99 121.894,93 2 2,26 2,26 0,44 134.957,95 4 3,36 3,36 0,29 146.216,07 - Das
cohere.embed-multilingual-v3.0
-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters für die Region Saudi Arabia Central (Riyadh) gehostet wird. -
Nebenläufigkeit Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS) Gesamtdurchsatz (Token/Sekunde) 1 1,1 1,1 0,9 109.801,35 2 2,01 2,01 0,49 120.154,57 4 3,74 3,74 0,26 129.080,96