Cohere Embed Multilingual 3
Rivedere i benchmark delle prestazioni per il modello cohere.embed-multilingual-v3.0
(Cohere Embed Multilingual 3) ospitato su un'unità Embed Cohere di un cluster AI dedicato in OCI Generative AI.
Incorporamenti testo
Questo scenario si applica solo ai modelli di incorporamento con input di testo. Questo scenario imita la generazione incorporata come parte della pipeline di inclusione dei dati di un database vettoriale. In ogni scenario, tutte le richieste hanno la stessa dimensione, ovvero 96 documenti, ognuno con lo stesso numero di token. Ad esempio, per lo scenario di 512 token imita una raccolta di file PDF di grandi dimensioni, ogni file con oltre 30.000 parole che un utente dovrebbe includere in un database vettoriale.
64 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 64 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,1 0,1 9,86 607,39 2 0,1 0,1 9,66 1.192,6 4 0,11 0,11 9,3 2.295,8 8 0,11 0,11 8,69 4.296,59 24 0,15 0,15 6,69 9.900,74 48 0,19 0,19 5,1 15.114,13 96 0,28 0,28 3,43 20.339,92 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,09 0,09 11,29 697,03 2 0,09 0,09 11,06 1.365,27 4 0,09 0,09 10,58 2.616,91 8 0,1 0,1 9,78 4.818,35 24 0,14 0,14 7,18 10.639,81 48 0,18 0,18 5,32 15.775,42 96 0,28 0,28 3,46 20.495,8
128 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 128 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,1 0,1 9,78 1.243,08 2 0,1 0,1 9,55 2.428,37 4 0,11 0,11 9,16 4.660,31 8 0,12 0,12 8,42 8.561,42 24 0,15 0,15 6,31 19.255,04 48 0,21 0,21 4,62 28.172,8 96 0,31 0,31 3,01 36.706,87 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,09 0,09 11,28 1.435,6 2 0,09 0,09 10,92 2.773,25 4 0,09 0,09 10,36 5.284,49 8 0,1 0,1 9,41 9.575,47 24 0,14 0,14 6,78 20.686 48 0,2 0,2 4,82 29.426,82 96 0,35 0,35 2,64 32.277,12
256 Token
La tabella seguente mostra i benchmark per uno scenario di 96 documenti, 256 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,1 0,1 9,65 2.493,61 2 0,1 0,1 9,37 4.840,64 4 0,11 0,11 8,81 9.107,3 8 0,12 0,12 7,88 16.286,08 24 0,17 0,17 5,5 34.074,47 48 0,24 0,24 3,85 47.783,85 96 0,43 0,43 2,16 53.652,55
512 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 512 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,1 0,1 9,21 4.791,85 2 0,11 0,11 8,74 9.094,38 4 0,12 0,12 7,76 16.165,29 8 0,15 0,15 6,39 26.582,37 24 0,23 0,23 4,03 50.284,92 48 0,37 0,37 2,44 61.014,65 96 0,63 0,63 1,42 71.048,17 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,09 0,09 10,34 5.379,92 2 0,1 0,1 9,79 10.190,27 4 0,11 0,11 8,67 18.059,39 8 0,13 0,13 7 29.158,44 24 0,22 0,22 4,2 52.493,14 48 0,36 0,36 2,36 58.908,72 96 0,62 0,62 1,44 71.746,46
1,024 Token
La tabella seguente mostra i benchmark per uno scenario di 96 documenti, 1.024 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,09 0,09 8,96 9.348,26 2 0,1 0,1 8,25 17.233,64 4 0,12 0,12 6,87 28.670,18 8 0,15 0,15 5,37 44.877,47 24 0,28 0,28 2,86 71.733,22 48 0,53 0,53 1,52 76.050,39 96 0,99 0,99 0,8 80.597,64
2,048 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 2.048 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,11 0,11 8,16 17.069,42 2 0,13 0,13 7,17 30.023,1 4 0,15 0,15 5,82 48.737,45 8 0,21 0,21 4,21 70.449,76 24 0,48 0,48 1,79 90.090,74 48 0,93 0,93 0,92 92.553,18 96 1,68 1,68 0,51 101.574,61 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,1 0,1 6,27 13.116,54 2 0,12 0,12 5,65 23.647,68 4 0,14 0,14 4,7 39.382,39 8 0,2 0,2 3,32 55.564,63 24 0,48 0,48 1,37 68.783,08 48 0,89 0,89 0,73 72.944,21 96 1,66 1,66 0,39 77.928,29
8,096 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 8.096 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,15 0,15 5,4 44.724,35 2 0,2 0,2 4,05 67.118,88 4 0,31 0,31 2,59 85.752,57 8 0,59 0,59 1,41 93.369,42 24 1,56 1,56 0,53 105.492,68 48 2,84 2,84 0,29 115.098,5 96 5,27 5,27 0,15 121.706,97 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,14 0,14 1,32 10.962,57 2 0,19 0,19 1,06 17.550,18 4 0,29 0,29 0,76 25.090,59 8 0,56 0,56 0,38 25.436,88 24 1,52 1,52 0,15 30.238,8 48 2,79 2,79 0,11 43.355,58 96 5,21 5,21 0,05 42.052,47
32,000 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 32.000 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,38 0,38 1,9 62.367,46 2 0,57 0,57 1,3 85.209,04 4 1,05 1,05 0,75 97.631,79 8 1,91 1,91 0,42 109.411,13 24 5,12 5,12 0,16 122.915,27 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 0,36 0,36 0,01 198,49 8 2,13 2,13 0,37 94.825,57 24 5,78 5,78 0,14 104.466,77
128,000 Token
Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 128.000 token per documento.
- Il modello
cohere.embed-multilingual-v3.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1 1 0,99 121.894,93 2 2,26 2,26 0,44 134.957,95 4 3,36 3,36 0,29 146.216,07 - Il modello
cohere.embed-multilingual-v3.0
è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh). -
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo) 1 1,1 1,1 0,9 109.801,35 2 2,01 2,01 0,49 120.154,57 4 3,74 3,74 0,26 129.080,96