Cohere Embed Multilingual 3

Rivedere i benchmark delle prestazioni per il modello cohere.embed-multilingual-v3.0 (Cohere Embed Multilingual 3) ospitato su un'unità Embed Cohere di un cluster AI dedicato in OCI Generative AI.

  • Vedere i dettagli del modello ed esaminare le sezioni riportate di seguito.
    • Aree disponibili per questo modello.
    • Cluster AI dedicati per l'hosting di questo modello.
  • Esaminare le metriche.

Incorporamenti testo

Questo scenario si applica solo ai modelli di incorporamento con input di testo. Questo scenario imita la generazione incorporata come parte della pipeline di inclusione dei dati di un database vettoriale. In ogni scenario, tutte le richieste hanno la stessa dimensione, ovvero 96 documenti, ognuno con lo stesso numero di token. Ad esempio, per lo scenario di 512 token imita una raccolta di file PDF di grandi dimensioni, ogni file con oltre 30.000 parole che un utente dovrebbe includere in un database vettoriale.

64 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 64 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,1 0,1 9,86 607,39
2 0,1 0,1 9,66 1.192,6
4 0,11 0,11 9,3 2.295,8
8 0,11 0,11 8,69 4.296,59
24 0,15 0,15 6,69 9.900,74
48 0,19 0,19 5,1 15.114,13
96 0,28 0,28 3,43 20.339,92
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,09 0,09 11,29 697,03
2 0,09 0,09 11,06 1.365,27
4 0,09 0,09 10,58 2.616,91
8 0,1 0,1 9,78 4.818,35
24 0,14 0,14 7,18 10.639,81
48 0,18 0,18 5,32 15.775,42
96 0,28 0,28 3,46 20.495,8

128 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 128 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,1 0,1 9,78 1.243,08
2 0,1 0,1 9,55 2.428,37
4 0,11 0,11 9,16 4.660,31
8 0,12 0,12 8,42 8.561,42
24 0,15 0,15 6,31 19.255,04
48 0,21 0,21 4,62 28.172,8
96 0,31 0,31 3,01 36.706,87
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,09 0,09 11,28 1.435,6
2 0,09 0,09 10,92 2.773,25
4 0,09 0,09 10,36 5.284,49
8 0,1 0,1 9,41 9.575,47
24 0,14 0,14 6,78 20.686
48 0,2 0,2 4,82 29.426,82
96 0,35 0,35 2,64 32.277,12

256 Token

La tabella seguente mostra i benchmark per uno scenario di 96 documenti, 256 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,1 0,1 9,65 2.493,61
2 0,1 0,1 9,37 4.840,64
4 0,11 0,11 8,81 9.107,3
8 0,12 0,12 7,88 16.286,08
24 0,17 0,17 5,5 34.074,47
48 0,24 0,24 3,85 47.783,85
96 0,43 0,43 2,16 53.652,55

512 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 512 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,1 0,1 9,21 4.791,85
2 0,11 0,11 8,74 9.094,38
4 0,12 0,12 7,76 16.165,29
8 0,15 0,15 6,39 26.582,37
24 0,23 0,23 4,03 50.284,92
48 0,37 0,37 2,44 61.014,65
96 0,63 0,63 1,42 71.048,17
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,09 0,09 10,34 5.379,92
2 0,1 0,1 9,79 10.190,27
4 0,11 0,11 8,67 18.059,39
8 0,13 0,13 7 29.158,44
24 0,22 0,22 4,2 52.493,14
48 0,36 0,36 2,36 58.908,72
96 0,62 0,62 1,44 71.746,46

1,024 Token

La tabella seguente mostra i benchmark per uno scenario di 96 documenti, 1.024 token per documento.

Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,09 0,09 8,96 9.348,26
2 0,1 0,1 8,25 17.233,64
4 0,12 0,12 6,87 28.670,18
8 0,15 0,15 5,37 44.877,47
24 0,28 0,28 2,86 71.733,22
48 0,53 0,53 1,52 76.050,39
96 0,99 0,99 0,8 80.597,64

2,048 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 2.048 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,11 0,11 8,16 17.069,42
2 0,13 0,13 7,17 30.023,1
4 0,15 0,15 5,82 48.737,45
8 0,21 0,21 4,21 70.449,76
24 0,48 0,48 1,79 90.090,74
48 0,93 0,93 0,92 92.553,18
96 1,68 1,68 0,51 101.574,61
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,1 0,1 6,27 13.116,54
2 0,12 0,12 5,65 23.647,68
4 0,14 0,14 4,7 39.382,39
8 0,2 0,2 3,32 55.564,63
24 0,48 0,48 1,37 68.783,08
48 0,89 0,89 0,73 72.944,21
96 1,66 1,66 0,39 77.928,29

8,096 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 8.096 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,15 0,15 5,4 44.724,35
2 0,2 0,2 4,05 67.118,88
4 0,31 0,31 2,59 85.752,57
8 0,59 0,59 1,41 93.369,42
24 1,56 1,56 0,53 105.492,68
48 2,84 2,84 0,29 115.098,5
96 5,27 5,27 0,15 121.706,97
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,14 0,14 1,32 10.962,57
2 0,19 0,19 1,06 17.550,18
4 0,29 0,29 0,76 25.090,59
8 0,56 0,56 0,38 25.436,88
24 1,52 1,52 0,15 30.238,8
48 2,79 2,79 0,11 43.355,58
96 5,21 5,21 0,05 42.052,47

32,000 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 32.000 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,38 0,38 1,9 62.367,46
2 0,57 0,57 1,3 85.209,04
4 1,05 1,05 0,75 97.631,79
8 1,91 1,91 0,42 109.411,13
24 5,12 5,12 0,16 122.915,27
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 0,36 0,36 0,01 198,49
8 2,13 2,13 0,37 94.825,57
24 5,78 5,78 0,14 104.466,77

128,000 Token

Le tabelle seguenti mostrano i benchmark per uno scenario di 96 documenti, 128.000 token per documento.

Il modello cohere.embed-multilingual-v3.0 ospitato su un'unità Embed Cohere di un cluster AI dedicato per tutte le aree, ad eccezione dell'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 1 1 0,99 121.894,93
2 2,26 2,26 0,44 134.957,95
4 3,36 3,36 0,29 146.216,07
Il modello cohere.embed-multilingual-v3.0 è ospitato su un'unità Embed Cohere di un cluster AI dedicato per l'area Saudi Arabia Central (Riyadh).
Concorrenza Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS) Throughput totale (token/secondo)
1 1,1 1,1 0,9 109.801,35
2 2,01 2,01 0,49 120.154,57
4 3,74 3,74 0,26 129.080,96