Cohere Embed 4
Rivedere i benchmark delle prestazioni per il modello cohere.embed-v4.0
(Cohere Embed 4) ospitato su un'unità Embed Cohere di un cluster AI dedicato in OCI Generative AI.
Incorporamenti testo
Questo scenario si applica solo ai modelli di incorporamento con input di testo. Questo scenario imita la generazione incorporata come parte della pipeline di inclusione dei dati di un database vettoriale. In ogni scenario, tutte le richieste hanno la stessa dimensione, ovvero 96 documenti, ognuno con lo stesso numero di token. Ad esempio, per lo scenario di 512 token imita una raccolta di file PDF di grandi dimensioni, ogni file con oltre 30.000 parole che un utente dovrebbe includere in un database vettoriale.
64 Token
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 64 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,09 | 11,15 | 668,45 |
2 | 0,09 | 10,79 | 1.293,27 |
4 | 0,1 | 9,88 | 2.370,14 |
8 | 0,11 | 8,55 | 4.105,4 |
24 | 0,19 | 5,1 | 7.360,01 |
48 | 0,31 | 3,1 | 8.933,99 |
96 | 0,54 | 1,78 | 10.282,68 |
128 Token
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 128 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,09 | 11,27 | 1.381,7 |
2 | 0,09 | 10,67 | 2.617,09 |
4 | 0,1 | 9,67 | 4.750,2 |
8 | 0,12 | 8,14 | 7.990,79 |
24 | 0,22 | 4,29 | 12.624,79 |
48 | 0,35 | 2,76 | 16.251,43 |
96 | 0,64 | 1,51 | 17.735,38 |
512 Token
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 512 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,09 | 10,83 | 5.410,49 |
2 | 0,1 | 9,65 | 9.642,11 |
4 | 0,12 | 7,52 | 15.025,97 |
8 | 0,16 | 5,9 | 23.556,71 |
24 | 0,35 | 2,71 | 32.451,55 |
48 | 0,68 | 1,39 | 33.273,59 |
96 | 1,25 | 0,75 | 36.072,1 |
1,024 Token
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 1.024 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,09 | 9,55 | 9.559,38 |
2 | 0,12 | 1,3 | 2.601,06 |
4 | 0,15 | 6,06 | 24.284,74 |
8 | 0,23 | 4,05 | 32.432,49 |
24 | 0,6 | 1,56 | 37.501,74 |
48 | 1,09 | 0,85 | 40.893,6 |
96 | 2,11 | 0,31 | 29.835,31 |
2,048 Token
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 2.048 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,11 | 7,58 | 15.203,74 |
2 | 0,14 | 6,09 | 24.431,99 |
4 | 0,22 | 4 | 32.065,33 |
8 | 0,37 | 2,48 | 39.802,12 |
24 | 1,02 | 0,9 | 43.230,02 |
48 | 2 | 0,46 | 44.251,96 |
8,096 Token
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitato su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 8.096 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,25 | 3,31 | 26.290,24 |
2 | 0,42 | 2,05 | 32.530,08 |
4 | 0,82 | 1,09 | 34.646,38 |
8 | 1,59 | 0,57 | 36.389,86 |
24 | 4,47 | 0,2 | 39.049,48 |
48 | 8,75 | 0,11 | 40.180,09 |
96 | 17,3 | 0,05 | 39.843,97 |
32,000 Token
La tabella riportata di seguito mostra l'hosting dei benchmark cluster AI dedicati con cohere.embed-v4.0
ospitati su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di 96 documenti, 32.000 token per documento.
Concorrenza | Latenza a livello di richiesta (secondo) | Velocità richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,92 | 0,89 | 27.968,24 |
2 | 1,74 | 0,5 | 31.141,92 |
4 | 2,92 | 0,3 | 37.838,06 |
8 | 5,73 | 0,16 | 39.090,65 |
24 | 16,86 | 0,05 | 40.623,28 |
Incorporazioni immagine
Questo scenario si applica solo ai modelli di incorporamento con input di immagine. In ogni scenario, I(M,N): immagine con Npx di altezza e Mpx di larghezza rappresenta un'immagine con l'altezza di M
e la larghezza di N
pixel. Ad esempio, I(1024,512) è un'immagine con l'altezza di 1,024 pixel e la larghezza di 512 pixel.
S(512,512)
La tabella riportata di seguito mostra l'hosting dei benchmark cluster AI dedicati con cohere.embed-v4.0
ospitati su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di un'immagine con altezza e larghezza di 512 pixel.
Concorrenza | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|
1 | 0,18 | 4,76 |
2 | 0,19 | 8,89 |
4 | 0,27 | 13,17 |
8 | 0,49 | 14,84 |
16 | 0,94 | 16,14 |
32 | 1,84 | 16,45 |
64 | 3,66 | 16,38 |
128 | 7,27 | 16,06 |
256 | 13,57 | 16 |
S(1024,512)
La tabella riportata di seguito mostra l'hosting di benchmark cluster AI dedicati con cohere.embed-v4.0
ospitati su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di un'immagine con altezza di 1.024 pixel e larghezza di 512 pixel.
Concorrenza | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|
1 | 0,25 | 3,42 |
2 | 0,25 | 6,72 |
4 | 0,38 | 9,17 |
8 | 0,78 | 9,52 |
16 | 1,52 | 10,04 |
32 | 2,93 | 10,5 |
64 | 5,75 | 10,48 |
128 | 11,23 | 10,52 |
256 | 19,97 | 10,13 |
S(2048,2048)
La tabella riportata di seguito mostra l'hosting dei benchmark cluster AI dedicati con cohere.embed-v4.0
ospitati su un'unità Embed Cohere di un cluster AI dedicato, in uno scenario di un'immagine con altezza e larghezza di 2.048 pixel.
Concorrenza | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|
1 | 0,86 | 1,04 |
2 | 0,98 | 1,73 |
4 | 1,84 | 2,04 |
8 | 3,02 | 1,42 |
16 | 7,71 | 2,03 |
32 | 14,93 | 2,1 |
64 | 25,73 | 1,98 |
128 | 26,92 | 1,86 |
256 | 27,29 | 1,91 |