Cohere Embed Multilingual V3
Rivedere i benchmark delle prestazioni per il modello cohere.embed-multilingual-v3.0
(Cohere Embed Multilingual V3) ospitato su un'unità Embed Cohere di un cluster AI dedicato in OCI Generative AI.
Incorporamenti
Questo scenario si applica solo ai modelli di incorporamento. Questo scenario imita la generazione incorporata come parte della pipeline di inclusione dei dati di un database vettoriale. In questo scenario, tutte le richieste hanno le stesse dimensioni, ovvero 96 documenti, ognuno con 512 token. Un esempio potrebbe essere una raccolta di file PDF di grandi dimensioni, ogni file con più di 30.000 parole che un utente desidera includere in un database vettoriale.
Concorrenza | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al minuto) (RPM) |
---|---|---|
1 | 2,25 | 24 |
8 | 4,33 | 120 |
32 | 14,94 | 144 |
128 | 49,21 | 198 |
Embeddings più leggeri
Questo scenario si applica solo ai modelli di incorporamento. Questo scenario di incorporamento più leggero è simile allo scenario di incorporamento, tranne che riduciamo le dimensioni di ogni richiesta a 16 documenti, ciascuno con 512 token. File più piccoli con meno parole potrebbero essere supportati da questo scenario.
Concorrenza | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al minuto) (RPM) |
---|---|---|
1 | 1,28 | 42 |
8 | 1,38 | 288 |
32 | 3,44 | 497 |
128 | 11,94 | 702 |