Cohere Rerank 3.5

Rivedere i benchmark delle prestazioni per il modello cohere.rerank.3-5 (Cohere Rerank 3.5) ospitato su un'unità RERANK_COHERE di un cluster AI dedicato in OCI Generative AI.

Un modello di riassegnazione utilizza una query e una lista di testi come input e classifica i testi in base al loro punteggio di rilevanza alla query, ovvero quanto bene ciascun testo corrisponde alla query.

Suggerimento

Per ulteriori informazioni sulla ridefinizione della classificazione, è consigliabile consultare le Best practice per l'utilizzo della ridefinizione della classificazione | Cohere.

- Vedere le aree disponibili per questo modello.
- Rivedere la dimensione dell'unità cluster AI dedicata per l'hosting di questo modello nella pagina modello.
- Esaminare le metriche.

Dimensione documento: 64 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 64 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	0,13	0,13	7,64
2	0,11	0,11	8,96
4	0,11	0,11	9,12
8	0,11	0,11	9,06
24	0,12	0,12	8,33
48	0,14	0,14	7,19
96	0,17	0,17	5,86

Dimensione documento: 128 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti sono della stessa dimensione, che è 128 token ciascuno, e i benchmark sono forniti per la ri-classificazione 1, 2, 4, 8, 24, 48, e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	0,11	0,11	9,15
2	0,11	0,11	9,12
4	0,11	0,11	9
8	0,11	0,11	8,81
24	0,13	0,13	7,71
48	0,16	0,16	6,34
96	0,2	0,2	4,81

Dimensione documento: 256 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 256 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	0,11	0,11	9,1
2	0,11	0,11	9,03
4	0,11	0,11	8,73
8	0,12	0,12	8,14
24	0,15	0,15	6,47
48	0,2	0,2	4,91
96	0,28	0,28	3,52

Dimensione documento: 512 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno la stessa dimensione, che è 512 token ciascuno, e i benchmark sono forniti per la ri-classificazione 1, 2, 4, 8, 24, 48 e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	0,11	0,11	8,94
2	0,11	0,11	8,61
4	0,12	0,12	7,91
8	0,14	0,14	6,85
24	0,2	0,2	4,87
48	0,3	0,3	3,22
96	0,54	0,54	1,83

Dimensione documento: 1024 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 1.024 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	0,12	0,12	8,11
2	0,13	0,13	7,22
4	0,15	0,15	6,24
8	0,19	0,19	4,99
24	0,45	0,45	2,2
48	0,73	0,73	1,34
96	1,38	1,38	0,72

Dimensione documento: 2048 Token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 2.048 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	0,15	0,15	6,13
2	0,18	0,18	5,14
4	0,25	0,25	3,84
8	0,38	0,38	2,52
24	1,05	1,05	0,94
48	2,01	2,01	0,49
96	3,77	3,77	0,26

Dimensione documento: 4096 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 4.096 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.


Numero di Documenti	Time to First Token (TTFT)(secondo)	Latenza a livello di richiesta (secondo)	Throughput a livello di richiesta (richiesta al secondo) (RPS)
1	7,35	7,35	4,65
2	7,35	7,35	3,71
4	7,35	7,35	2,43
8	7,35	7,35	1,24
24	7,35	7,35	0,49
48	7,35	7,35	0,26
96	7,35	7,35	0,14

Documentazione dell'infrastruttura Oracle Cloud