Cohere Rerank 3.5
Rivedere i benchmark delle prestazioni per il modello cohere.rerank.3-5
(Cohere Rerank 3.5) ospitato su un'unità RERANK_COHERE di un cluster AI dedicato in OCI Generative AI.
Un modello di riassegnazione utilizza una query e una lista di testi come input e classifica i testi in base al loro punteggio di rilevanza alla query, ovvero quanto bene ciascun testo corrisponde alla query.
Per ulteriori informazioni sulla ridefinizione della classificazione, è consigliabile consultare le Best practice per l'utilizzo della ridefinizione della classificazione | Cohere.
Dimensione documento: 64 token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 64 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,13 | 0,13 | 7,64 |
2 | 0,11 | 0,11 | 8,96 |
4 | 0,11 | 0,11 | 9,12 |
8 | 0,11 | 0,11 | 9,06 |
24 | 0,12 | 0,12 | 8,33 |
48 | 0,14 | 0,14 | 7,19 |
96 | 0,17 | 0,17 | 5,86 |
Dimensione documento: 128 token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti sono della stessa dimensione, che è 128 token ciascuno, e i benchmark sono forniti per la ri-classificazione 1, 2, 4, 8, 24, 48, e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,15 |
2 | 0,11 | 0,11 | 9,12 |
4 | 0,11 | 0,11 | 9 |
8 | 0,11 | 0,11 | 8,81 |
24 | 0,13 | 0,13 | 7,71 |
48 | 0,16 | 0,16 | 6,34 |
96 | 0,2 | 0,2 | 4,81 |
Dimensione documento: 256 token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 256 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,1 |
2 | 0,11 | 0,11 | 9,03 |
4 | 0,11 | 0,11 | 8,73 |
8 | 0,12 | 0,12 | 8,14 |
24 | 0,15 | 0,15 | 6,47 |
48 | 0,2 | 0,2 | 4,91 |
96 | 0,28 | 0,28 | 3,52 |
Dimensione documento: 512 token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno la stessa dimensione, che è 512 token ciascuno, e i benchmark sono forniti per la ri-classificazione 1, 2, 4, 8, 24, 48 e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 8,94 |
2 | 0,11 | 0,11 | 8,61 |
4 | 0,12 | 0,12 | 7,91 |
8 | 0,14 | 0,14 | 6,85 |
24 | 0,2 | 0,2 | 4,87 |
48 | 0,3 | 0,3 | 3,22 |
96 | 0,54 | 0,54 | 1,83 |
Dimensione documento: 1024 token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 1.024 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,12 | 0,12 | 8,11 |
2 | 0,13 | 0,13 | 7,22 |
4 | 0,15 | 0,15 | 6,24 |
8 | 0,19 | 0,19 | 4,99 |
24 | 0,45 | 0,45 | 2,2 |
48 | 0,73 | 0,73 | 1,34 |
96 | 1,38 | 1,38 | 0,72 |
Dimensione documento: 2048 Token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 2.048 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 0,15 | 0,15 | 6,13 |
2 | 0,18 | 0,18 | 5,14 |
4 | 0,25 | 0,25 | 3,84 |
8 | 0,38 | 0,38 | 2,52 |
24 | 1,05 | 1,05 | 0,94 |
48 | 2,01 | 2,01 | 0,49 |
96 | 3,77 | 3,77 | 0,26 |
Dimensione documento: 4096 token
Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 4.096 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.
Numero di Documenti | Time to First Token (TTFT)(secondo) | Latenza a livello di richiesta (secondo) | Throughput a livello di richiesta (richiesta al secondo) (RPS) |
---|---|---|---|
1 | 7,35 | 7,35 | 4,65 |
2 | 7,35 | 7,35 | 3,71 |
4 | 7,35 | 7,35 | 2,43 |
8 | 7,35 | 7,35 | 1,24 |
24 | 7,35 | 7,35 | 0,49 |
48 | 7,35 | 7,35 | 0,26 |
96 | 7,35 | 7,35 | 0,14 |