Cohere Rerank 3.5

Rivedere i benchmark delle prestazioni per il modello cohere.rerank.3-5 (Cohere Rerank 3.5) ospitato su un'unità RERANK_COHERE di un cluster AI dedicato in OCI Generative AI.

Un modello di riassegnazione utilizza una query e una lista di testi come input e classifica i testi in base al loro punteggio di rilevanza alla query, ovvero quanto bene ciascun testo corrisponde alla query.

Suggerimento

Per ulteriori informazioni sulla ridefinizione della classificazione, è consigliabile consultare le Best practice per l'utilizzo della ridefinizione della classificazione | Cohere.
  • Vedere i dettagli del modello ed esaminare le sezioni riportate di seguito.
    • Aree disponibili per questo modello.
    • Cluster AI dedicati per l'hosting di questo modello.
  • Esaminare le metriche.

Dimensione documento: 64 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 64 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,13 0,13 7,64
2 0,11 0,11 8,96
4 0,11 0,11 9,12
8 0,11 0,11 9,06
24 0,12 0,12 8,33
48 0,14 0,14 7,19
96 0,17 0,17 5,86

Dimensione documento: 128 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti sono della stessa dimensione, che è 128 token ciascuno, e i benchmark sono forniti per la ri-classificazione 1, 2, 4, 8, 24, 48, e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,11 0,11 9,15
2 0,11 0,11 9,12
4 0,11 0,11 9
8 0,11 0,11 8,81
24 0,13 0,13 7,71
48 0,16 0,16 6,34
96 0,2 0,2 4,81

Dimensione documento: 256 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 256 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,11 0,11 9,1
2 0,11 0,11 9,03
4 0,11 0,11 8,73
8 0,12 0,12 8,14
24 0,15 0,15 6,47
48 0,2 0,2 4,91
96 0,28 0,28 3,52

Dimensione documento: 512 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno la stessa dimensione, che è 512 token ciascuno, e i benchmark sono forniti per la ri-classificazione 1, 2, 4, 8, 24, 48 e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,11 0,11 8,94
2 0,11 0,11 8,61
4 0,12 0,12 7,91
8 0,14 0,14 6,85
24 0,2 0,2 4,87
48 0,3 0,3 3,22
96 0,54 0,54 1,83

Dimensione documento: 1024 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 1.024 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,12 0,12 8,11
2 0,13 0,13 7,22
4 0,15 0,15 6,24
8 0,19 0,19 4,99
24 0,45 0,45 2,2
48 0,73 0,73 1,34
96 1,38 1,38 0,72

Dimensione documento: 2048 Token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 2.048 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,15 0,15 6,13
2 0,18 0,18 5,14
4 0,25 0,25 3,84
8 0,38 0,38 2,52
24 1,05 1,05 0,94
48 2,01 2,01 0,49
96 3,77 3,77 0,26

Dimensione documento: 4096 token

Questo scenario si applica ai modelli di nuova classificazione. In questo scenario, tutti i documenti hanno le stesse dimensioni, ovvero 4.096 token ciascuno, e i benchmark sono forniti per la ri-classificazione di 1, 2, 4, 8, 24, 48 e 96 di questi documenti.

Numero di Documenti Time to First Token (TTFT)(secondo) Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 7,35 7,35 4,65
2 7,35 7,35 3,71
4 7,35 7,35 2,43
8 7,35 7,35 1,24
24 7,35 7,35 0,49
48 7,35 7,35 0,26
96 7,35 7,35 0,14