Cohere Rerank 3.5

Rivedere i benchmark delle prestazioni per il modello cohere.rerank.3-5 (Cohere Rerank 3.5) ospitato su un'unità RERANK_COHERE di un cluster AI dedicato in OCI Generative AI.

Un modello di riassegnazione utilizza una query e una lista di testi come input e classifica i testi in base al loro punteggio di rilevanza alla query, ovvero quanto bene ciascun testo corrisponde alla query.

Riprogramma scenari benchmark 3.5
  • La query è costituita da 100 token per tutti gli scenari.
  • In tutti gli scenari è disponibile un solo documento di supporto lungo 10.000 token.
  • Ogni scenario raggruppa questo documento da 10.000 token in base a un parametro max_tokens_per_doc. Questi valori sono 64, 128, 256, 512, 1024, 2048 e 4096.
  • La dimensione massima del chunk è 4096 token, ovvero il numero massimo di token che un modello Rerank 3.5 può elaborare in un passaggio.
  • Poiché il documento è lungo 10.000 token e la lunghezza del contesto del modello è di 4096 token, in tutti gli scenari, il documento viene suddiviso in blocchi.
  • Ogni pezzo include:
    • Aggiunta di token: per assicurarsi che l'input corrisponda al formato previsto del modello.
    • Query: 100 token.
    • Sezione documento: ad esempio, per un token max_tokens_per_doc di 4096, ogni chunk include una delle sezioni del documento riportate di seguito.
      • Sezione documento 1: Documento da 0 a 3.992 token.
      • Sezione documento 2: Documento da 3.993 a 7.985 token.
      • Sezione documento 3: Documento da 7.986 a 9.999 token. Questa sezione è più piccola delle altre due sezioni, perché il documento è lungo solo 10.000 token.
  • Ogni scenario di benchmark è definito da R(max_tokens_per_doc, 100).
  • Vedere i dettagli del modello ed esaminare le sezioni riportate di seguito.
    • Aree disponibili per questo modello.
    • Cluster AI dedicati per l'hosting di questo modello.
  • Esaminare le metriche.

R(64.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,13 7,64
2 0,11 8,96
4 0,11 9,12
8 0,11 9,06
24 0,12 8,33
48 0,14 7,19
96 0,17 5,86

R(128.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,11 9,15
2 0,11 9,12
4 0,11 9
8 0,11 8,81
24 0,13 7,71
48 0,16 6,34
96 0,2 4,81

R(256.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,11 9,1
2 0,11 9,03
4 0,11 8,73
8 0,12 8,14
24 0,15 6,47
48 0,2 4,91
96 0,28 3,52

R(512.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,11 8,94
2 0,11 8,61
4 0,12 7,91
8 0,14 6,85
24 0,2 4,87
48 0,3 3,22
96 0,54 1,83

R(1024.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,12 8,11
2 0,13 7,22
4 0,15 6,24
8 0,19 4,99
24 0,45 2,2
48 0,73 1,34
96 1,38 0,72

R(2048.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,15 6,13
2 0,18 5,14
4 0,25 3,84
8 0,38 2,52
24 1,05 0,94
48 2,01 0,49
96 3,77 0,26

R(4096.100)

Dimensione batch Latenza a livello di richiesta (secondo) Throughput a livello di richiesta (richiesta al secondo) (RPS)
1 0,19 4,65
2 0,25 3,71
4 0,39 2,43
8 0,78 1,24
24 1,98 0,49
48 3,8 0,26
96 7,35 0,14