Cohere Rerank 3.5

Prüfen Sie Performancebenchmarks für das cohere.rerank.3-5 (Cohere Rerank 3.5)-Modell, das auf einer RERANK_COHERE-Einheit eines dedizierten KI-Clusters in OCI Generative AI gehostet wird.

Ein Ranglistenmodell übernimmt eine Abfrage und eine Liste von Texten als Eingabe und ordnet die Texte basierend auf ihrem Relevanzscore zur Abfrage ein. Das heißt, wie gut jeder Text mit der Abfrage übereinstimmt.

Rerank 3.5 Benchmark-Szenarien
  • Die Abfrage ist 100 Token für alle Szenarios.
  • Alle Szenarios enthalten nur ein Belegdokument, das 10.000 Token lang ist.
  • Jedes Szenario blockiert dieses 10.000-Token-Dokument basierend auf einem max_tokens_per_doc-Parameter. Diese Werte lauten 64, 128, 256, 512, 1024, 2048 und 4096.
  • Die maximale Chunk-Größe beträgt 4096 Token. Dies sind die maximalen Token, die ein Rerank 3.5-Modell in einem Durchlauf verarbeiten kann.
  • Da das Dokument 10.000 Token lang ist und die Kontextlänge des Modells 4096 Token beträgt, wird das Dokument in allen Szenarios in Blöcke unterteilt.
  • Jeder Block umfasst:
    • Padding-Token: Damit die Eingabe dem erwarteten Format des Modells entspricht.
    • Abfrage: 100 Token.
    • Dokumentabschnitt: Beispiel: Für eine max_tokens_per_doc von 4096 Token enthält jeder Chunk einen der folgenden Dokumentabschnitte:
      • Dokumentabschnitt 1: Dokument von 0 bis 3.992 Token.
      • Dokumentabschnitt 2: Dokument von 3.993 bis 7.985 Token.
      • Dokumentabschnitt 3: Dokument von 7.986 bis 9.999 Token. Dieser Abschnitt ist kleiner als die anderen beiden Abschnitte, da das Dokument nur 10.000 Token lang ist.
  • Jedes Benchmark-Szenario wird durch R(max_tokens_per_doc, 100) definiert.
  • Siehe Details für das Modell, und prüfen Sie die folgenden Abschnitte:
    • Verfügbare Regionen für dieses Modell.
    • Dedizierte KI-Cluster für das Hosting dieses Modells.
  • Prüfen Sie die Metriken.

R(64.100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 0,13 0,13 7,64
2 0,11 0,11 8,96
4 0,11 0,11 9,12
8 0,11 0,11 9,06
24 0,12 0,12 8,33
48 0,14 0,14 7,19
96 0,17 0,17 5,86

R(128.100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 0,11 0,11 9,15
2 0,11 0,11 9,12
4 0,11 0,11 9
8 0,11 0,11 8,81
24 0,13 0,13 7,71
48 0,16 0,16 6,34
96 0,2 0,2 4,81

R(256.100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 0,11 0,11 9,1
2 0,11 0,11 9,03
4 0,11 0,11 8,73
8 0,12 0,12 8,14
24 0,15 0,15 6,47
48 0,2 0,2 4,91
96 0,28 0,28 3,52

R(512.100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 0,11 0,11 8,94
2 0,11 0,11 8,61
4 0,12 0,12 7,91
8 0,14 0,14 6,85
24 0,2 0,2 4,87
48 0,3 0,3 3,22
96 0,54 0,54 1,83

R(1024.100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 0,12 0,12 8,11
2 0,13 0,13 7,22
4 0,15 0,15 6,24
8 0,19 0,19 4,99
24 0,45 0,45 2,2
48 0,73 0,73 1,34
96 1,38 1,38 0,72

R(2048,100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 0,15 0,15 6,13
2 0,18 0,18 5,14
4 0,25 0,25 3,84
8 0,38 0,38 2,52
24 1,05 1,05 0,94
48 2,01 2,01 0,49
96 3,77 3,77 0,26

R(4096,100)

Batchgröße Time to First Token (TTFT)(Sekunde) Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1 7,35 7,35 4,65
2 7,35 7,35 3,71
4 7,35 7,35 2,43
8 7,35 7,35 1,24
24 7,35 7,35 0,49
48 7,35 7,35 0,26
96 7,35 7,35 0,14