Cohere Rerank 3.5

Passez en revue les tests d'évaluation des performances du modèle cohere.rerank.3-5 (Cohere Rerank 3.5) hébergé sur une unité RERANK_COHERE d'un cluster d'IA dédié dans OCI Generative AI.

Un modèle de rerank prend une requête et une liste de textes en entrée et classe les textes en fonction de leur score de pertinence pour la requête, c'est-à-dire la façon dont chaque texte correspond à la requête.

Rerank 3.5 - Scénarios de référence
  • La requête est 100 jetons pour tous les scénarios.
  • Tous les scénarios n'ont qu'un seul document annexe de 10 000 jetons de long.
  • Chaque scénario divise ce document de 10 000 jetons en fonction d'un paramètre max_tokens_per_doc. Il peut prendre les valeurs 64, 128, 256, 512, 1024, 2048 et 4096.
  • La taille maximale du bloc est de 4096 jetons, qui est le nombre maximal de jetons qu'un modèle Rerank 3.5 peut traiter en une seule passe.
  • Etant donné que le document est long de 10 000 jetons et que la longueur du contexte du modèle est de 4096 jetons, dans tous les scénarios, le document est divisé en blocs.
  • Chaque bloc comprend :
    • Ajout de jetons : pour vous assurer que l'entrée correspond au format attendu du modèle.
    • Requête : 100 jetons.
    • Section de document : par exemple, pour un jeton max_tokens_per_doc de type 4096, chaque bloc inclut l'une des sections de document suivantes :
      • Section 1 du document : Document de 0 à 3 992 jetons.
      • Section 2 du document : Document de 3 993 à 7 985 jetons.
      • Section 3 du document : Document de 7 986 à 9 999 jetons. Cette section est plus petite que les deux autres sections, car le document ne contient que 10 000 jetons.
  • Chaque scénario de référence est défini par R(max_tokens_per_doc, 100).
  • Consultez les détails du modèle et les sections suivantes :
    • Régions disponibles pour ce modèle.
    • Clusters d'IA dédiés pour héberger ce modèle.
  • Consultez les mesures.

R(64 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,13 0,13 7,64
2 0,11 0,11 8,96
4 0,11 0,11 9,12
8 0,11 0,11 9,06
24 0,12 0,12 8,33
48 0,14 0,14 7,19
96 0,17 0,17 5,86

R(128 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,11 0,11 9,15
2 0,11 0,11 9,12
4 0,11 0,11 9
8 0,11 0,11 8,81
24 0,13 0,13 7,71
48 0,16 0,16 6,34
96 0,2 0,2 4,81

R(256 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,11 0,11 9,1
2 0,11 0,11 9,03
4 0,11 0,11 8,73
8 0,12 0,12 8,14
24 0,15 0,15 6,47
48 0,2 0,2 4,91
96 0,28 0,28 3,52

R(512 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,11 0,11 8,94
2 0,11 0,11 8,61
4 0,12 0,12 7,91
8 0,14 0,14 6,85
24 0,2 0,2 4,87
48 0,3 0,3 3,22
96 0,54 0,54 1,83

R(1024 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,12 0,12 8,11
2 0,13 0,13 7,22
4 0,15 0,15 6,24
8 0,19 0,19 4,99
24 0,45 0,45 2,2
48 0,73 0,73 1,34
96 1,38 1,38 0,72

R(2048 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 0,15 0,15 6,13
2 0,18 0,18 5,14
4 0,25 0,25 3,84
8 0,38 0,38 2,52
24 1,05 1,05 0,94
48 2,01 2,01 0,49
96 3,77 3,77 0,26

R(4096 100)

Taille du lot Délai avant le premier jeton (TTFT) (seconde) Latence de niveau demande (seconde) Débit de niveau demande (demande par seconde) (RPS)
1 7,35 7,35 4,65
2 7,35 7,35 3,71
4 7,35 7,35 2,43
8 7,35 7,35 1,24
24 7,35 7,35 0,49
48 7,35 7,35 0,26
96 7,35 7,35 0,14