Cohere Rerank 3.5
Consultez les points de référence de performance pour le modèle cohere.rerank.3-5
(Cohere Rerank 3.5) hébergé sur une unité RERANK_COHERE d'une grappe dédiée à l'IA dans l'IA générative OCI.
Un modèle de reclassement prend une interrogation et une liste de textes en entrée et classe les textes en fonction de leur note de pertinence pour l'interrogation, c'est-à-dire de la correspondance entre chaque texte et l'interrogation.
- Reclasser les scénarios de référence 3.5
-
- L'interrogation est de 100 jetons pour tous les scénarios.
- Tous les scénarios n'ont qu'un seul document complémentaire contenant 10 000 jetons de long.
- Chaque scénario fragmente ce document à 10 000 jetons en fonction d'un paramètre
max_tokens_per_doc
. Ces valeurs sont 64, 128, 256, 512, 1024, 2048 et 4096. - La taille maximale de la tranche de mémoire est de 4096 jetons, soit le nombre maximal de jetons qu'un modèle Rerank 3.5 peut traiter en une seule passe.
- Comme le document a une longueur de 10 000 jetons et que la longueur du contexte du modèle est de 4096 jetons, dans tous les scénarios, le document est divisé en fragments.
- Chaque fragment comprend les éléments suivants :
- Jetons d'ajout : Pour garantir que l'entrée correspond au format attendu du modèle.
- Interrogation : 100 jetons.
- Section de document : Par exemple, pour un
max_tokens_per_doc
de 4096 jetons, chaque tranche de mémoire inclut l'une des sections de document suivantes :- Section 1 du document : Document de 0 à 3 992 jetons.
- Section 2 du document : Document de 3 993 à 7 985 jetons.
- Section 3 du document : Document de 7 986 à 9 999 jetons. Cette section est plus petite que les deux autres sections, car le document ne fait que 10 000 jetons.
- Chaque scénario de référence est défini par R(max_tokens_per_doc, 100).
R(64,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 0.13 | 0.13 | 7.64 |
2 | 0.11 | 0.11 | 8.96 |
4 | 0.11 | 0.11 | 9.12 |
8 | 0.11 | 0.11 | 9.06 |
24 | 0.12 | 0.12 | 8.33 |
48 | 0.14 | 0.14 | 7.19 |
96 | 0.17 | 0.17 | 5.86 |
R(128,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.15 |
2 | 0.11 | 0.11 | 9.12 |
4 | 0.11 | 0.11 | 9 |
8 | 0.11 | 0.11 | 8.81 |
24 | 0.13 | 0.13 | 7.71 |
48 | 0.16 | 0.16 | 6.34 |
96 | 0.2 | 0.2 | 4.81 |
R(256,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.1 |
2 | 0.11 | 0.11 | 9.03 |
4 | 0.11 | 0.11 | 8.73 |
8 | 0.12 | 0.12 | 8.14 |
24 | 0.15 | 0.15 | 6.47 |
48 | 0.2 | 0.2 | 4.91 |
96 | 0.28 | 0.28 | 3.52 |
R(512,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 8.94 |
2 | 0.11 | 0.11 | 8.61 |
4 | 0.12 | 0.12 | 7.91 |
8 | 0.14 | 0.14 | 6.85 |
24 | 0.2 | 0.2 | 4.87 |
48 | 0.3 | 0.3 | 3.22 |
96 | 0.54 | 0.54 | 1.83 |
R(1024,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 0.12 | 0.12 | 8.11 |
2 | 0.13 | 0.13 | 7.22 |
4 | 0.15 | 0.15 | 6.24 |
8 | 0.19 | 0.19 | 4.99 |
24 | 0.45 | 0.45 | 2.2 |
48 | 0.73 | 0.73 | 1.34 |
96 | 1.38 | 1.38 | 0.72 |
R(2048,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 0.15 | 0.15 | 6.13 |
2 | 0.18 | 0.18 | 5.14 |
4 | 0.25 | 0.25 | 3.84 |
8 | 0.38 | 0.38 | 2.52 |
24 | 1.05 | 1.05 | 0.94 |
48 | 2.01 | 2.01 | 0.49 |
96 | 3.77 | 3.77 | 0.26 |
R(4096,100)
Taille de lot | Temps jusqu'au premier jeton (TTFT)(deuxième) | Latence au niveau de la demande (seconde) | Débit au niveau de la demande (demande par seconde) (RPS) |
---|---|---|---|
1 | 7.35 | 7.35 | 4.65 |
2 | 7.35 | 7.35 | 3.71 |
4 | 7.35 | 7.35 | 2.43 |
8 | 7.35 | 7.35 | 1.24 |
24 | 7.35 | 7.35 | 0.49 |
48 | 7.35 | 7.35 | 0.26 |
96 | 7.35 | 7.35 | 0.14 |