Cohere Rerank 3.5

Consultez les points de référence de performance pour le modèle cohere.rerank.3-5 (Cohere Rerank 3.5) hébergé sur une unité RERANK_COHERE d'une grappe dédiée à l'IA dans l'IA générative OCI.

Un modèle de reclassement prend une interrogation et une liste de textes en entrée et classe les textes en fonction de leur note de pertinence pour l'interrogation, c'est-à-dire de la correspondance entre chaque texte et l'interrogation.

Conseil

Pour en savoir plus sur le reclassement, nous vous recommandons de consulter les meilleures pratiques d'utilisation de Rerank | Cohere.
  • Voir les détails du modèle et consulter les sections suivantes :
    • Régions disponibles pour ce modèle.
    • Grappes dédiées à l'IA pour l'hébergement de ce modèle.
  • Vérifiez les mesures.

Taille du document : 64 jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 64 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 0.13 0.13 7.64
2 0.11 0.11 8.96
4 0.11 0.11 9.12
8 0.11 0.11 9.06
24 0.12 0.12 8.33
48 0.14 0.14 7.19
96 0.17 0.17 5.86

Taille du document : 128 jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 128 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 0.11 0.11 9.15
2 0.11 0.11 9.12
4 0.11 0.11 9
8 0.11 0.11 8.81
24 0.13 0.13 7.71
48 0.16 0.16 6.34
96 0.2 0.2 4.81

Taille du document : 256 jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 256 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 0.11 0.11 9.1
2 0.11 0.11 9.03
4 0.11 0.11 8.73
8 0.12 0.12 8.14
24 0.15 0.15 6.47
48 0.2 0.2 4.91
96 0.28 0.28 3.52

Taille du document : 512 jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 512 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 0.11 0.11 8.94
2 0.11 0.11 8.61
4 0.12 0.12 7.91
8 0.14 0.14 6.85
24 0.2 0.2 4.87
48 0.3 0.3 3.22
96 0.54 0.54 1.83

Taille du document : 1024 jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 1 024 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 0.12 0.12 8.11
2 0.13 0.13 7.22
4 0.15 0.15 6.24
8 0.19 0.19 4.99
24 0.45 0.45 2.2
48 0.73 0.73 1.34
96 1.38 1.38 0.72

Taille du document : 2048 Jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 2 048 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 0.15 0.15 6.13
2 0.18 0.18 5.14
4 0.25 0.25 3.84
8 0.38 0.38 2.52
24 1.05 1.05 0.94
48 2.01 2.01 0.49
96 3.77 3.77 0.26

Taille du document : 4096 Jetons

Ce scénario s'applique aux modèles de reclassement. Dans ce scénario, tous les documents ont la même taille, soit 4 096 jetons chacun, et les repères sont fournis pour le reclassement 1, 2, 4, 8, 24, 48 et 96 de ces documents.

Nombre de documents Temps jusqu'au premier jeton (TTFT)(deuxième) Latence au niveau de la demande (seconde) Débit au niveau de la demande (demande par seconde) (RPS)
1 7.35 7.35 4.65
2 7.35 7.35 3.71
4 7.35 7.35 2.43
8 7.35 7.35 1.24
24 7.35 7.35 0.49
48 7.35 7.35 0.26
96 7.35 7.35 0.14