Cohere Rerank 3.5

Revise las referencias de rendimiento para el modelo cohere.rerank.3-5 (Cohere Rerank 3.5) alojado en una unidad RERANK_COHERE de un cluster de IA dedicado en OCI Generative AI.

Un modelo de nueva clasificación toma una consulta y una lista de textos como entrada y clasifica los textos en función de su puntuación de relevancia para la consulta, es decir, qué tan bien coincide cada texto con la consulta.

Consejo

Para obtener más información sobre la nueva clasificación, le recomendamos que consulte Mejores prácticas para utilizar Rerank | Cohere.
  • Consulte los detalles del modelo y revise las siguientes secciones:
    • Regiones disponibles para este modelo.
    • Clusters de IA dedicados para alojar este modelo.
  • Revise las métricas.

Tamaño del documento: 64 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 64 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,13 0,13 7,64
2 0,11 0,11 8,96
4 0,11 0,11 9,12
8 0,11 0,11 9,06
24 0,12 0,12 8,33
48 0,14 0,14 7,19
96 0,17 0,17 5,86

Tamaño del documento: 128 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 128 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,11 0,11 9,15
2 0,11 0,11 9,12
4 0,11 0,11 9
8 0,11 0,11 8,81
24 0,13 0,13 7,71
48 0,16 0,16 6,34
96 0,2 0,2 4,81

Tamaño del documento: 256 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 256 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,11 0,11 9,1
2 0,11 0,11 9,03
4 0,11 0,11 8,73
8 0,12 0,12 8,14
24 0,15 0,15 6,47
48 0,2 0,2 4,91
96 0,28 0,28 3,52

Tamaño del documento: 512 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 512 tokens cada uno, y los puntos de referencia se proporcionan para la modificación de 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,11 0,11 8,94
2 0,11 0,11 8,61
4 0,12 0,12 7,91
8 0,14 0,14 6,85
24 0,2 0,2 4,87
48 0,3 0,3 3,22
96 0,54 0,54 1,83

Tamaño del documento: 1024 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 1.024 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,12 0,12 8,11
2 0,13 0,13 7,22
4 0,15 0,15 6,24
8 0,19 0,19 4,99
24 0,45 0,45 2,2
48 0,73 0,73 1,34
96 1,38 1,38 0,72

Tamaño del documento: 2048 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 2.048 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,15 0,15 6,13
2 0,18 0,18 5,14
4 0,25 0,25 3,84
8 0,38 0,38 2,52
24 1,05 1,05 0,94
48 2,01 2,01 0,49
96 3,77 3,77 0,26

Tamaño del documento: 4096 Tokens

Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 4.096 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.

Número de Documentos Tiempo hasta el primer token (TTFT) (segundo) Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 7,35 7,35 4,65
2 7,35 7,35 3,71
4 7,35 7,35 2,43
8 7,35 7,35 1,24
24 7,35 7,35 0,49
48 7,35 7,35 0,26
96 7,35 7,35 0,14