Cohere Rerank 3.5
Revise las referencias de rendimiento para el modelo cohere.rerank.3-5
(Cohere Rerank 3.5) alojado en una unidad RERANK_COHERE de un cluster de IA dedicado en OCI Generative AI.
Un modelo de nueva clasificación toma una consulta y una lista de textos como entrada y clasifica los textos en función de su puntuación de relevancia para la consulta, es decir, qué tan bien coincide cada texto con la consulta.
Para obtener más información sobre la nueva clasificación, le recomendamos que consulte Mejores prácticas para utilizar Rerank | Cohere.
Tamaño del documento: 64 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 64 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,13 | 0,13 | 7,64 |
2 | 0,11 | 0,11 | 8,96 |
4 | 0,11 | 0,11 | 9,12 |
8 | 0,11 | 0,11 | 9,06 |
24 | 0,12 | 0,12 | 8,33 |
48 | 0,14 | 0,14 | 7,19 |
96 | 0,17 | 0,17 | 5,86 |
Tamaño del documento: 128 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 128 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,15 |
2 | 0,11 | 0,11 | 9,12 |
4 | 0,11 | 0,11 | 9 |
8 | 0,11 | 0,11 | 8,81 |
24 | 0,13 | 0,13 | 7,71 |
48 | 0,16 | 0,16 | 6,34 |
96 | 0,2 | 0,2 | 4,81 |
Tamaño del documento: 256 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 256 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,1 |
2 | 0,11 | 0,11 | 9,03 |
4 | 0,11 | 0,11 | 8,73 |
8 | 0,12 | 0,12 | 8,14 |
24 | 0,15 | 0,15 | 6,47 |
48 | 0,2 | 0,2 | 4,91 |
96 | 0,28 | 0,28 | 3,52 |
Tamaño del documento: 512 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 512 tokens cada uno, y los puntos de referencia se proporcionan para la modificación de 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 8,94 |
2 | 0,11 | 0,11 | 8,61 |
4 | 0,12 | 0,12 | 7,91 |
8 | 0,14 | 0,14 | 6,85 |
24 | 0,2 | 0,2 | 4,87 |
48 | 0,3 | 0,3 | 3,22 |
96 | 0,54 | 0,54 | 1,83 |
Tamaño del documento: 1024 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 1.024 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,12 | 0,12 | 8,11 |
2 | 0,13 | 0,13 | 7,22 |
4 | 0,15 | 0,15 | 6,24 |
8 | 0,19 | 0,19 | 4,99 |
24 | 0,45 | 0,45 | 2,2 |
48 | 0,73 | 0,73 | 1,34 |
96 | 1,38 | 1,38 | 0,72 |
Tamaño del documento: 2048 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 2.048 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,15 | 0,15 | 6,13 |
2 | 0,18 | 0,18 | 5,14 |
4 | 0,25 | 0,25 | 3,84 |
8 | 0,38 | 0,38 | 2,52 |
24 | 1,05 | 1,05 | 0,94 |
48 | 2,01 | 2,01 | 0,49 |
96 | 3,77 | 3,77 | 0,26 |
Tamaño del documento: 4096 Tokens
Este escenario se aplica a los modelos de rerank. En este escenario, todos los documentos tienen el mismo tamaño, que es de 4.096 tokens cada uno, y los puntos de referencia se proporcionan para cambiar 1, 2, 4, 8, 24, 48 y 96 de estos documentos.
Número de Documentos | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 7,35 | 7,35 | 4,65 |
2 | 7,35 | 7,35 | 3,71 |
4 | 7,35 | 7,35 | 2,43 |
8 | 7,35 | 7,35 | 1,24 |
24 | 7,35 | 7,35 | 0,49 |
48 | 7,35 | 7,35 | 0,26 |
96 | 7,35 | 7,35 | 0,14 |