Cohere Rerank 3.5
Revise las referencias de rendimiento para el modelo cohere.rerank.3-5
(Cohere Rerank 3.5) alojado en una unidad RERANK_COHERE de un cluster de IA dedicado en OCI Generative AI.
Un modelo de nueva clasificación toma una consulta y una lista de textos como entrada y clasifica los textos en función de su puntuación de relevancia para la consulta, es decir, qué tan bien coincide cada texto con la consulta.
- Escenarios de referencia de Rerank 3.5
-
- La consulta es 100 tokens para todos los escenarios.
- Todos los escenarios tienen solo un documento acreditativo con una longitud de 10 000 tokens.
- Cada escenario fragmenta este documento de 10 000 tokens según un parámetro
max_tokens_per_doc
. Estos valores son 64, 128, 256, 512, 1024, 2048 y 4096. - El tamaño máximo de fragmento es tokens 4096, que es el máximo de tokens que un modelo de Rerank 3.5 puede procesar en una sola pasada.
- Debido a que el documento tiene 10.000 tokens de largo y la longitud del contexto del modelo es de 4096 tokens, en todos los escenarios, el documento se divide en fragmentos.
- Cada fragmento incluye:
- Añadir tokens: para garantizar que la entrada se ajuste al formato esperado del modelo.
- La consulta: 100 tokens.
- Una sección de documento: por ejemplo, para un
max_tokens_per_doc
de 4096 tokens, cada fragmento incluye una de las siguientes secciones de documento:- Sección 1 del documento: Documente de 0 a 3.992 tokens.
- Sección de documento 2: Documento de 3.993 a 7.985 tokens.
- Sección de documento 3: Documento de 7.986 a 9.999 tokens. Esta sección es más pequeña que las otras dos secciones, ya que el documento tiene solo 10 000 tokens de largo.
- Cada escenario de referencia se define mediante R(max_tokens_per_doc, 100).
R(64 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,13 | 0,13 | 7,64 |
2 | 0,11 | 0,11 | 8,96 |
4 | 0,11 | 0,11 | 9,12 |
8 | 0,11 | 0,11 | 9,06 |
24 | 0,12 | 0,12 | 8,33 |
48 | 0,14 | 0,14 | 7,19 |
96 | 0,17 | 0,17 | 5,86 |
(128 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,15 |
2 | 0,11 | 0,11 | 9,12 |
4 | 0,11 | 0,11 | 9 |
8 | 0,11 | 0,11 | 8,81 |
24 | 0,13 | 0,13 | 7,71 |
48 | 0,16 | 0,16 | 6,34 |
96 | 0,2 | 0,2 | 4,81 |
R(256 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 9,1 |
2 | 0,11 | 0,11 | 9,03 |
4 | 0,11 | 0,11 | 8,73 |
8 | 0,12 | 0,12 | 8,14 |
24 | 0,15 | 0,15 | 6,47 |
48 | 0,2 | 0,2 | 4,91 |
96 | 0,28 | 0,28 | 3,52 |
(512 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,11 | 0,11 | 8,94 |
2 | 0,11 | 0,11 | 8,61 |
4 | 0,12 | 0,12 | 7,91 |
8 | 0,14 | 0,14 | 6,85 |
24 | 0,2 | 0,2 | 4,87 |
48 | 0,3 | 0,3 | 3,22 |
96 | 0,54 | 0,54 | 1,83 |
R(1024 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,12 | 0,12 | 8,11 |
2 | 0,13 | 0,13 | 7,22 |
4 | 0,15 | 0,15 | 6,24 |
8 | 0,19 | 0,19 | 4,99 |
24 | 0,45 | 0,45 | 2,2 |
48 | 0,73 | 0,73 | 1,34 |
96 | 1,38 | 1,38 | 0,72 |
R(2048 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 0,15 | 0,15 | 6,13 |
2 | 0,18 | 0,18 | 5,14 |
4 | 0,25 | 0,25 | 3,84 |
8 | 0,38 | 0,38 | 2,52 |
24 | 1,05 | 1,05 | 0,94 |
48 | 2,01 | 2,01 | 0,49 |
96 | 3,77 | 3,77 | 0,26 |
R(4096 100)
Tamaño del Lote | Tiempo hasta el primer token (TTFT) (segundo) | Latencia de nivel de solicitud (segundo) | Rendimiento a nivel de solicitud (solicitud por segundo) (RPS) |
---|---|---|---|
1 | 7,35 | 7,35 | 4,65 |
2 | 7,35 | 7,35 | 3,71 |
4 | 7,35 | 7,35 | 2,43 |
8 | 7,35 | 7,35 | 1,24 |
24 | 7,35 | 7,35 | 0,49 |
48 | 7,35 | 7,35 | 0,26 |
96 | 7,35 | 7,35 | 0,14 |