Cohere Rerank 3.5

Revise las referencias de rendimiento para el modelo cohere.rerank.3-5 (Cohere Rerank 3.5) alojado en una unidad RERANK_COHERE de un cluster de IA dedicado en OCI Generative AI.

Un modelo de nueva clasificación toma una consulta y una lista de textos como entrada y clasifica los textos en función de su puntuación de relevancia para la consulta, es decir, qué tan bien coincide cada texto con la consulta.

Escenarios de referencia de Rerank 3.5
  • La consulta es 100 tokens para todos los escenarios.
  • Todos los escenarios tienen solo un documento acreditativo con una longitud de 10 000 tokens.
  • Cada escenario fragmenta este documento de 10 000 tokens según un parámetro max_tokens_per_doc. Estos valores son 64, 128, 256, 512, 1024, 2048 y 4096.
  • El tamaño máximo de fragmento es tokens 4096, que es el máximo de tokens que un modelo de Rerank 3.5 puede procesar en una sola pasada.
  • Debido a que el documento tiene 10.000 tokens de largo y la longitud del contexto del modelo es de 4096 tokens, en todos los escenarios, el documento se divide en fragmentos.
  • Cada fragmento incluye:
    • Añadir tokens: para garantizar que la entrada se ajuste al formato esperado del modelo.
    • La consulta: 100 tokens.
    • Una sección de documento: por ejemplo, para un max_tokens_per_doc de 4096 tokens, cada fragmento incluye una de las siguientes secciones de documento:
      • Sección 1 del documento: Documente de 0 a 3.992 tokens.
      • Sección de documento 2: Documento de 3.993 a 7.985 tokens.
      • Sección de documento 3: Documento de 7.986 a 9.999 tokens. Esta sección es más pequeña que las otras dos secciones, ya que el documento tiene solo 10 000 tokens de largo.
  • Cada escenario de referencia se define mediante R(max_tokens_per_doc, 100).
  • Consulte los detalles del modelo y revise las siguientes secciones:
    • Regiones disponibles para este modelo.
    • Clusters de IA dedicados para alojar este modelo.
  • Revise las métricas.

R(64 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,13 7,64
2 0,11 8,96
4 0,11 9,12
8 0,11 9,06
24 0,12 8,33
48 0,14 7,19
96 0,17 5,86

(128 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,11 9,15
2 0,11 9,12
4 0,11 9
8 0,11 8,81
24 0,13 7,71
48 0,16 6,34
96 0,2 4,81

R(256 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,11 9,1
2 0,11 9,03
4 0,11 8,73
8 0,12 8,14
24 0,15 6,47
48 0,2 4,91
96 0,28 3,52

(512 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,11 8,94
2 0,11 8,61
4 0,12 7,91
8 0,14 6,85
24 0,2 4,87
48 0,3 3,22
96 0,54 1,83

R(1024 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,12 8,11
2 0,13 7,22
4 0,15 6,24
8 0,19 4,99
24 0,45 2,2
48 0,73 1,34
96 1,38 0,72

R(2048 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,15 6,13
2 0,18 5,14
4 0,25 3,84
8 0,38 2,52
24 1,05 0,94
48 2,01 0,49
96 3,77 0,26

R(4096 100)

Tamaño del Lote Latencia de nivel de solicitud (segundo) Rendimiento a nivel de solicitud (solicitud por segundo) (RPS)
1 0,19 4,65
2 0,25 3,71
4 0,39 2,43
8 0,78 1,24
24 1,98 0,49
48 3,8 0,26
96 7,35 0,14