Cohere Rerank 3.5

Revise os benchmarks de desempenho do modelo cohere.rerank.3-5 (Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.

Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.

Rerank 3.5 Cenários de Benchmark
  • A consulta é 100 tokens para todos os cenários.
  • Todos os cenários têm apenas um documento de suporte com 10.000 tokens de comprimento.
  • Cada cenário divide esse documento de 10.000 tokens com base em um parâmetro max_tokens_per_doc. Os valores são 64, 128, 256, 512, 1024, 2048 e 4096.
  • O tamanho máximo do bloco é 4096 tokens, que é o máximo de tokens que um modelo Rerank 3.5 pode processar em uma única passagem.
  • Como o documento tem 10.000 tokens de comprimento e o tamanho do contexto do modelo é 4096 tokens, em todos os cenários, o documento é dividido em partes.
  • Cada bloco inclui:
    • Preenchendo tokens: Para garantir que a entrada se ajuste ao formato esperado do modelo.
    • A consulta: 100 tokens.
    • Uma seção de documento: Por exemplo, para um max_tokens_per_doc de 4096 tokens, cada bloco inclui uma das seguintes seções de documento:
      • Seção do documento 1: Documento de 0 a 3.992 tokens.
      • Seção do documento 2: Documento de 3.993 a 7.985 tokens.
      • Seção do documento 3: Documento de 7.986 a 9.999 tokens. Esta seção é menor que as outras duas seções, porque o documento tem apenas 10.000 tokens de comprimento.
  • Cada cenário de benchmark é definido por R(max_tokens_per_doc, 100).
  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

R(64 100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.13 0.13 7.64
2 0.11 0.11 8.96
4 0.11 0.11 9.12
8 0.11 0.11 9.06
24 0.12 0.12 8.33
48 0.14 0.14 7.19
96 0.17 0.17 5.86

R(128 100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.11 0.11 9.15
2 0.11 0.11 9.12
4 0.11 0.11 9
8 0.11 0.11 8.81
24 0.13 0.13 7.71
48 0.16 0.16 6.34
96 0.2 0.2 4.81

A(256.100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.11 0.11 9.1
2 0.11 0.11 9.03
4 0.11 0.11 8.73
8 0.12 0.12 8.14
24 0.15 0.15 6.47
48 0.2 0.2 4.91
96 0.28 0.28 3.52

R(512 100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.11 0.11 8.94
2 0.11 0.11 8.61
4 0.12 0.12 7.91
8 0.14 0.14 6.85
24 0.2 0.2 4.87
48 0.3 0.3 3.22
96 0.54 0.54 1.83

A(1024.100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.12 0.12 8.11
2 0.13 0.13 7.22
4 0.15 0.15 6.24
8 0.19 0.19 4.99
24 0.45 0.45 2.2
48 0.73 0.73 1.34
96 1.38 1.38 0.72

A(2048.100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.15 0.15 6.13
2 0.18 0.18 5.14
4 0.25 0.25 3.84
8 0.38 0.38 2.52
24 1.05 1.05 0.94
48 2.01 2.01 0.49
96 3.77 3.77 0.26

R(4096.100)

Tamanho do Batch Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 7.35 7.35 4.65
2 7.35 7.35 3.71
4 7.35 7.35 2.43
8 7.35 7.35 1.24
24 7.35 7.35 0.49
48 7.35 7.35 0.26
96 7.35 7.35 0.14