Cohere Rerank 3.5

Revise os benchmarks de desempenho do modelo cohere.rerank.3-5 (Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.

Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.

Dica

Para saber mais sobre reclassificação, recomendamos que você analise Melhores Práticas para usar o Rerank | Cohere.
  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Tamanho do documento: 64 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 64 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.13 0.13 7.64
2 0.11 0.11 8.96
4 0.11 0.11 9.12
8 0.11 0.11 9.06
24 0.12 0.12 8.33
48 0.14 0.14 7.19
96 0.17 0.17 5.86

Tamanho do documento: 128 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 128 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.11 0.11 9.15
2 0.11 0.11 9.12
4 0.11 0.11 9
8 0.11 0.11 8.81
24 0.13 0.13 7.71
48 0.16 0.16 6.34
96 0.2 0.2 4.81

Tamanho do documento: 256 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 256 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.11 0.11 9.1
2 0.11 0.11 9.03
4 0.11 0.11 8.73
8 0.12 0.12 8.14
24 0.15 0.15 6.47
48 0.2 0.2 4.91
96 0.28 0.28 3.52

Tamanho do documento: 512 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 512 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.11 0.11 8.94
2 0.11 0.11 8.61
4 0.12 0.12 7.91
8 0.14 0.14 6.85
24 0.2 0.2 4.87
48 0.3 0.3 3.22
96 0.54 0.54 1.83

Tamanho do documento: 1024 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 1.024 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.12 0.12 8.11
2 0.13 0.13 7.22
4 0.15 0.15 6.24
8 0.19 0.19 4.99
24 0.45 0.45 2.2
48 0.73 0.73 1.34
96 1.38 1.38 0.72

Tamanho do documento: 2048 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 2.048 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0.15 0.15 6.13
2 0.18 0.18 5.14
4 0.25 0.25 3.84
8 0.38 0.38 2.52
24 1.05 1.05 0.94
48 2.01 2.01 0.49
96 3.77 3.77 0.26

Tamanho do documento: 4096 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 4.096 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 7.35 7.35 4.65
2 7.35 7.35 3.71
4 7.35 7.35 2.43
8 7.35 7.35 1.24
24 7.35 7.35 0.49
48 7.35 7.35 0.26
96 7.35 7.35 0.14