Cohere Rerank 3.5

Revise os benchmarks de desempenho do modelo cohere.rerank.3-5 (Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.

Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.

Dica

Para saber mais sobre reclassificação, recomendamos que você analise Melhores Práticas para usar o Rerank | Cohere.

Tamanho do documento: 64 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 64 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0,13 0,13 7,64
2 0,11 0,11 8,96
4 0,11 0,11 9,12
8 0,11 0,11 9,06
24 0,12 0,12 8,33
48 0,14 0,14 7,19
96 0,17 0,17 5,86

Tamanho do documento: 128 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 128 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0,11 0,11 9,15
2 0,11 0,11 9,12
4 0,11 0,11 9
8 0,11 0,11 8,81
24 0,13 0,13 7,71
48 0,16 0,16 6,34
96 0,2 0,2 4,81

Tamanho do documento: 256 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 256 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0,11 0,11 9,1
2 0,11 0,11 9,03
4 0,11 0,11 8,73
8 0,12 0,12 8,14
24 0,15 0,15 6,47
48 0,2 0,2 4,91
96 0,28 0,28 3,52

Tamanho do documento: 512 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 512 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0,11 0,11 8,94
2 0,11 0,11 8,61
4 0,12 0,12 7,91
8 0,14 0,14 6,85
24 0,2 0,2 4,87
48 0,3 0,3 3,22
96 0,54 0,54 1,83

Tamanho do documento: 1024 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 1.024 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0,12 0,12 8,11
2 0,13 0,13 7,22
4 0,15 0,15 6,24
8 0,19 0,19 4,99
24 0,45 0,45 2,2
48 0,73 0,73 1,34
96 1,38 1,38 0,72

Tamanho do documento: 2048 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 2.048 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 0,15 0,15 6,13
2 0,18 0,18 5,14
4 0,25 0,25 3,84
8 0,38 0,38 2,52
24 1,05 1,05 0,94
48 2,01 2,01 0,49
96 3,77 3,77 0,26

Tamanho do documento: 4096 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 4.096 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.

Número de Documentos Time to First Token (TTFT)(segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 7,35 7,35 4,65
2 7,35 7,35 3,71
4 7,35 7,35 2,43
8 7,35 7,35 1,24
24 7,35 7,35 0,49
48 7,35 7,35 0,26
96 7,35 7,35 0,14