Cohere Rerank 3.5
Revise os benchmarks de desempenho do modelo cohere.rerank.3-5
(Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.
Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.
Para saber mais sobre reclassificação, recomendamos que você analise Melhores Práticas para usar o Rerank | Cohere.
Tamanho do documento: 64 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 64 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.13 | 0.13 | 7.64 |
2 | 0.11 | 0.11 | 8.96 |
4 | 0.11 | 0.11 | 9.12 |
8 | 0.11 | 0.11 | 9.06 |
24 | 0.12 | 0.12 | 8.33 |
48 | 0.14 | 0.14 | 7.19 |
96 | 0.17 | 0.17 | 5.86 |
Tamanho do documento: 128 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 128 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.15 |
2 | 0.11 | 0.11 | 9.12 |
4 | 0.11 | 0.11 | 9 |
8 | 0.11 | 0.11 | 8.81 |
24 | 0.13 | 0.13 | 7.71 |
48 | 0.16 | 0.16 | 6.34 |
96 | 0.2 | 0.2 | 4.81 |
Tamanho do documento: 256 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 256 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.1 |
2 | 0.11 | 0.11 | 9.03 |
4 | 0.11 | 0.11 | 8.73 |
8 | 0.12 | 0.12 | 8.14 |
24 | 0.15 | 0.15 | 6.47 |
48 | 0.2 | 0.2 | 4.91 |
96 | 0.28 | 0.28 | 3.52 |
Tamanho do documento: 512 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 512 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 8.94 |
2 | 0.11 | 0.11 | 8.61 |
4 | 0.12 | 0.12 | 7.91 |
8 | 0.14 | 0.14 | 6.85 |
24 | 0.2 | 0.2 | 4.87 |
48 | 0.3 | 0.3 | 3.22 |
96 | 0.54 | 0.54 | 1.83 |
Tamanho do documento: 1024 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 1.024 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.12 | 0.12 | 8.11 |
2 | 0.13 | 0.13 | 7.22 |
4 | 0.15 | 0.15 | 6.24 |
8 | 0.19 | 0.19 | 4.99 |
24 | 0.45 | 0.45 | 2.2 |
48 | 0.73 | 0.73 | 1.34 |
96 | 1.38 | 1.38 | 0.72 |
Tamanho do documento: 2048 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 2.048 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.15 | 0.15 | 6.13 |
2 | 0.18 | 0.18 | 5.14 |
4 | 0.25 | 0.25 | 3.84 |
8 | 0.38 | 0.38 | 2.52 |
24 | 1.05 | 1.05 | 0.94 |
48 | 2.01 | 2.01 | 0.49 |
96 | 3.77 | 3.77 | 0.26 |
Tamanho do documento: 4096 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 4.096 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 7.35 | 7.35 | 4.65 |
2 | 7.35 | 7.35 | 3.71 |
4 | 7.35 | 7.35 | 2.43 |
8 | 7.35 | 7.35 | 1.24 |
24 | 7.35 | 7.35 | 0.49 |
48 | 7.35 | 7.35 | 0.26 |
96 | 7.35 | 7.35 | 0.14 |