Cohere Rerank 3.5
Revise os benchmarks de desempenho do modelo cohere.rerank.3-5
(Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.
Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.
- Rerank 3.5 Cenários de Benchmark
-
- A consulta é 100 tokens para todos os cenários.
- Todos os cenários têm apenas um documento de suporte com 10.000 tokens de comprimento.
- Cada cenário divide esse documento de 10.000 tokens com base em um parâmetro
max_tokens_per_doc
. Os valores são 64, 128, 256, 512, 1024, 2048 e 4096. - O tamanho máximo do bloco é 4096 tokens, que é o máximo de tokens que um modelo Rerank 3.5 pode processar em uma única passagem.
- Como o documento tem 10.000 tokens de comprimento e o tamanho do contexto do modelo é 4096 tokens, em todos os cenários, o documento é dividido em partes.
- Cada bloco inclui:
- Preenchendo tokens: Para garantir que a entrada se ajuste ao formato esperado do modelo.
- A consulta: 100 tokens.
- Uma seção de documento: Por exemplo, para um
max_tokens_per_doc
de 4096 tokens, cada bloco inclui uma das seguintes seções de documento:- Seção do documento 1: Documento de 0 a 3.992 tokens.
- Seção do documento 2: Documento de 3.993 a 7.985 tokens.
- Seção do documento 3: Documento de 7.986 a 9.999 tokens. Esta seção é menor que as outras duas seções, porque o documento tem apenas 10.000 tokens de comprimento.
- Cada cenário de benchmark é definido por R(max_tokens_per_doc, 100).
R(64 100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.13 | 0.13 | 7.64 |
2 | 0.11 | 0.11 | 8.96 |
4 | 0.11 | 0.11 | 9.12 |
8 | 0.11 | 0.11 | 9.06 |
24 | 0.12 | 0.12 | 8.33 |
48 | 0.14 | 0.14 | 7.19 |
96 | 0.17 | 0.17 | 5.86 |
R(128 100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.15 |
2 | 0.11 | 0.11 | 9.12 |
4 | 0.11 | 0.11 | 9 |
8 | 0.11 | 0.11 | 8.81 |
24 | 0.13 | 0.13 | 7.71 |
48 | 0.16 | 0.16 | 6.34 |
96 | 0.2 | 0.2 | 4.81 |
A(256.100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 9.1 |
2 | 0.11 | 0.11 | 9.03 |
4 | 0.11 | 0.11 | 8.73 |
8 | 0.12 | 0.12 | 8.14 |
24 | 0.15 | 0.15 | 6.47 |
48 | 0.2 | 0.2 | 4.91 |
96 | 0.28 | 0.28 | 3.52 |
R(512 100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.11 | 0.11 | 8.94 |
2 | 0.11 | 0.11 | 8.61 |
4 | 0.12 | 0.12 | 7.91 |
8 | 0.14 | 0.14 | 6.85 |
24 | 0.2 | 0.2 | 4.87 |
48 | 0.3 | 0.3 | 3.22 |
96 | 0.54 | 0.54 | 1.83 |
A(1024.100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.12 | 0.12 | 8.11 |
2 | 0.13 | 0.13 | 7.22 |
4 | 0.15 | 0.15 | 6.24 |
8 | 0.19 | 0.19 | 4.99 |
24 | 0.45 | 0.45 | 2.2 |
48 | 0.73 | 0.73 | 1.34 |
96 | 1.38 | 1.38 | 0.72 |
A(2048.100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 0.15 | 0.15 | 6.13 |
2 | 0.18 | 0.18 | 5.14 |
4 | 0.25 | 0.25 | 3.84 |
8 | 0.38 | 0.38 | 2.52 |
24 | 1.05 | 1.05 | 0.94 |
48 | 2.01 | 2.01 | 0.49 |
96 | 3.77 | 3.77 | 0.26 |
R(4096.100)
Tamanho do Batch | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|
1 | 7.35 | 7.35 | 4.65 |
2 | 7.35 | 7.35 | 3.71 |
4 | 7.35 | 7.35 | 2.43 |
8 | 7.35 | 7.35 | 1.24 |
24 | 7.35 | 7.35 | 0.49 |
48 | 7.35 | 7.35 | 0.26 |
96 | 7.35 | 7.35 | 0.14 |