Cohere Rerank 3.5
Revise os benchmarks de desempenho do modelo cohere.rerank.3-5 (Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.
Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.
Para saber mais sobre reclassificação, recomendamos que você analise Melhores Práticas para usar o Rerank | Cohere.
-
- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.
Tamanho do documento: 64 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 64 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 0,13 | 0,13 | 7,64 |
| 2 | 0,11 | 0,11 | 8,96 |
| 4 | 0,11 | 0,11 | 9,12 |
| 8 | 0,11 | 0,11 | 9,06 |
| 24 | 0,12 | 0,12 | 8,33 |
| 48 | 0,14 | 0,14 | 7,19 |
| 96 | 0,17 | 0,17 | 5,86 |
Tamanho do documento: 128 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 128 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 0,11 | 0,11 | 9,15 |
| 2 | 0,11 | 0,11 | 9,12 |
| 4 | 0,11 | 0,11 | 9 |
| 8 | 0,11 | 0,11 | 8,81 |
| 24 | 0,13 | 0,13 | 7,71 |
| 48 | 0,16 | 0,16 | 6,34 |
| 96 | 0,2 | 0,2 | 4,81 |
Tamanho do documento: 256 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 256 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 0,11 | 0,11 | 9,1 |
| 2 | 0,11 | 0,11 | 9,03 |
| 4 | 0,11 | 0,11 | 8,73 |
| 8 | 0,12 | 0,12 | 8,14 |
| 24 | 0,15 | 0,15 | 6,47 |
| 48 | 0,2 | 0,2 | 4,91 |
| 96 | 0,28 | 0,28 | 3,52 |
Tamanho do documento: 512 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 512 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 0,11 | 0,11 | 8,94 |
| 2 | 0,11 | 0,11 | 8,61 |
| 4 | 0,12 | 0,12 | 7,91 |
| 8 | 0,14 | 0,14 | 6,85 |
| 24 | 0,2 | 0,2 | 4,87 |
| 48 | 0,3 | 0,3 | 3,22 |
| 96 | 0,54 | 0,54 | 1,83 |
Tamanho do documento: 1024 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 1.024 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 0,12 | 0,12 | 8,11 |
| 2 | 0,13 | 0,13 | 7,22 |
| 4 | 0,15 | 0,15 | 6,24 |
| 8 | 0,19 | 0,19 | 4,99 |
| 24 | 0,45 | 0,45 | 2,2 |
| 48 | 0,73 | 0,73 | 1,34 |
| 96 | 1,38 | 1,38 | 0,72 |
Tamanho do documento: 2048 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 2.048 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 0,15 | 0,15 | 6,13 |
| 2 | 0,18 | 0,18 | 5,14 |
| 4 | 0,25 | 0,25 | 3,84 |
| 8 | 0,38 | 0,38 | 2,52 |
| 24 | 1,05 | 1,05 | 0,94 |
| 48 | 2,01 | 2,01 | 0,49 |
| 96 | 3,77 | 3,77 | 0,26 |
Tamanho do documento: 4096 Tokens
Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 4.096 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.
| Número de Documentos | Time to First Token (TTFT)(segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
|---|---|---|---|
| 1 | 7,35 | 7,35 | 4,65 |
| 2 | 7,35 | 7,35 | 3,71 |
| 4 | 7,35 | 7,35 | 2,43 |
| 8 | 7,35 | 7,35 | 1,24 |
| 24 | 7,35 | 7,35 | 0,49 |
| 48 | 7,35 | 7,35 | 0,26 |
| 96 | 7,35 | 7,35 | 0,14 |