Cohere Rerank 3.5

Revise os benchmarks de desempenho do modelo cohere.rerank.3-5 (Cohere Rerank 3.5) hospedado em uma unidade RERANK_COHERE de um cluster de IA dedicado na OCI Generative AI.

Um modelo de nova classificação leva uma consulta e uma lista de textos como entrada e classifica os textos com base em sua pontuação de relevância para a consulta, ou seja, a correspondência entre cada texto e a consulta.

Dica

Para saber mais sobre reclassificação, recomendamos que você analise Melhores Práticas para usar o Rerank | Cohere.

- Consulte as regiões disponíveis para este modelo.
- Revise o tamanho da unidade de cluster de IA dedicada para hospedar esse modelo na página de modelo.
- Verifique as métricas.

Tamanho do documento: 64 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 64 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	0,13	0,13	7,64
2	0,11	0,11	8,96
4	0,11	0,11	9,12
8	0,11	0,11	9,06
24	0,12	0,12	8,33
48	0,14	0,14	7,19
96	0,17	0,17	5,86

Tamanho do documento: 128 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 128 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	0,11	0,11	9,15
2	0,11	0,11	9,12
4	0,11	0,11	9
8	0,11	0,11	8,81
24	0,13	0,13	7,71
48	0,16	0,16	6,34
96	0,2	0,2	4,81

Tamanho do documento: 256 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 256 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	0,11	0,11	9,1
2	0,11	0,11	9,03
4	0,11	0,11	8,73
8	0,12	0,12	8,14
24	0,15	0,15	6,47
48	0,2	0,2	4,91
96	0,28	0,28	3,52

Tamanho do documento: 512 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 512 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	0,11	0,11	8,94
2	0,11	0,11	8,61
4	0,12	0,12	7,91
8	0,14	0,14	6,85
24	0,2	0,2	4,87
48	0,3	0,3	3,22
96	0,54	0,54	1,83

Tamanho do documento: 1024 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 1.024 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	0,12	0,12	8,11
2	0,13	0,13	7,22
4	0,15	0,15	6,24
8	0,19	0,19	4,99
24	0,45	0,45	2,2
48	0,73	0,73	1,34
96	1,38	1,38	0,72

Tamanho do documento: 2048 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 2.048 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	0,15	0,15	6,13
2	0,18	0,18	5,14
4	0,25	0,25	3,84
8	0,38	0,38	2,52
24	1,05	1,05	0,94
48	2,01	2,01	0,49
96	3,77	3,77	0,26

Tamanho do documento: 4096 Tokens

Esse cenário se aplica aos modelos de nova classificação. Nesse cenário, todos os documentos têm o mesmo tamanho, que é de 4.096 tokens cada, e os benchmarks são fornecidos para reclassificação 1, 2, 4, 8, 24, 48 e 96 desses documentos.


Número de Documentos	Time to First Token (TTFT)(segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1	7,35	7,35	4,65
2	7,35	7,35	3,71
4	7,35	7,35	2,43
8	7,35	7,35	1,24
24	7,35	7,35	0,49
48	7,35	7,35	0,26
96	7,35	7,35	0,14

Documentação do Oracle Cloud Infrastructure