Cohere Rerank 3.5

Prüfen Sie Performancebenchmarks für das cohere.rerank.3-5 (Cohere Rerank 3.5)-Modell, das auf einer RERANK_COHERE-Einheit eines dedizierten KI-Clusters in OCI Generative AI gehostet wird.

Ein Ranglistenmodell übernimmt eine Abfrage und eine Liste von Texten als Eingabe und ordnet die Texte basierend auf ihrem Relevanzscore zur Abfrage ein. Das heißt, wie gut jeder Text mit der Abfrage übereinstimmt.

Tipp

Um mehr über das Rangieren zu erfahren, empfehlen wir Ihnen, Best Practices für die Verwendung von Rerank | Cohere zu lesen.

Siehe Details für das Modell, und prüfen Sie die folgenden Abschnitte:
- Verfügbare Regionen für dieses Modell.
- Dedizierte Größe der KI-Clustereinheit für das Hosting dieses Modells.
Prüfen Sie die Metriken.

Dokumentgröße: 64 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 64 Token umfasst, und die Benchmarks sind für die Umlagerung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	0,13	0,13	7,64
2	0,11	0,11	8,96
4	0,11	0,11	9,12
8	0,11	0,11	9,06
24	0,12	0,12	8,33
48	0,14	0,14	7,19
96	0,17	0,17	5,86

Dokumentgröße: 128 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 128 Token umfasst, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	0,11	0,11	9,15
2	0,11	0,11	9,12
4	0,11	0,11	9
8	0,11	0,11	8,81
24	0,13	0,13	7,71
48	0,16	0,16	6,34
96	0,2	0,2	4,81

Dokumentgröße: 256 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 256 Token beträgt, und die Benchmarks sind für die Umlagerung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	0,11	0,11	9,1
2	0,11	0,11	9,03
4	0,11	0,11	8,73
8	0,12	0,12	8,14
24	0,15	0,15	6,47
48	0,2	0,2	4,91
96	0,28	0,28	3,52

Dokumentgröße: 512 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 512 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	0,11	0,11	8,94
2	0,11	0,11	8,61
4	0,12	0,12	7,91
8	0,14	0,14	6,85
24	0,2	0,2	4,87
48	0,3	0,3	3,22
96	0,54	0,54	1,83

Dokumentgröße: 1024 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 1.024 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	0,12	0,12	8,11
2	0,13	0,13	7,22
4	0,15	0,15	6,24
8	0,19	0,19	4,99
24	0,45	0,45	2,2
48	0,73	0,73	1,34
96	1,38	1,38	0,72

Dokumentgröße: 2048 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 2.048 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	0,15	0,15	6,13
2	0,18	0,18	5,14
4	0,25	0,25	3,84
8	0,38	0,38	2,52
24	1,05	1,05	0,94
48	2,01	2,01	0,49
96	3,77	3,77	0,26

Dokumentgröße: 4096 Token

Dieses Szenario gilt für die Ranglistenmodelle. In diesem Szenario haben alle Dokumente die gleiche Größe, die jeweils 4.096 Token beträgt, und die Benchmarks sind für die erneute Einstufung 1, 2, 4, 8, 24, 48 und 96 dieser Dokumente vorgesehen.


Anzahl Dokumente	Time to First Token (TTFT)(Sekunde)	Latenz auf Anforderungsebene (Sekunden)	Durchsatz auf Anforderungsebene (Anforderung pro Sekunde) (RPS)
1	7,35	7,35	4,65
2	7,35	7,35	3,71
4	7,35	7,35	2,43
8	7,35	7,35	1,24
24	7,35	7,35	0,49
48	7,35	7,35	0,26
96	7,35	7,35	0,14

Oracle Cloud Infrastructure-Dokumentation