Cohere Rerank 4
Cohere Rerank 4 ist ein Rerank-Modell, das in zwei Varianten erhältlich ist: Pro und Fast.
Reranking verbessert die Suchrelevanz, indem eine erste Gruppe abgerufener Ergebnisse neu angeordnet wird. Nachdem ein Abrufschritt Kandidatendokumente zurückgibt, vergleicht das Ranglistenmodell die Abfrage mit jedem Kandidaten und ordnet die Ergebnisse von am relevantesten bis am wenigsten relevant ein.
Cohere Rerank 4 unterstützt mehrsprachige Reranking- und halbstrukturierte Inhalte, einschließlich JSON, Tabellen und codeähnlichen Inhalten.
Was ist neu in Rerank 4
Im Vergleich zu Cohere Rerank 3.5 bietet Rerank 4 ein größeres Kontextfenster, verbesserte Rangierqualität, selbstlernende Unterstützung und zwei Varianten, die für unterschiedliche Workload-Anforderungen optimiert sind.
- Vergrößertes Kontextfenster
-
Der Rerank 4 unterstützt ein Kontextfenster mit 32.000 Token. Das größere Kontextfenster verbessert die Verarbeitung langer Dokumente und größerer Kandidateneingaben, was für dichte Unternehmensinhalte wie Berichte, Verträge, Handbücher und technische Dokumentation nützlich ist.
- Verbesserte Rangierqualität
-
Rerank 4 verbessert die Ergebnisreihenfolge für Unternehmensabruf-Workloads. Es bietet eine stärkere Relevanzeinstufung für Geschäfts-, Finanz-, technische und andere domänenspezifische Inhalte, die Workflows für die nachgelagerte Retrieval-Augmented Generation verbessern können, indem relevantere Kontexte angezeigt werden.
- Selbstlernende Unterstützung
-
Rerank 4 führt Self-Learning-Support ein, der hilft, das Ranglistenverhalten an domänenspezifische Daten, Terminologie und Relevanzvoreinstellungen anzupassen, ohne dass kommentierte Trainingsdaten erforderlich sind.
- Pro und Fast Varianten
-
Rerank 4 ist in zwei Varianten erhältlich:
- Pro ist für ein präziseres Umrüsten und komplexere Abrufaufgaben optimiert.
- Fast ist für Workloads mit geringerer Latenz und höherem Durchsatz optimiert.
- Mehrsprachige und halbstrukturierte Datenunterstützung
-
Rerank 4 unterstützt das erneute Rangieren von englischen und nicht-englischen Inhalten in mehr als 100 Sprachen. Es unterstützt auch halbstrukturierte Inhalte, einschließlich JSON, Tabellen und codeähnlicher Inhalte.
Regionen für dieses Modell
Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Modellvarianten
Cohere Rerank 4 umfasst folgende Modellvarianten:
| Modell | OCI-Modellname | Beschreibung |
|---|---|---|
| Cohere Rerank 4 Pro | cohere.rerank-v4.0-pro |
Mehrsprachiges Rangiermodell für englischen und nicht-englischen Text und halbstrukturierte JSON-Daten. Am besten geeignet für qualitätsorientierte und komplexe Umrüst-Workloads. |
| Cohere Rerank 4 Fast | cohere.rerank-v4.0-fast |
Leichtes mehrsprachiges Rangiermodell für englischen und nicht-englischen Text und halbstrukturierte JSON-Daten. Am besten geeignet für Workloads mit geringerer Latenz und höherem Durchsatz. |
Bedarfsgesteuerter Modus
Einige Cohere Rerank 4 Varianten sind On-Demand in unterstützten Regionen verfügbar. Für den On-Demand-Modus ist kein dediziertes KI-Cluster erforderlich.
Unter Modelle nach Region können Sie prüfen, welche Modellvarianten On-Demand und in welchen Regionen verfügbar sind.
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| Cohere Rerank 4 Pro | cohere.rerank-v4.0-pro |
Rerank 4 Pro |
| Cohere Rerank 4 Fast | cohere.rerank-v4.0-fast |
Rerank 4 Fast |
Die Preisfindung basiert auf 1.000 Sucheinheiten. Siehe Seite "Preisfindung".
Weitere Informationen zum On-Demand-Modus.
Dediziertes KI-Cluster für das Modell
Einige Cohere Rerank 4-Varianten sind über dedizierte KI-Cluster in unterstützten Regionen verfügbar. Diese Modelle sind nicht für die Feinabstimmung verfügbar.
Erstellen Sie im dedizierten Modus einen Endpunkt in einem dedizierten KI-Cluster, in dem das Hosting ausgeführt wird.
| Modell | Hardwareeinheitsgröße | Verfügbare Regionen | Erhöhung des Clusterlimits anfordern |
|---|---|---|---|
Cohere Rerank 4 Pro (cohere.rerank-v4.0-pro) |
COHERE_A100_80G_X1 |
|
|
Cohere Rerank 4 Pro (cohere.rerank-v4.0-pro) |
COHERE_H100_X1 |
|
|
Cohere Rerank 4 Schnell (cohere.rerank-v4.0-fast) |
COHERE_A100_80G_X1 |
|
|
Cohere Rerank 4 Schnell (cohere.rerank-v4.0-fast) |
COHERE_H100_X1 |
|
|
Die Preise finden Sie im Kostenrechner und auf der Seite "Preisfindung".
Wenn der Mandant nicht über genügend Limits verfügt, um diese Modelle in einem dedizierten KI-Cluster zu hosten, fordern Sie eine Limiterhöhung für die in der Zielregion verwendete Hardwareausprägung an. Beispiel: Um die Modelle in US West (Phoenix) zu hosten, fordern Sie eine Erhöhung von 1 für dedicated-unit-a100-80g-count an.
Zugriff auf dieses Modell
Um ein Cohere Rerank 4-Modell zu verwenden, rufen Sie die API RerankText aus einer unterstützten Region auf.
- Endpunkt
https://inference.generativeai.{region}.oci.oraclecloud.com- API-Vorgang
POST /20231130/actions/rerankText
Legen Sie in RerankTextDetails für servingMode das Attribut servingType basierend auf dem Zugriff auf das Modell fest:
- Verwenden Sie
ON_DEMANDfür ein On-Demand-Modell in einer unterstützten Region. - Verwenden Sie
DEDICATEDfür ein Modell, das auf einem dedizierten KI-Clusterendpunkt gehostet wird.
Details zur Verfügbarkeit und zum Setup finden Sie in den vorherigen Abschnitten On-Demand-Modus und Dediziertes KI-Cluster für das Modell.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Ruhestandsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):
Rerank-Modellparameter
Die Parameter des Rerank-Modells finden Sie in der API-Dokumentation RerankText.