Cohere Embed 4
Cohere Embed 4 (cohere.embed-v4.0) ist ein multimodales Einbettungsmodell, das Einbettungen aus Text- und Bildeingabe generiert. Die Bildeingabe ist nur über die API verfügbar.
Regionen für dieses Modell
Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Zugriff auf dieses Modell
Die API-Tinten listen die Endpunkte für alle unterstützten kommerziellen, souveränen und staatlichen Regionen auf.
Wichtige Features
- Eingabegrenzwerte:
- Konsole: Bis zu 96 Texteingaben pro Ausführung, wobei jede Texteingabe unter 512 Token steht
- SDK und API: Bis zu 128.000 Eingabetoken insgesamt pro Ausführung
- Eingabemodus:
- Text oder Bild eingeben, nicht jedoch beides
- Bei Bildeinbettungen ist nur ein Bild zulässig
- Bildeingabe ist nur über die API verfügbar
- Bildeingabe (nur über API verfügbar)
- Erfordert ein base64-codiertes Image
- Ein 512 x 512-Abbild umfasst 1.610 Token
- Sprachunterstützung:
- Text: Englisch und mehrsprachig
- Bild: Nur Englisch
Bedarfsgesteuerter Modus
Der On-Demand-Modus ist Pay-as-you-go und eignet sich für Experimente, Proof-of-Concept-Arbeit und Modellauswertung. Auf der Seite "Preisfindung" wird dieses Modell wie folgt aufgeführt:
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
Änderung des dynamischen Throttling-Limits für On-Demand-Modus
OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen. Aufgrund der dynamischen Drosselung sind die Ratengrenzwerte nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.
Aufgrund der dynamischen Änderung der Throttling-Grenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.
Dediziertes KI-Cluster für das Modell
Um dieses Modell mit einem dedizierten KI-Cluster zu verwenden, erstellen Sie einen Endpunkt für das Modell in einer unterstützten Region.
| Basismodell | Optimierungscluster | Hostingcluster | Preisfindungsseiteninformationen | Erhöhung des Clusterlimits anfordern |
|---|---|---|---|---|
|
Nicht für Feinabstimmung verfügbar |
|
|
|
Wenn Sie nicht über genügend Hostingkapazität verfügen, fordern Sie eine Erhöhung für das Limit dedicated-unit-embed-cohere-count an.
Endpunktregeln für Cluster
- Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
- Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
- Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
| Hostingclustereinheitsgröße | Endpunktregeln |
|---|---|
| Embed Cohere |
|
-
Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
-
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an:
endpoint-per-dedicated-unit-count. Siehe Limiterhöhungsanforderung erstellen und Servicelimits für generative KI.
Clusterperformancebenchmarks
Prüfen Sie die Performancebenchmarks für Cohere Embed 4-Cluster für verschiedene Anwendungsfälle.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Abgangsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):
Eingabedaten für Texteinbettungen
Die Eingabedaten für die Erstellung von Texteinbettungen haben folgende Anforderungen:
- Sie können Sätze, Phrasen oder Absätze zum Einbetten entweder einzeln oder durch Hochladen einer Datei hinzufügen.
- Nur Dateien mit der Erweiterung
.txtsind zulässig. - Wenn Sie eine Eingabedatei verwenden, müssen jeder Eingabesatz, jede Wortgruppe oder jeder Absatz in der Datei durch ein Zeilenvorschubzeichen getrennt werden.
- Für jede Ausführung sind maximal 96 Eingaben zulässig.
- In der Konsole muss jede Eingabe weniger als 512 Token für Nur-Text-Modelle enthalten.
- Wenn eine Eingabe zu lang ist, wählen Sie, ob der Anfang oder das Ende des Textes abgeschnitten werden soll, um innerhalb des Tokenlimits zu passen, indem Sie den Parameter Abschneiden auf Start oder Ende setzen. Wenn eine Eingabe den Tokengrenzwert von 512 überschreitet und der Parameter Abschneiden auf Kein Wert gesetzt ist, wird eine Fehlermeldung angezeigt.
- Für die Text- und Bildmodelle können Sie Dateien und Eingaben haben, die alle bis zu 128.000 Token hinzufügen.
- Für die Modelle zum Einbetten von Text und Bildern, wie Cohere Embed English Image V3, können Sie entweder Text hinzufügen oder nur ein Bild hinzufügen. Für das Image können Sie die API verwenden. Bildeingabe ist in der Konsole nicht verfügbar. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.
Weitere Informationen finden Sie unter Texteinbettungen in OCI Generative AI erstellen.
Von "Embed 3" zu "Embed 4" migrieren
Wenn Sie von 3 einbetten zu Embed 4 migrieren und die Vektorgröße von 1.024 zu 1.536 Dimensionen ändern, verwenden Sie einen neuen Index, um Ausfallzeiten zu vermeiden.
-
Neuen Vektorindex erstellen
Erstellen Sie einen neuen Index oder eine neue Collection in Ihrer Vektordatenbank, die für 1.536 Dimensionen konfiguriert ist.
-
Daten erneut einbetten
Verarbeiten Sie die Quelldokumente erneut mit
cohere.embed-v4.0, und setzen Sieoutput_dimension=1536. Speichern Sie die neuen Einbettungen im neuen Index. -
Abfragelogik aktualisieren
Aktualisieren Sie die Anwendung so, dass Embed 4 für eingehende Suchabfragen verwendet wird.
Verwenden Sie:input_type="search_query"für Abfrageninput_type="search_document"für gespeicherte Dokumente
-
Ausschneiden
Nachdem der neue Index vollständig aufgefüllt und getestet wurde, aktualisieren Sie Ihre Anwendung so, dass der neue Index 1.536-Dimension verwendet wird.