Cohere Embed 4
Cohere Embed 4 (cohere.embed-v4.0) ist ein multimodales Einbettungsmodell, das Einbettungen aus Text, einem Bild oder Text und einem Bild in derselben API-Payload generiert. Die Bildeingabe ist nur über die API verfügbar.
Regionen für dieses Modell
Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Zugriff auf dieses Modell
Die API-Tinten listen die Endpunkte für alle unterstützten kommerziellen, souveränen und staatlichen Regionen auf.
Wichtige Features
- Matryoshka-Einbettungen: Unterstützt die Ausgabedimensionen 256, 512, 1.024 und 1.536. Dieses Feature wird in Embed 3-Modellen nicht unterstützt.
- Eingabegrenzwerte:
- Konsole: Bis zu 96 Texteingaben pro Ausführung, wobei jede Texteingabe unter 512 Token steht. Dieses Limit gilt für den On-Demand-Modus.
- SDK und API: Bis zu 128.000 Eingabetoken insgesamt pro Ausführung.
- Ausgabedimensionen:
- Konsole:1.536
- API: 1.536 standardmäßig; unterstützt 256, 512, 1.024 und 1.536
- Eingabemodus:
- API: Unterstützt nur Text, nur ein Bild oder mehrere Texteingaben mit einem Bild in derselben Payload.
- Pro Payload ist nur ein Image zulässig.
- Die Bildeingabe ist nur über die API verfügbar.
- Bildeingabe:
- Erfordert ein base64-codiertes Image.
- Ein 512 x 512-Abbild enthält etwa 1.610 Token.
- Sprachunterstützung:
- Text: Englisch und mehrsprachig
- Bild: Nur Englisch
Text und Bild in der EmbedText-API verwenden
Um ein Bild mit Text einzuschließen, verwenden Sie das Attribut embedContents im Anforderungsbody EmbedTextDetails für die API EmbedText.
Das Attribut embedContents ist ein Array und wird nur für Embed 4-Modelle unterstützt. Jedes Element im Array ist ein EmbedContent-Objekt. Ein EmbedContent-Objekt kann Textinhalt oder Bildinhalt enthalten.
Verwenden Sie embedContents, wenn Sie Text und Bildinhalt in derselben EmbedText-Anforderung senden möchten. Sie können mehrere Texteinträge und ein Bild bis zur maximalen Eingabegröße einschließen.
Die anderen Parameter für die EmbedText-API bleiben unverändert.
Das Attribut
embedContents wird nur von Embed 4-Modellen unterstützt. Verwenden Sie embedContents nicht mit Embed 3-Modellen.Bedarfsgesteuerter Modus
Der On-Demand-Modus ist Pay-as-you-go und eignet sich für Experimente, Proof-of-Concept-Arbeit und Modellauswertung. Auf der Seite "Preisfindung" wird dieses Modell wie folgt aufgeführt:
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| Cohere Cohere Embed 4 | cohere.embed-v4.0 |
Embed Cohere |
Änderung des dynamischen Throttling-Limits für On-Demand-Modus
OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen. Aufgrund der dynamischen Drosselung sind die Ratengrenzwerte nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.
Da sich Ratenlimits ändern können, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anforderungen im Laufe der Zeit zu weiteren Ablehnungen, erhöhter Latenz und potenzieller vorübergehender Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.
Dediziertes KI-Cluster für das Modell
Um dieses Modell mit einem dedizierten KI-Cluster zu verwenden, erstellen Sie einen Endpunkt für das Modell in einer unterstützten Region.
| Basismodell | Optimierungscluster | Hostingcluster | Preisfindungsseiteninformationen | Erhöhung des Clusterlimits anfordern |
|---|---|---|---|---|
|
Nicht für Feinabstimmung verfügbar |
|
|
|
Wenn Sie nicht über genügend Hostingkapazität verfügen, fordern Sie eine Erhöhung für das Limit dedicated-unit-embed-cohere-count an.
Endpunktregeln für Cluster
- Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
- Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
- Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
| Hostingclustereinheitsgröße | Endpunktregeln |
|---|---|
| Embed Cohere |
|
-
Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
-
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an:
endpoint-per-dedicated-unit-count. Siehe Limiterhöhungsanforderung erstellen und Servicelimits für generative KI.
Clusterperformancebenchmarks
Prüfen Sie die Performancebenchmarks für Cohere Embed 4-Cluster für verschiedene Anwendungsfälle.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Abgangsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):
Eingabedaten für Texteinbettungen
Bei Texteinbettungen können Sie Sätze, Ausdrücke oder Absätze hinzufügen. In der Konsole können Sie Text direkt eingeben oder eine .txt-Datei hochladen.
Wenn Sie eine Eingabedatei verwenden, trennen Sie jeden Eingabesatz, jede Wortgruppe oder jeden Absatz mit einem Zeilenvorschubzeichen.
Konsolenlimits:
- Maximale 96 Texteingaben pro Ausführung
- Jede Texteingabe muss unter 512 Token stehen
SDK- und API-Limits:
- Bis zu 128.000 Eingabetoken insgesamt pro Ausführung
- Texteingaben und Bildeingaben werden zusammen auf das gesamte Eingabetokenlimit angerechnet
- Pro Payload ist nur ein Image zulässig
- Bildeingabe muss base64-codiert sein
Wenn eine Eingabe zu lang ist, verwenden Sie den Parameter truncate, um den Start oder das Ende der Eingabe zu kürzen. Wenn die Eingabe den Tokengrenzwert überschreitet und truncate auf None gesetzt ist, gibt die Anforderung einen Fehler zurück.
Parameter für Einbettungsmodelle
Sie können die folgenden Parameter ändern, wenn Sie Einbettungsmodelle verwenden.
- Abschneiden (
truncate) -
Schneidet Token am Anfang oder Ende ab, wenn die Eingabe den maximalen Tokengrenzwert überschreitet.
- Einbettungstypen (
embeddingTypes) -
Unterstützte Werte:
float(Standard)int8uint8binaryubinarybase64
- Ausgabedimensionen (
outputDimensions) -
Unterstützte Werte:
25651210241536(Standard)
Von "Embed 3" zu "Embed 4" migrieren
Bei der Migration von "3 einbetten" zu "Embed 4" wird empfohlen, die Vektorgröße von 1.024 in 1.536 Dimensionen zu ändern und einen neuen Index zu verwenden, um Ausfallzeiten zu vermeiden.
-
Neuen Vektorindex erstellen
Erstellen Sie einen neuen Index oder eine neue Collection in Ihrer Vektordatenbank, die für 1.536 Dimensionen konfiguriert ist.
-
Daten erneut einbetten
Verarbeiten Sie die Quelldokumente erneut mit
cohere.embed-v4.0, und setzen SieoutputDimensions=1536. Speichern Sie die neuen Einbettungen im neuen Index. -
Abfragelogik aktualisieren
Aktualisieren Sie die Anwendung so, dass Embed 4 für eingehende Suchabfragen verwendet wird. Verwenden Sie:input_type="search_query"für Abfrageninput_type="search_document"für gespeicherte Dokumente
-
Ausschneiden
Nachdem der neue Index vollständig aufgefüllt und getestet wurde, aktualisieren Sie die Anwendung so, dass der neue Index der 1.536-Dimension verwendet wird.