Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) ist ein multimodales Einbettungsmodell, das Einbettungen aus Text, einem Bild oder Text und einem Bild in derselben API-Payload generiert. Die Bildeingabe ist nur über die API verfügbar.

Regionen für dieses Modell

Wichtig

Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.

Wichtige Features

  • Matryoshka-Einbettungen: Unterstützt die Ausgabedimensionen 256, 512, 1.024 und 1.536. Dieses Feature wird in Embed 3-Modellen nicht unterstützt.
  • Eingabegrenzwerte:
    • Konsole: Bis zu 96 Texteingaben pro Ausführung, wobei jede Texteingabe unter 512 Token steht. Dieses Limit gilt für den On-Demand-Modus.
    • SDK und API: Bis zu 128.000 Eingabetoken insgesamt pro Ausführung.
  • Ausgabedimensionen:
    • Konsole:1.536
    • API: 1.536 standardmäßig; unterstützt 256, 512, 1.024 und 1.536
  • Eingabemodus:
    • API: Unterstützt nur Text, nur ein Bild oder mehrere Texteingaben mit einem Bild in derselben Payload.
    • Pro Payload ist nur ein Image zulässig.
    • Die Bildeingabe ist nur über die API verfügbar.
  • Bildeingabe:
    • Erfordert ein base64-codiertes Image.
    • Ein 512 x 512-Abbild enthält etwa 1.610 Token.
  • Sprachunterstützung:
    • Text: Englisch und mehrsprachig
    • Bild: Nur Englisch

Text und Bild in der EmbedText-API verwenden

Um ein Bild mit Text einzuschließen, verwenden Sie das Attribut embedContents im Anforderungsbody EmbedTextDetails für die API EmbedText.

Das Attribut embedContents ist ein Array und wird nur für Embed 4-Modelle unterstützt. Jedes Element im Array ist ein EmbedContent-Objekt. Ein EmbedContent-Objekt kann Textinhalt oder Bildinhalt enthalten.

Verwenden Sie embedContents, wenn Sie Text und Bildinhalt in derselben EmbedText-Anforderung senden möchten. Sie können mehrere Texteinträge und ein Bild bis zur maximalen Eingabegröße einschließen.

Die anderen Parameter für die EmbedText-API bleiben unverändert.

Wichtig

Das Attribut embedContents wird nur von Embed 4-Modellen unterstützt. Verwenden Sie embedContents nicht mit Embed 3-Modellen.

Bedarfsgesteuerter Modus

Der On-Demand-Modus ist Pay-as-you-go und eignet sich für Experimente, Proof-of-Concept-Arbeit und Modellauswertung. Auf der Seite "Preisfindung" wird dieses Modell wie folgt aufgeführt:

Modellname OCI-Modellname Preisfindungsseite - Produktname
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Wichtig

Änderung des dynamischen Throttling-Limits für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen. Aufgrund der dynamischen Drosselung sind die Ratengrenzwerte nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Da sich Ratenlimits ändern können, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anforderungen im Laufe der Zeit zu weiteren Ablehnungen, erhöhter Latenz und potenzieller vorübergehender Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.

Dediziertes KI-Cluster für das Modell

Um dieses Modell mit einem dedizierten KI-Cluster zu verwenden, erstellen Sie einen Endpunkt für das Modell in einer unterstützten Region.

Basismodell Optimierungscluster Hostingcluster Preisfindungsseiteninformationen Erhöhung des Clusterlimits anfordern
  • Modellname: Cohere Embed 4
  • OCI-Modellname: cohere.embed-v4.0
Nicht für Feinabstimmung verfügbar
  • Einheit: Embed Cohere
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Embed Cohere - Dedicated
  • Für Hosting Multiply the Unit Price: x1
  • Limitname: dedicated-unit-embed-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 1
Tipp

Wenn Sie nicht über genügend Hostingkapazität verfügen, fordern Sie eine Erhöhung für das Limit dedicated-unit-embed-cohere-count an.

Endpunktregeln für Cluster

  • Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
  • Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
  • Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
Hostingclustereinheitsgröße Endpunktregeln
Embed Cohere
  • Basismodell: Um das Modell ⁇ cohere.embed-v4.0 ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Embed Cohere-Cluster benötigen (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können cohere.embed-v4.0 nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.
Tipp

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für Cohere Embed 4-Cluster für verschiedene Anwendungsfälle.

Eingabedaten für Texteinbettungen

Bei Texteinbettungen können Sie Sätze, Ausdrücke oder Absätze hinzufügen. In der Konsole können Sie Text direkt eingeben oder eine .txt-Datei hochladen.

Wenn Sie eine Eingabedatei verwenden, trennen Sie jeden Eingabesatz, jede Wortgruppe oder jeden Absatz mit einem Zeilenvorschubzeichen.

Konsolenlimits:

  • Maximale 96 Texteingaben pro Ausführung
  • Jede Texteingabe muss unter 512 Token stehen

SDK- und API-Limits:

  • Bis zu 128.000 Eingabetoken insgesamt pro Ausführung
  • Texteingaben und Bildeingaben werden zusammen auf das gesamte Eingabetokenlimit angerechnet
  • Pro Payload ist nur ein Image zulässig
  • Bildeingabe muss base64-codiert sein

Wenn eine Eingabe zu lang ist, verwenden Sie den Parameter truncate, um den Start oder das Ende der Eingabe zu kürzen. Wenn die Eingabe den Tokengrenzwert überschreitet und truncate auf None gesetzt ist, gibt die Anforderung einen Fehler zurück.

Parameter für Einbettungsmodelle

Sie können die folgenden Parameter ändern, wenn Sie Einbettungsmodelle verwenden.

Abschneiden (truncate)

Schneidet Token am Anfang oder Ende ab, wenn die Eingabe den maximalen Tokengrenzwert überschreitet.

Einbettungstypen (embeddingTypes)

Unterstützte Werte:

  • float (Standard)
  • int8
  • uint8
  • binary
  • ubinary
  • base64
Ausgabedimensionen (outputDimensions)

Unterstützte Werte:

  • 256
  • 512
  • 1024
  • 1536 (Standard)

Von "Embed 3" zu "Embed 4" migrieren

Bei der Migration von "3 einbetten" zu "Embed 4" wird empfohlen, die Vektorgröße von 1.024 in 1.536 Dimensionen zu ändern und einen neuen Index zu verwenden, um Ausfallzeiten zu vermeiden.

  1. Neuen Vektorindex erstellen

    Erstellen Sie einen neuen Index oder eine neue Collection in Ihrer Vektordatenbank, die für 1.536 Dimensionen konfiguriert ist.

  2. Daten erneut einbetten

    Verarbeiten Sie die Quelldokumente erneut mit cohere.embed-v4.0, und setzen Sie outputDimensions=1536. Speichern Sie die neuen Einbettungen im neuen Index.

  3. Abfragelogik aktualisieren

    Aktualisieren Sie die Anwendung so, dass Embed 4 für eingehende Suchabfragen verwendet wird. Verwenden Sie:
    • input_type="search_query" für Abfragen
    • input_type="search_document" für gespeicherte Dokumente
  4. Ausschneiden

    Nachdem der neue Index vollständig aufgefüllt und getestet wurde, aktualisieren Sie die Anwendung so, dass der neue Index der 1.536-Dimension verwendet wird.