Cohere Embed 4

Cohere Embed 4 (cohere.embed-v4.0) ist ein multimodales Einbettungsmodell, das Einbettungen aus Text- und Bildeingabe generiert. Die Bildeingabe ist nur über die API verfügbar.

Regionen für dieses Modell

Wichtig

Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.

Wichtige Features

  1. Eingabegrenzwerte:
    • Konsole: Bis zu 96 Texteingaben pro Ausführung, wobei jede Texteingabe unter 512 Token steht
    • SDK und API: Bis zu 128.000 Eingabetoken insgesamt pro Ausführung
  2. Eingabemodus:
    • Text oder Bild eingeben, nicht jedoch beides
    • Bei Bildeinbettungen ist nur ein Bild zulässig
    • Bildeingabe ist nur über die API verfügbar
  3. Bildeingabe (nur über API verfügbar)
    • Erfordert ein base64-codiertes Image
    • Ein 512 x 512-Abbild umfasst 1.610 Token
  4. Sprachunterstützung:
    • Text: Englisch und mehrsprachig
    • Bild: Nur Englisch

Bedarfsgesteuerter Modus

Der On-Demand-Modus ist Pay-as-you-go und eignet sich für Experimente, Proof-of-Concept-Arbeit und Modellauswertung. Auf der Seite "Preisfindung" wird dieses Modell wie folgt aufgeführt:

Modellname OCI-Modellname Preisfindungsseite - Produktname
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Wichtig

Änderung des dynamischen Throttling-Limits für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen. Aufgrund der dynamischen Drosselung sind die Ratengrenzwerte nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Änderung der Throttling-Grenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.

Dediziertes KI-Cluster für das Modell

Um dieses Modell mit einem dedizierten KI-Cluster zu verwenden, erstellen Sie einen Endpunkt für das Modell in einer unterstützten Region.

Basismodell Optimierungscluster Hostingcluster Preisfindungsseiteninformationen Erhöhung des Clusterlimits anfordern
  • Modellname: Cohere Embed 4
  • OCI-Modellname: cohere.embed-v4.0
Nicht für Feinabstimmung verfügbar
  • Einheit: Embed Cohere
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Embed Cohere - Dedicated
  • Für Hosting Multiply the Unit Price: x1
  • Limitname: dedicated-unit-embed-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 1
Tipp

Wenn Sie nicht über genügend Hostingkapazität verfügen, fordern Sie eine Erhöhung für das Limit dedicated-unit-embed-cohere-count an.

Endpunktregeln für Cluster

  • Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
  • Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
  • Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
Hostingclustereinheitsgröße Endpunktregeln
Embed Cohere
  • Basismodell: Um das Modell ⁇ cohere.embed-v4.0 ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Embed Cohere-Cluster benötigen (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können cohere.embed-v4.0 nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.
Tipp

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für Cohere Embed 4-Cluster für verschiedene Anwendungsfälle.

Eingabedaten für Texteinbettungen

Die Eingabedaten für die Erstellung von Texteinbettungen haben folgende Anforderungen:

  • Sie können Sätze, Phrasen oder Absätze zum Einbetten entweder einzeln oder durch Hochladen einer Datei hinzufügen.
  • Nur Dateien mit der Erweiterung .txt sind zulässig.
  • Wenn Sie eine Eingabedatei verwenden, müssen jeder Eingabesatz, jede Wortgruppe oder jeder Absatz in der Datei durch ein Zeilenvorschubzeichen getrennt werden.
  • Für jede Ausführung sind maximal 96 Eingaben zulässig.
  • In der Konsole muss jede Eingabe weniger als 512 Token für Nur-Text-Modelle enthalten.
  • Wenn eine Eingabe zu lang ist, wählen Sie, ob der Anfang oder das Ende des Textes abgeschnitten werden soll, um innerhalb des Tokenlimits zu passen, indem Sie den Parameter Abschneiden auf Start oder Ende setzen. Wenn eine Eingabe den Tokengrenzwert von 512 überschreitet und der Parameter Abschneiden auf Kein Wert gesetzt ist, wird eine Fehlermeldung angezeigt.
  • Für die Text- und Bildmodelle können Sie Dateien und Eingaben haben, die alle bis zu 128.000 Token hinzufügen.
  • Für die Modelle zum Einbetten von Text und Bildern, wie Cohere Embed English Image V3, können Sie entweder Text hinzufügen oder nur ein Bild hinzufügen. Für das Image können Sie die API verwenden. Bildeingabe ist in der Konsole nicht verfügbar. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.

Weitere Informationen finden Sie unter Texteinbettungen in OCI Generative AI erstellen.

Von "Embed 3" zu "Embed 4" migrieren

Wenn Sie von 3 einbetten zu Embed 4 migrieren und die Vektorgröße von 1.024 zu 1.536 Dimensionen ändern, verwenden Sie einen neuen Index, um Ausfallzeiten zu vermeiden.

  1. Neuen Vektorindex erstellen

    Erstellen Sie einen neuen Index oder eine neue Collection in Ihrer Vektordatenbank, die für 1.536 Dimensionen konfiguriert ist.

  2. Daten erneut einbetten

    Verarbeiten Sie die Quelldokumente erneut mit cohere.embed-v4.0, und setzen Sie output_dimension=1536. Speichern Sie die neuen Einbettungen im neuen Index.

  3. Abfragelogik aktualisieren

    Aktualisieren Sie die Anwendung so, dass Embed 4 für eingehende Suchabfragen verwendet wird.

    Verwenden Sie:
    • input_type="search_query" für Abfragen
    • input_type="search_document" für gespeicherte Dokumente
  4. Ausschneiden

    Nachdem der neue Index vollständig aufgefüllt und getestet wurde, aktualisieren Sie Ihre Anwendung so, dass der neue Index 1.536-Dimension verwendet wird.