Cohere Embed Multilingual Light 3

Prüfen Sie Performancebenchmarks für das cohere.embed-multilingual-light-v3.0 (Cohere Embed Multilingual Light 3)-Modell, das auf einer Embed Cohere-Einheit eines dedizierten KI-Clusters in OCI Generative AI gehostet wird.

  • Siehe Details für das Modell, und prüfen Sie die folgenden Abschnitte:
    • Verfügbare Regionen für dieses Modell.
    • Dedizierte KI-Cluster für das Hosting dieses Modells.
  • Prüfen Sie die Metriken.

Einbettungen

Dieses Szenario gilt nur für die Einbettungsmodelle. Dieses Szenario ahmt die Einbettungsgenerierung als Teil der Datenaufnahme-Pipeline einer Vektordatenbank nach. In diesem Szenario haben alle Anforderungen die gleiche Größe, d.h. 96 Dokumente, die jeweils 512 Token enthalten. Ein Beispiel wäre eine Sammlung großer PDF-Dateien, jede Datei mit mehr als 30.000 Wörtern, die ein Benutzer in eine Vektor-DB aufnehmen möchte.

Nebenläufigkeit Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 1,69 42
8 3,8 118
32 14,26 126
128 37,17 138

Leichtere Einbettungen

Dieses Szenario gilt nur für die Einbettungsmodelle. Dieses leichtere Einbettungsszenario ähnelt dem Einbettungsszenario, mit der Ausnahme, dass wir die Größe jeder Anfrage auf 16 Dokumente mit jeweils 512 Token reduzieren. Kleinere Dateien mit weniger Wörtern könnten von diesem Szenario unterstützt werden.

Nebenläufigkeit Latenz auf Anforderungsebene (Sekunden) Durchsatz auf Anforderungsebene (Anforderung pro Minute) (RPM)
1 1,03 54
8 1,35 300
32 3,11 570
128 11,5 888