Cohere Command A Vision
Cohere Command A Vision (cohere.command-a-vision) wurde im Juli 2025 veröffentlicht und ist ein unternehmensorientiertes multimodales großes Sprachmodell, das sich durch das Verständnis und die Interpretation visueller Daten (Bilder, Diagramme, Dokumente) neben Text auszeichnet.
Regionen für dieses Modell
Informationen zu unterstützten Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Zugriff auf dieses Modell
Die API-Endpunkte für alle unterstützten kommerziellen, souveränen und staatlichen Regionen sind in den Links "Management-API" und "Inferenz-API" aufgeführt. Sie können nur über die unterstützten Regionen auf jedes Modell zugreifen.
Wichtige Features
- Multimodale Unterstützung: Geben Sie Text und Bilder ein, und rufen Sie eine Textausgabe ab. Geeignet für unternehmensorientierte Vision-Sprachaufgaben wie Dokumentenanalyse und Bildeinblicke.
- Geben Sie in der Konsole ein
.png- oder.jpg-Image mit maximal 5 MB ein. - Geben Sie für die API in jeder Ausführung ein
base64-codiertes Image ein. Ein 512 x 512 Bild wird in etwa 1.610 Token konvertiert.
- Geben Sie in der Konsole ein
- Kontextlänge: 128.000 Token (Maximale Prompt- und Antwortlänge: 128.000 Token für jede Ausführung)
- Basismodell: Basiert auf Cohere Command A LLM.
- Modellgröße: Das Modell verfügt über 112 Milliarden Parameter.
- Effizienz: Optimiert für die Ausführung auf einem Low-Compute-Footprint von 2 GPUs.
Weitere Informationen finden Sie in der Cohere-Dokumentation unter Command A Vision Model.
API-Endpunkte
Das Modell Cohere Command A Vision ist nur mit der Version 2 der OCI Generative AI Chat-API für Cohere-Modelle kompatibel. Implementierungsdetails finden Sie in der API CohereChatRequestV2 und anderen zugehörigen Endpunkten, die in V2 enden, wie
CohereChatResponseV2.Bedarfsgesteuerter Modus
In der folgenden Tabelle finden Sie den On-Demand-Produktnamen dieses Modells auf der Seite "Preisfindung".
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| Cohere Command A Vision | cohere.command-a-vision |
Large Cohere |
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal für Experimente, Proof of Concept und Modellauswertung.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Änderung des dynamischen Throttling-Limits für On-Demand-Modus
OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.
Diese Änderung hängt von folgenden Faktoren ab:
- Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
- Ungenutzte Systemkapazität zum Zeitpunkt der Änderung.
- Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.
Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.
Aufgrund der dynamischen Änderung der Throttling-Grenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance der Integration in den Service.
Dediziertes KI-Cluster für das Modell
In der vorherigen Regionsliste haben Modelle in Regionen, die nicht mit (nur dediziertes KI-Cluster) gekennzeichnet sind, sowohl On-Demand- als auch dedizierte KI-Clusteroptionen. Für den On-Demand-Modus benötigen Sie keine Cluster, und Sie können das Modell im Playground der Konsole oder über die API erreichen.
Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.
| Basismodell | Optimierungscluster | Hostingcluster | Preisfindungsseiteninformationen | Erhöhung des Clusterlimits anfordern |
|---|---|---|---|---|
|
Nicht für Feinabstimmung verfügbar |
|
|
|
|
Nicht für Feinabstimmung verfügbar |
|
|
|
-
Wenn im Mandanten nicht genügend Clusterlimits für das Hosting des Cohere Command A Vision-Modells in einem dedizierten KI-Cluster vorhanden sind,
- Fordern Sie für die Region UAE East (Dubai) die Erhöhung des Limits
dedicated-unit-small-cohere-countum 4 an. - Für alle anderen Regionen fordern Sie das Limit
dedicated-unit-large-cohere-countan, um es um 1 zu erhöhen.
- Fordern Sie für die Region UAE East (Dubai) die Erhöhung des Limits
Endpunktregeln für Cluster
- Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
- Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
- Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
| Hostingclustereinheitsgröße | Endpunktregeln |
|---|---|
| LARGE_COHERE_V3 |
|
| SMALL_COHERE_4
(nur UAE East (Dubai)) |
|
-
Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
-
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an:
endpoint-per-dedicated-unit-count. Siehe Limiterhöhungsanforderung erstellen und Servicelimits für generative KI.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Abgangsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.
- Einleitungs-Override
-
Ein anfänglicher Kontext oder eine Leitnachricht für ein Chatmodell. Wenn Sie einem Chatmodell keine Präambel geben, wird die Standardpräambel für dieses Modell verwendet. Sie können eine Präambel im Parameter Preamble Override für die Modelle zuweisen. Die Standardpräambel für die Cohere-Familie lautet:
You are Command. You are an extremely capable large language model built by Cohere. You are given instructions programmatically via an API that you follow to the best of your ability.Das Überschreiben der Standardpräambel ist optional. Wenn angegeben, ersetzt das preamble-Override die Standard-Cohere-Präambel. Geben Sie beim Hinzufügen einer Präambel für beste Ergebnisse den Modellkontext, Anweisungen und einen Unterhaltungsstil an.
Tipp
Bei Chatmodellen ohne den Parameter preamble Override können Sie einen Präambel in die Chatunterhaltung aufnehmen und das Modell direkt auf eine bestimmte Weise zur Beantwortung auffordern. - Sicherheitsmodus
- Fügt eine Sicherheitsanweisung für das Modell hinzu, die beim Generieren von Antworten verwendet werden soll. Folgende Optionen stehen zur Auswahl:
- Kontextuell: (Standard) Gibt weniger Constraints für die Ausgabe aus. Es behält den Kernschutz, indem es darauf abzielt, schädliche oder illegale Vorschläge abzulehnen, aber es erlaubt Profanität und einige toxische Inhalte, sexuell explizite und gewalttätige Inhalte sowie Inhalte, die medizinische, finanzielle oder rechtliche Informationen enthalten. Der kontextbezogene Modus eignet sich für Unterhaltung, kreative oder akademische Zwecke.
- Streng: Zielt darauf ab, sensible Themen wie gewalttätige oder sexuelle Handlungen und Profanität zu vermeiden. Dieser Modus zielt darauf ab, eine sicherere Erfahrung zu bieten, indem er Antworten oder Empfehlungen verbietet, die er für unangemessen hält. Der strikte Modus eignet sich für den Unternehmenseinsatz, z. B. für die Unternehmenskommunikation und den Kundenservice.
- Aus: Es wird kein Sicherheitsmodus angewendet.
- Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
peine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siepauf 1, um alle Token zu berücksichtigen. - Top k
-
Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den
top k-Token wählt. Ein hoher Wert fürkgeneriert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 fürCohere Command-Modelle. Das bedeutet, dass das Modell alle Token berücksichtigen und diese Methode nicht verwenden sollte. - Frequency Penalty
-
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.
- Presence Penalty
-
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.
- Vordefinieren
-
Ein Parameter, der den bestmöglichen Versuch unternimmt, Token deterministisch zu erfassen. Wenn diesem Parameter ein Wert zugewiesen wird, zielt das Large Language Model darauf ab, dasselbe Ergebnis für wiederholte Anforderungen zurückzugeben, wenn Sie denselben Seed und dieselben Parameter für die Anforderungen zuweisen.
Zulässige Werte sind Ganzzahlen, und die Zuweisung eines großen oder kleinen Seed-Wertes wirkt sich nicht auf das Ergebnis aus. Die Zuweisung einer Nummer für den Seed-Parameter ähnelt dem Tagging der Anforderung mit einer Nummer. Das große Sprachmodell zielt darauf ab, dieselbe Gruppe von Token für dieselbe Ganzzahl in aufeinanderfolgenden Anforderungen zu generieren. Diese Funktion ist besonders für Debugging und Tests nützlich. Der Seed-Parameter hat keinen Höchstwert für die API, und in der Konsole ist der Höchstwert 9999. Wenn Sie den Seed-Wert in der Konsole leer lassen oder in der API Null angeben, wird dieses Feature deaktiviert.
Warnung
Der Seed-Parameter erzeugt möglicherweise nicht dasselbe Ergebnis auf lange Sicht, da die Modellupdates im OCI Generative AI-Service den Seed möglicherweise ungültig machen.