Cohere Command A Reasoning

Cohere Command A Reasoning (cohere.command-a-reasoning) wurde im August 2025 veröffentlicht und ist Cohere's Flaggschiff für ein 111-Milliarden-Parameter-Großsprachenmodell, das für fortschrittliche Unternehmensgrundlagen, agentenbezogene Workflows und die Verwendung von Tools entwickelt wurde. Dieses Modell ist für Aufgaben konzipiert, die erweiterte logische Verarbeitung, eingehende Analyse und mehrstufige Argumentation erfordern, wie umfassende Fragen und Antworten, komplizierte Dokumentenprüfung und das Erstellen strukturierter Argumente. Das Modell unterstützt ein 256.000-Token-Kontextfenster, sodass es sich ideal für groß angelegte Datenanalysen und Agent-Workflows eignet.

Regionen für dieses Modell

Wichtig

Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.

Wichtige Features

  • Modellzweck: Im Gegensatz zu Allzweckmodellen wurde Befehl A speziell für Unternehmensszenarios entwickelt, wobei Genauigkeit, Argumentation und Sicherheit priorisiert werden. Zu den wichtigsten Anwendungsfällen gehören:
    • Autonome Agents: Komplexe Workflows verwalten, als Research Agent fungieren und mit Umgebungen interagieren.
    • Advanced RAG: Umfassende Dokumentanalyse, Erstellung von Finanzberichten und Datenextraktion mit präzisen Zitaten.
    • Multi-Turn-Chatbots: Aufrechterhaltung der Kohärenz und logischen Konsistenz über lange, komplexe Gespräche.
  • Kontextfenster: Unterstützt ein 256.000-Token-Fenster mit bis zu 32.000 ausgegebenen Token, sodass umfangreiche Dokumente analysiert werden können, und der Kontext aus der langen Unterhaltungshistorie von 256.000 Token wird beibehalten. Für On-Demand-Inferenzierungen wird die Antwortlänge für jede Ausführung auf 4.000 Token begrenzt. Für den dedizierten Modus ist die Antwortlänge nicht begrenzt, und die Kontextlänge beträgt 256.000 Token.
  • Agentische Anwendungsfälle: Extras unter ReAct (Reasoning + Acting) Agents, die komplexe, mehrstufige Fragen in Unterziele aufteilen, externe Tools verwenden, autonome Aktionen ausführen und mit der Umgebung interagieren, um Probleme zu lösen.
  • Werkzeugnutzung und RAG: Entworfen interagieren mit externen APIs und nutzen verschiedene Tools wie Suchmaschinen und Datenbanken mit integrierter Unterstützung für Erdungszitate.
  • Mehrsprachiger Support: Kann nativ in 23 Sprachen sprechen, darunter Englisch, Spanisch, Chinesisch, Arabisch und Deutsch.
  • Architektur und Effizienz: Verwendet eine vierschichtige Transformatorarchitektur mit hybrider Aufmerksamkeit (Schiebefenster + global), um langen Kontext zu bewältigen, und kann auf ein oder zwei GPUs ausgeführt werden.
  • Konfiguration: Benutzer können Argumentationsbudgets festlegen, um Latenz, Genauigkeit und Durchsatz auszugleichen.
  • Knowledge Cutoff: 1. Juni 2024

Weitere Informationen finden Sie in der Cohere-Dokumentation zu Command A Reasoning Model und Reasoning Guide.

API-Endpunkte

Wichtig

Das Modell Cohere Command A Reasoning ist nur mit der Version 2 der OCI Generative AI Chat-API für Cohere-Modelle kompatibel. Implementierungsdetails finden Sie in der API CohereChatRequestV2 und anderen zugehörigen Endpunkten, die auf V2 enden. Beispiel: CohereChatResponseV2.

Dediziertes KI-Cluster für das Modell

In der vorherigen Regionsliste haben Modelle in Regionen, die nicht mit (nur dediziertes KI-Cluster) gekennzeichnet sind, sowohl On-Demand- als auch dedizierte KI-Clusteroptionen. Für den On-Demand-Modus benötigen Sie keine Cluster, und Sie können das Modell im Playground der Konsole oder über die API erreichen.

Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.

Basismodell Optimierungscluster Hostingcluster Preisfindungsseiteninformationen Erhöhung des Clusterlimits anfordern
  • Modellname: Cohere Command A Reasoning
  • OCI-Modellname: cohere.command-a-reasoning
Nicht für Feinabstimmung verfügbar
  • Einheit: LARGE_COHERE_V2_2
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Large Cohere - Dedicated
  • Für Hosting Multiply the Unit Price: x2
  • Limitname: dedicated-unit-large-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 2
  • Modellname: Cohere Command A Reasoning

    (nur UAE East (Dubai))

  • OCI-Modellname: cohere.command-a-reasoning
Nicht für Feinabstimmung verfügbar
  • Einheit: SMALL_COHERE_4
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Small Cohere - Dedicated
  • Für Hosting Multiply the Unit Price: x4
  • Limitname: dedicated-unit-small-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 4
Tipp

  • Wenn im Mandanten nicht genügend Clusterlimits für das Hosting des Cohere Command A Reasoning-Modells in einem dedizierten KI-Cluster vorhanden sind,
    • Fordern Sie für die Region UAE East (Dubai) die Erhöhung des Limits dedicated-unit-small-cohere-count um 4 an.
    • Für alle anderen Regionen fordern Sie das Limit dedicated-unit-large-cohere-count an, um es um 2 zu erhöhen.

    Siehe Limiterhöhungsanforderungen erstellen.

Endpunktregeln für Cluster

  • Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
  • Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
  • Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
Hostingclustereinheitsgröße Endpunktregeln
LARGE_COHERE_V2_2
  • Basismodell: Um das Modell ⁇ cohere.command-a-reasoning ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein LARGE_COHERE_V2_2-Cluster benötigen (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können cohere.command-a-reasoning nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.
SMALL_COHERE_4

(nur UAE East (Dubai))

  • Basismodell: Um das Modell ⁇ cohere.command-a-reasoning ⁇ auf mehreren Endpunkten in UAE East (Dubai) auszuführen, erstellen Sie so viele Endpunkte wie erforderlich in einem SMALL_COHERE_4-Cluster (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können cohere.command-a-reasoning nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.
Tipp

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken

Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.

Einleitungs-Override

Ein anfänglicher Kontext oder eine Leitnachricht für ein Chatmodell. Wenn Sie einem Chatmodell keine Präambel geben, wird die Standardpräambel für dieses Modell verwendet. Sie können eine Präambel im Parameter Preamble Override für die Modelle zuweisen. Die Standardpräambel für die Cohere-Familie lautet:

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

Das Überschreiben der Standardpräambel ist optional. Wenn angegeben, ersetzt das preamble-Override die Standard-Cohere-Präambel. Geben Sie beim Hinzufügen einer Präambel für beste Ergebnisse den Modellkontext, Anweisungen und einen Unterhaltungsstil an.

Tipp

Bei Chatmodellen ohne den Parameter preamble Override können Sie einen Präambel in die Chatunterhaltung aufnehmen und das Modell direkt auf eine bestimmte Weise zur Beantwortung auffordern.
Sicherheitsmodus
Fügt eine Sicherheitsanweisung für das Modell hinzu, die beim Generieren von Antworten verwendet werden soll. Folgende Optionen stehen zur Auswahl:
  • Kontextuell: (Standard) Gibt weniger Constraints für die Ausgabe aus. Es behält den Kernschutz, indem es darauf abzielt, schädliche oder illegale Vorschläge abzulehnen, aber es erlaubt Profanität und einige toxische Inhalte, sexuell explizite und gewalttätige Inhalte sowie Inhalte, die medizinische, finanzielle oder rechtliche Informationen enthalten. Der kontextbezogene Modus eignet sich für Unterhaltung, kreative oder akademische Zwecke.
  • Streng: Zielt darauf ab, sensible Themen wie gewalttätige oder sexuelle Handlungen und Profanität zu vermeiden. Dieser Modus zielt darauf ab, eine sicherere Erfahrung zu bieten, indem er Antworten oder Empfehlungen verbietet, die er für unangemessen hält. Der strikte Modus eignet sich für den Unternehmenseinsatz, z. B. für die Unternehmenskommunikation und den Kundenservice.
  • Aus: Es wird kein Sicherheitsmodus angewendet.
Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.
Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Top k

Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den top k-Token wählt. Ein hoher Wert für k generiert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 für Cohere Command-Modelle und -1 für Meta Llama-Modelle. Das bedeutet, dass das Modell alle Token berücksichtigen und diese Methode nicht verwenden sollte.

Frequency Penalty

Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.

Für die Meta Llama-Familienmodelle kann diese Strafe positiv oder negativ sein. Positive Zahlen ermutigen das Modell, neue Token zu verwenden, und negative Zahlen ermutigen das Modell, die Token zu wiederholen. Auf 0 setzen, um zu deaktivieren.

Presence Penalty

Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.

Vordefinieren

Ein Parameter, der den bestmöglichen Versuch unternimmt, Token deterministisch zu erfassen. Wenn diesem Parameter ein Wert zugewiesen wird, zielt das Large Language Model darauf ab, dasselbe Ergebnis für wiederholte Anforderungen zurückzugeben, wenn Sie denselben Seed und dieselben Parameter für die Anforderungen zuweisen.

Zulässige Werte sind Ganzzahlen, und die Zuweisung eines großen oder kleinen Seed-Wertes wirkt sich nicht auf das Ergebnis aus. Die Zuweisung einer Nummer für den Seed-Parameter ähnelt dem Tagging der Anforderung mit einer Nummer. Das große Sprachmodell zielt darauf ab, dieselbe Gruppe von Token für dieselbe Ganzzahl in aufeinanderfolgenden Anforderungen zu generieren. Diese Funktion ist besonders für Debugging und Tests nützlich. Der Seed-Parameter hat keinen Höchstwert für die API, und in der Konsole ist der Höchstwert 9999. Wenn Sie den Seed-Wert in der Konsole leer lassen oder in der API Null angeben, wird dieses Feature deaktiviert.

Warnung

Der Seed-Parameter erzeugt möglicherweise nicht dasselbe Ergebnis auf lange Sicht, da die Modellupdates im OCI Generative AI-Service den Seed möglicherweise ungültig machen.

API-Parameter für Begründung

denken

Standardmäßig wird das Argumentationsfeature für das Modell cohere.command-a-reasoning über den Parameter thinking aktiviert. Siehe CohereThinkingV2

Wenn der Parameter thinking aktiviert ist, verarbeitet das Modell Schritt für Schritt komplexe Probleme, indem die Probleme intern aufgeschlüsselt werden, bevor eine endgültige Antwort bereitgestellt wird. Sie haben verschiedene Möglichkeiten, diese Funktion zu steuern:

Thinking ist standardmäßig aktiviert, kann aber deaktiviert werden. Wenn diese Option deaktiviert ist, funktioniert das Argumentationsmodell ähnlich wie jedes andere LLM ohne den internen Argumentationsschritt.

token_budget

Sie können ein Tokenbudget mit dem Parameter token_budget angeben, um die Anzahl der denkenden Token zu begrenzen, die das Modell produziert. Wenn das Budget überschritten wird, wird das Modell sofort mit der endgültigen Antwort fortgesetzt.

Bei der Verwendung von Denkbudgets empfiehlt Cohere:

  • Unbegrenztes Denken, wenn möglich
  • Wenn Sie ein Budget verwenden, lassen Sie mindestens 1000 Token für die Antwort
  • Aus Gründen der maximalen Argumentation wird ein Budget von 31.000 Token empfohlen

Siehe CohereThinkingContentV2 Reference und CohereThinkingV2 Reference in der API-Dokumentation und Reasoning Guide in der Cohere-Dokumentation.