Cohere-Befehl (52B)

Das Modell cohere.command ist veraltet.

Wichtig

Das cohere.command-Modell, das für den On-Demand-Serving-Modus unterstützt wird, wird jetzt eingestellt. Dieses Modell ist für den dedizierten Serving-Modus veraltet. Wenn Sie cohere.command in einem dedizierten KI-Cluster hosten (dedizierter Bereitstellungsmodus), können Sie dieses gehostete Modellreplikat weiterhin mit der Zusammenfassungs- und Generierungs-API und im Playground verwenden, bis das Modell cohere.command für den dedizierten Bereitstellungsmodus abläuft. Dieses Modell, wenn es in einem dedizierten KI-Cluster gehostet wird, ist nur in US Midwest (Chicago) verfügbar. Informationen zu Ablaufdaten und Definitionen finden Sie unter Modelle in den Ruhestand versetzen. Wir empfehlen, stattdessen die chat-modelle zu verwenden, die dieselben zusammenfassungs- und textgenerierungsfunktionen bieten, einschließlich kontrolle über zusammenfassungslänge und -stil.

In diesen Regionen verfügbar

  • US Midwest (Chicago)

Wichtige Features

  • Das Modell hat 52 Milliarden Parameter.
  • Benutzer-Prompt und Antwort können bis zu 4,096 Token pro Ausführung enthalten.
  • Sie können dieses Modell mit Ihrem Dataset optimieren.

Dediziertes KI-Cluster für das Modell

In der vorherigen Regionsliste haben Modelle in Regionen, die nicht mit (nur dediziertes KI-Cluster) gekennzeichnet sind, sowohl On-Demand- als auch dedizierte KI-Clusteroptionen. Für die On-Demand-Option benötigen Sie keine Cluster, und Sie können das Modell im Playground der Konsole oder über die API erreichen.

Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.

Basismodell Optimierungscluster Hostingcluster Preisfindungsseiteninformationen Erhöhung des Clusterlimits anfordern
  • Modellname: Cohere Command (52B)
  • OCI-Modellname: cohere.command (veraltet)
  • Einheit: Large Cohere
  • Erforderliche Einheiten: 2
  • Einheit: Large Cohere
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Large Cohere - Dedicated
  • Für Hosting Multiply the Unit Price: x1
  • Zur Feinabstimmung den Stückpreis multiplizieren: x2
  • Limitname: dedicated-unit-large-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 1
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 2

Abruf- und Abgangsdatum

Modell Freigabedatum Abgangsdatum bei Bedarf Abgangsdatum im dedizierten Modus
cohere.command 2.024-2-7 2.024-10-2 2.025-8-7
Wichtig

Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.

Parameter für Generierungsmodelle

Wenn Sie die Generierungsmodelle verwenden, können Sie die Ausgabe ändern, indem Sie die folgenden Parameter ändern.

Maximale Ausgabetoken

Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token.

Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.
Top k

Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den top k-Token wählt. Ein höherer Wert für k generiert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 für command-Modelle und -1 für Llama-Modelle. Das bedeutet, dass die Modelle alle Token berücksichtigen und diese Methode nicht verwenden sollten.

Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Stoppsequenzen

Eine Sequenz von Zeichen, wie ein Wort, eine Phrase, ein Zeilenvorschub ((\n)) oder ein Punkt, der dem Modell mitteilte, wann die generierte Ausgabe gestoppt wird. Wenn mehrere Stoppsequenzen vorhanden sind, wird das Modell gestoppt, wenn es eine dieser Sequenzen erreicht.

Frequency Penalty

Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.

Presence Penalty

Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.

Wahrscheinlichkeiten anzeigen

Bei jeder Generierung eines neuen Tokens wird allen Token eine Zahl zwischen -15 und 0 zugewiesen. Dabei besitzen Token mit einer höheren Zahl eine höhere Wahrscheinlichkeit, auf das aktuelle Token zu folgen. Beispiel: Dem Wort favorite folgt eher das Wort food oder book als das Wort zebra. Dieser Parameter ist nur für die cohere-Modelle verfügbar.

Parameter für Zusammenfassungsmodelle

Wenn Sie ein gehostetes Zusammenfassungsmodell im Playground nutzen, erhalten Sie eine andere Ausgabe, indem Sie die folgenden Parameter ändern.

Länge

Die ungefähre Länge der Zusammenfassung. Sie können kurz, mittel oder lang auswählen. Kurze Zusammenfassungen sind ungefähr bis zu zwei Sätze lang, mittlere Zusammenfassungen sind zwischen drei und fünf Sätzen, und lange Zusammenfassungen können sechs oder mehr Sätze haben. Für den Automatisch-Wert wählt das Modell eine Länge basierend auf der Eingabegröße.

Format

Gibt an, ob die Zusammenfassung in einem Freiformabsatz oder unter Aufzählungszeichen angezeigt werden soll. Wenn Sie Automatisch auswählen, wählt das Modell das beste Format basierend auf dem Eingabetext.

Extrahierungsfähigkeit

Gibt an, wie stark die Eingabe in der Zusammenfassung wiederverwendet werden soll. Zusammenfassungen mit hoher Extraktivität neigen dazu, Sätze wörtlich zu verwenden, und Zusammenfassungen mit geringer Extraktivität neigen dazu, Paraphrase zu verwenden.

Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.

Tipp

Um einen Text zusammenzufassen, setzen Sie die Temperatur zunächst auf 0. Wenn Sie keine zufälligen Ergebnisse benötigen, empfehlen wir einen Temperaturwert von 0,2. Verwenden Sie einen höheren Wert, wenn Sie beispielsweise danach verschiedene Übersichten auswählen möchten. Verwenden Sie jedoch keine hohe Temperatur für eine Zusammenfassung, weil dies eventuell dazu führt, dass das Modell kreative Text erzeugt, der auch Halluzinationen und faktisch falsche Informationen enthalten kann.
Zusätzlicher Befehl

Weitere Zusammenfassungsoptionen wie Stil oder Fokus. Schreiben Sie einen oder mehrere zusätzliche Befehle in einer natürlichen Sprache als Anweisungen an das Modell, z. B. "Fokus auf Daten", "Schreiben in einem Konversationsstil" oder "Beenden des Lebenslaufs mit END SUMMARY".