xAI Grok 4 (New)

Das xai.grok-4-Modell hat eine bessere Performance als sein Vorgänger, Grok 3, und überzeugt durch Unternehmensanwendungsfälle wie Datenextraktion, Codierung und Textzusammenfassung. Dieses Modell verfügt über fundiertes Fachwissen in den Bereichen Finanzen, Gesundheitswesen, Recht und Wissenschaft.

In diesen Regionen verfügbar

  • US East (Ashburn) (nur bei Bedarf)
  • Mittlerer Westen der USA (Chicago) (nur bei Bedarf)
  • US West (Phoenix) (nur bei Bedarf)
Wichtig

Externe Anrufe

Die xAI Grok-Modelle, auf die über den OCI Generative AI-Service zugegriffen werden kann, werden extern von xAI gehostet. Daher kann ein Aufruf eines xAI-Grok-Modells (über den OCI Generative AI-Service) zu einem Aufruf an einen xAI-Standort führen.

Wichtige Features

  • Modellname in OCI Generative AI: xai.grok-4
  • On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
  • Multimodale Unterstützung: Geben Sie Text und Bilder ein, und rufen Sie eine Textausgabe ab.
  • Wissen: Verfügt über umfassende Kenntnisse in den Bereichen Finanzen, Gesundheitswesen, Recht und Wissenschaft.
  • Kontextlänge: 128.000 Token (maximale Prompt- und Antwortlänge beträgt 128.000 Token für jede Ausführung). Im Spielplatz wird die Antwortlänge für jeden Lauf auf 16.000 Token begrenzt.
  • Ausführliche Beispiele für diese Anwendungsfälle: Datenextraktion, Codierung und Zusammenfassung von Text
  • Funktionsaufruf: Ja, über die API.
  • Strukturierte Ausgaben: Ja.
  • Hat Begründung: Ja. Aus Gründen von Problemen erhöhen Sie die maximalen Ausgabetoken. Siehe Modellparameter.
  • Wissens-Cutoff: November 2024

Limits

Bildeingaben
  • Konsole: Laden Sie mindestens ein .png- oder .jpg-Image mit jeweils 5 MB oder weniger hoch.
  • API: Leiten Sie eine base64-codierte Version eines Images weiter, und stellen Sie sicher, dass jedes konvertierte Image mehr als 512 und weniger als 1.792 Token aufweist. Beispiel: Ein 512 x 512-Bild konvertiert in der Regel in etwa 1.610 Token.

Bedarfsgesteuerter Modus

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:
  • Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.

  • Geringe Barriere für den Einsatz generativer KI.
  • Ideal zum Experimentieren, zum Nachweis von Konzepten und zur Auswertung der Modelle.
  • Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Tipp

Um einen zuverlässigen Zugriff auf generative KI-Modelle im On-Demand-Modus sicherzustellen, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Hinweis

Die Grok-Modelle sind nur im On-Demand-Modus verfügbar.

In der folgenden Tabelle finden Sie den Produktnamen dieses Modells auf der Seite "Preisfindung".

Modellname OCI-Modellname Preisfindungsseite - Produktname
xAI Grok 4 xai.grok-4 xAI – Grok 4

Freigabedatum

Modell Veröffentlichungsdatum der allgemeinen Verfügbarkeit Abgangsdatum bei Bedarf Abgangsdatum im dedizierten Modus
xai.grok-4 2.025-7-23 Vorbehalt Dieses Modell ist für den dedizierten Modus nicht verfügbar.
Wichtig

Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken

Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 128.000 Token für jede Ausführung.

Tipp

Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest. Siehe Fehlerbehebung.
Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min.: 0, Max.: 2

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.
Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Hinweis

Das Modell xai.grok-4 hat Argumentation, unterstützt jedoch nicht den Parameter reasoning_effort, der in den Mini-Fast-Modellen Grok 3 mini und Grok 3 verwendet wird. Wenn Sie den Parameter reasoning_effort in der API für das Modell xai.grok-4 angeben, wird eine Fehlerantwort angezeigt.

Fehlerbehebung

Problem: Das Grok 4-Modell reagiert nicht.

Ursache: Der Parameter Maximale Ausgabetoken im Playground oder der Parameter max_tokens in der API ist wahrscheinlich zu niedrig.

Aktion: Erhöhen Sie den Parameter für die maximalen Ausgabetoken.

Grund: Bei schwierigen Problemen, die eine Argumentation und Problemlösung erfordern, und bei großen anspruchsvollen Eingaben neigt das xai.grok-4-Modell dazu, viele Token zu denken und zu konsumieren. Wenn der Parameter max_tokens zu niedrig ist, verwendet das Modell die zugewiesenen Token und gibt keine endgültige Antwort zurück.