xAI Grok 3 Fast
Das xai.grok-3-fast
-Modell eignet sich hervorragend für Unternehmensanwendungsfälle wie Datenextraktion, Codierung und Zusammenfassung von Text. Dieses Modell verfügt über fundiertes Fachwissen in den Bereichen Finanzen, Gesundheitswesen, Recht und Wissenschaft.
Die Modelle xai.grok-3
und xai.grok-3-fast
verwenden dasselbe zugrunde liegende Modell und liefern dieselbe Antwortqualität. Der Unterschied liegt darin, wie sie bedient werden: Das xai.grok-3-fast
-Modell wird auf einer schnelleren Infrastruktur bereitgestellt und bietet Reaktionszeiten, die deutlich schneller sind als das Standardmodell xai.grok-3
. Die erhöhte Geschwindigkeit kommt zu höheren Kosten pro Ausgabe-Token.
Die Modelle xai.grok-3
und xai.grok-3-fast
verweisen auf dasselbe zugrunde liegende Modell. Wählen Sie xai.grok-3-fast
für latenzempfindliche Anwendungen aus, und wählen Sie xai.grok-3
aus, um die Kosten zu senken.
In diesen Regionen verfügbar
- US East (Ashburn) (nur bei Bedarf)
- Mittlerer Westen der USA (Chicago) (nur bei Bedarf)
- US West (Phoenix) (nur bei Bedarf)
Externe Anrufe
Die xAI Grok-Modelle, auf die über den OCI Generative AI-Service zugegriffen werden kann, werden extern von xAI gehostet. Daher kann ein Aufruf eines xAI-Grok-Modells (über den OCI Generative AI-Service) zu einem Aufruf an einen xAI-Standort führen.
Wichtige Features
- Modellname in OCI Generative AI:
xai.grok-3-fast
- On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
- Nur Textmodus: Geben Sie Text ein, und rufen Sie eine Textausgabe ab. (Keine Bildunterstützung.)
- Wissen: Verfügt über umfassende Kenntnisse in den Bereichen Finanzen, Gesundheitswesen, Recht und Wissenschaft.
- Kontextlänge: 131.072 Token (maximale Prompt- und Antwortlänge beträgt 131.072 Token für jede Ausführung). Im Spielplatz wird die Antwortlänge für jeden Lauf auf 16.000 Token begrenzt.
- Ausführliche Beispiele für diese Anwendungsfälle: Datenextraktion, Codierung und Zusammenfassung von Text
- Funktionsaufruf: Ja, über die API.
- Strukturierte Ausgaben: Ja.
- Hat Argumentation: Nein.
- Wissens-Cutoff: November 2024
Limits
- Token pro Minute (TPM)
-
Inferenzaufrufe für dieses Modell sind auf 100.000 Token pro Minute (TPM) pro Kunde oder Mandant begrenzt.
Um das aktuelle Limit für Ihren Mandanten anzuzeigen, navigieren Sie in der Konsole zu Governance und Administration. Wählen Sie unter Mandantenverwaltung die Option Limits, Quota und Nutzung aus. Wählen Sie unter Service die Option Generative KI aus, und prüfen Sie die Servicelimits. Um eine Erhöhung des Servicelimits anzufordern, wählen Sie Erhöhung des Servicelimits beantragen aus. Für die Erhöhung des TPM-Limits verwenden Sie den folgenden Limitnamen:
grok-3-chat-tokens-per-minute-count
.
Bedarfsgesteuerter Modus
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal zum Experimentieren, zum Nachweis von Konzepten und zur Auswertung der Modelle.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Um einen zuverlässigen Zugriff auf generative KI-Modelle im On-Demand-Modus sicherzustellen, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.
Die Grok-Modelle sind nur im On-Demand-Modus verfügbar.
In der folgenden Tabelle finden Sie den Produktnamen dieses Modells auf der Seite "Preisfindung".
Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
---|---|---|
xAI Grok 3 Fast | xai.grok-3-fast |
xAI – Grok 3 Fast |
Freigabedatum
Modell | Beta-Freigabedatum | Veröffentlichungsdatum der allgemeinen Verfügbarkeit | Abgangsdatum bei Bedarf | Abgangsdatum im dedizierten Modus |
---|---|---|---|---|
xai.grok-3-fast |
2.025-5-22 | 2.025-6-24 | Mit Vorbehalt | Dieses Modell ist für den dedizierten Modus nicht verfügbar. |
Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 131.072 Token für jede Ausführung. Im Playground werden die maximalen Ausgabetoken für jede Ausführung auf 16.000 Token begrenzt.
- Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min.: 0, Max.: 2
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
p
eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siep
auf 1, um alle Token zu berücksichtigen. - Frequency Penalty
-
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.
Diese Strafe kann positiv oder negativ sein. Positive Zahlen ermutigen das Modell, neue Token zu verwenden, und negative Zahlen ermutigen das Modell, die Token zu wiederholen. Min.: -2, Max.: 2. Auf 0 setzen, um zu deaktivieren.
- Presence Penalty
-
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern. Min.: -2, Max.: 2. Auf 0 setzen, um zu deaktivieren.