xAI Grok 4 Fast (en phase d'abandon)

Le modèle xAI Grok 4 Fast est une version du modèle xAI Grok 4 optimisée pour la vitesse et le coût. Comme Grok 4, ce modèle excelle dans les cas d'utilisation d'entreprise tels que l'extraction de données, le codage et la synthèse de texte, et possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.

Avertissement

Avis de sortie: Ce modèle est obsolète le 15 mai 2026 et se retire le 15 août 2026. Après la sortie, vous n'avez plus accès à ce modèle.
Action obligatoire: Si vous utilisez ce modèle dans une région, vous devez migrer vers un modèle pris en charge plus récent d'ici le 15 août 2026. Reportez-vous au modèle de remplacement suggéré.

Grok 4 Fast est plus rapide que Grok 4, avec un délai de réception du premier jeton et une vitesse de sortie élevée. Cette hiérarchisation de la vitesse rend ce modèle idéal pour les applications en temps réel.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Accéder à ce modèle

Accédez à ce modèle via :

Généralités

Le modèle xAI Grok 4 Fast est disponible dans deux modes proposés dans deux modèles distincts. Un modèle de raisonnement et un modèle de non-raisonnement. Reportez-vous au tableau suivant pour déterminer le modèle à sélectionner.


Mode	Nom du modèle	Fonctionnement	Utilisation
Raisonnement	`xai.grok-4-fast-reasoning`	Génère des jetons de pensée pour une analyse étape par étape de la chaîne de pensée, fournissant un raisonnement logique plus profond avec plus de latence (moins que les modèles de raisonnement précédents).	Des problèmes complexes en plusieurs étapes qui nécessitent des solutions analytiques et prudentes.
Non-raisonnement	`xai.grok-4-fast-non-reasoning`	Ignore la phase de pensée des jetons et renvoie des réponses instantanées correspondant au modèle.	Requêtes simples et simples où la vitesse est la priorité.

Principales fonctionnalités

Noms de modèle dans OCI Generative AI :
- xai.grok-4-fast-reasoning
- xai.grok-4-fast-non-reasoning
Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
Prise en charge multimodale : saisissez du texte et des images et obtenez une sortie texte.
Connaissances : possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.
Longueur de contexte : 2 millions de jetons (la longueur maximale de l'invite + de la réponse est de 2 millions de jetons pour conserver le contexte). Dans le terrain de jeu, la longueur de la réponse est plafonnée à 16 000 jetons pour chaque course, mais le contexte reste de 2 millions.
Modes : fonctionne selon deux modes : "raisonnement" pour les tâches complexes et "non-raisonnement" pour les demandes simples et critiques en termes de vitesse.
Appel de fonction : Oui, via l'API.
Sorties structurées : Oui.
Jetons d'entrée en cache : Oui
- Nombre de jetons : reportez-vous à l'attribut cachedTokens dans l'API de référence PromptTokensDetails.
- Tarification : Voir la page Tarification.
Remarque importante : La fonctionnalité d'entrée en cache est disponible à la fois dans le playground de test et dans l'API. Cependant, ces informations ne peuvent être extraites que via l'API.
Limite de connaissance : Non disponible

Limites

Jetons par minute (TPM): Pour l'augmentation de limite TPM, utilisez le nom de limite suivant : grok-4-fast-chat-tokens-per-minute-count (pour 200 000 jetons). Reportez-vous à Création d'une demande d'augmentation de limite.

Entrées d'image

Console : téléchargez des images .png ou .jpg, de 5 Mo ou moins.
API : seuls les formats de fichier JPG/JPEG et PNG sont pris en charge. Soumettez une version codée base64 d'une image, en veillant à ce que chaque image convertie soit supérieure à 256 et inférieure à 1 792 jetons. Par exemple, une image 512 x 512 convertit généralement en environ 1 610 jetons. Il n'y a pas de nombre maximum d'images pouvant être téléchargées. Le nombre combiné de jetons pour le texte et les images doit se trouver dans la fenêtre de contexte globale du modèle de 2 millions de jetons.

Mode à la demande

Remarque

Les modèles Grok sont disponibles uniquement en mode à la demande.


Nom du modèle	Nom du modèle OCI	Nom du produit de la page de tarification
xAI Grok 4 Fast	`xai.grok-4-fast-reasoning` `xai.grok-4-fast-non-reasoning`	xAI - Grok 4 Fast Les prix sont indiqués pour : Jetons d'entrée Jetons de sortie Jetons d'entrée en cache

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :

Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.
Faible barrière pour commencer à utiliser l'IA générative.
Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).

Dates de publication et de retrait OCI

Pour les dates de déblocage et de sortie et les options de modèle de remplacement, voir Dates de sortie du modèle (mode à la demande).

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie: Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués.

Conseil

Pour les entrées volumineuses présentant des problèmes difficiles, définissez une valeur élevée pour le paramètre de jetons de sortie maximum. Reportez-vous à Dépannage.
Température: Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top p: Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Dépannage

Problème : le modèle Grok 4 Fast ne répond pas.

Cause : le paramètre Nombre maximal de jetons de sortie dans la zone de lecture ou le paramètre max_tokens dans l'API est probablement trop faible. Par exemple, par défaut, ce paramètre est défini sur 600 jetons dans le terrain de jeu, qui peuvent être faibles pour les tâches complexes.

Action : augmentez le paramètre de jetons de sortie maximum.

Documentation Oracle Cloud Infrastructure