xAI Grok Code Fast 1 (en phase d'abandon)

Publié fin août 2025, le modèle xAI Grok Code Fast 1 est un modèle d'IA axé sur le codage qui excelle dans la tâche de codage commune à haut volume et est conçu spécialement pour les workflows de codage agénétique. Avec sa vitesse, son efficacité et son faible coût, ce modèle est conçu pour gérer la boucle du développement logiciel moderne (planification, écriture, test et débogage), offre une trace résumée en temps réel de son raisonnement, et est compétent en TypeScript, Python, Java, Rust, C++ et Go. Utilisez ce modèle pour créer des projets zéro à un, répondre à des questions de base de code, effectuer des corrections de bogues et coder agénétiquement.

Avertissement

Avis de sortie: Ce modèle est obsolète le 15 mai 2026 et se retire le 15 août 2026. Après la sortie, vous n'avez plus accès à ce modèle.
Action obligatoire: Si vous utilisez ce modèle dans une région, vous devez migrer vers un modèle pris en charge plus récent d'ici le 15 août 2026. Reportez-vous au modèle de remplacement suggéré.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Principales fonctionnalités

Nom du modèle dans OCI Generative AI : xai.grok-code-fast-1
Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
Mode texte uniquement : saisissez une entrée de texte et obtenez une sortie de texte. Les images et les entrées de fichier telles que les fichiers audio, vidéo et de document ne sont pas prises en charge.
Connaissances : possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.
Longueur du contexte : 256 000 jetons (la longueur maximale de l'invite + de la réponse est de 256 000 jetons pour conserver le contexte). Dans le terrain de jeu, la longueur de la réponse est plafonnée à 16 000 jetons pour chaque exécution, mais le contexte reste 256 000 jetons.
Excelle dans ces cas d'utilisation : codage agénétique : contrairement aux modèles généraux entraînés à écrire uniquement du code, ce modèle est optimisé pour l'utilisation d'outils. Il est formé pour utiliser le terminal de manière autonome, par exemple, exécuter une commande grep pour rechercher des fichiers et effectuer des modifications en plusieurs étapes dans un référentiel.
Débit massif : au moment de sa publication, ce modèle était l'un des modèles les plus rapides de sa catégorie, fournissant environ 90 à 100 jetons par seconde. Dans de nombreuses intégrations IDE telles que Cursor ou GitHub Copilot, ce modèle peut effectuer des dizaines d'appels d'outil et de modifications avant de terminer la lecture de son plan initial.
Trace de pensée résumée : l'une de ses caractéristiques principales est la visibilité de son esprit. Comme il fonctionne, il fournit une trace résumée en temps réel de son raisonnement. Vous pouvez le voir réfléchir à un bug avant de commencer à écrire le correctif, ce qui vous aide à détecter les erreurs de logique tôt.
Appel de fonction : Oui, via l'API.
Sorties structurées : Oui.
A un raisonnement : Oui.
Jetons d'entrée en cache : Oui
- Nombre de jetons : reportez-vous à l'attribut cachedTokens dans l'API de référence PromptTokensDetails.
- Tarification : Voir la page Tarification.
Remarque importante : La fonctionnalité d'entrée en cache est disponible à la fois dans le playground de test et dans l'API. Cependant, ces informations ne peuvent être extraites que via l'API.
Limite de la connaissance : Aucune date limite connue
Faible coût : au moment de sa sortie, il était moins cher que les autres modèles phares.

Limites

Jetons par minute (TPM): Pour l'augmentation de limite TPM, utilisez le nom de limite suivant : grok-code-fast-tokens-per-minute-count (pour 200 000 jetons). Reportez-vous à Création d'une demande d'augmentation de limite.

Mode à la demande

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié.

Remarque

Les modèles Grok sont disponibles uniquement en mode à la demande.

Voici les principales fonctionnalités du mode à la demande :

Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.
Faible barrière pour commencer à utiliser l'IA générative.
Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).


Nom du modèle	Nom du modèle OCI	Nom du produit de la page de tarification
xAI Grok Code Fast 1	`xai.grok-code-fast-1`	xAI – Grok-Code-Fast-1 Les prix sont indiqués pour : Jetons d'entrée Jetons de sortie Jetons d'entrée en cache

Dates de publication et de retrait OCI

Pour les dates de déblocage et de sortie et les options de modèle de remplacement, voir Dates de sortie du modèle (mode à la demande).

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie: Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. La longueur maximale de l'invite + de la sortie est de 256 000 jetons pour chaque exécution.

Conseil

Pour les entrées volumineuses présentant des problèmes difficiles, définissez une valeur élevée pour le paramètre de jetons de sortie maximum.
Température: Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top p: Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Paramètre d'API pour les traces de pensée résumées

reasoning_content: Pour utiliser des traces de pensée résumées dans l'API xAI, vous interagissez principalement avec le champ reasoning_content. Contrairement à la réponse finale, ce champ contient la logique interne du modèle et vous est renvoyé en temps réel. Vous pouvez obtenir sa trace de réflexion via chunk.choices[0].delta.reasoning_content en mode streaming. Reportez-vous à Pour les développeurs qui créent des agents de codage via l'API xAI.

Remarque

Les traces de pensée récapitulatives ne sont disponibles que lorsque vous utilisez le mode de transmission en continu.

Documentation Oracle Cloud Infrastructure