xAI Grok 3 Mini (en phase d'abandon)

Le modèle xai.grok-3-mini est un modèle léger qui réfléchit avant de répondre. Rapide, intelligent et idéal pour les tâches basées sur la logique qui ne nécessitent pas de connaissances approfondies du domaine. Les traces de pensée brute sont accessibles.

Avertissement

Avis de sortie: Ce modèle est obsolète le 15 mai 2026 et se retire le 15 août 2026. Après la sortie, vous n'avez plus accès à ce modèle.
Action obligatoire: Si vous utilisez ce modèle dans une région, vous devez migrer vers un modèle pris en charge plus récent d'ici le 15 août 2026. Reportez-vous au modèle de remplacement suggéré.

Les modèles xai.grok-3-mini et xai.grok-3-mini-fast utilisent tous deux le même modèle sous-jacent et fournissent une qualité de réponse identique. La différence réside dans la façon dont ils sont servis : le modèle xai.grok-3-mini-fast est servi sur une infrastructure plus rapide, offrant des temps de réponse nettement plus rapides que le modèle xai.grok-3-mini standard. La vitesse accrue se traduit par un coût plus élevé par jeton de sortie.

Les modèles xai.grok-3-mini et xai.grok-3-mini-fast pointent vers le même modèle sous-jacent. Sélectionnez xai.grok-3-mini-fast pour les applications sensibles à la latence et xai.grok-3-mini pour un coût réduit.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Accéder à ce modèle

Accédez à ce modèle via :

Principales fonctionnalités

Nom du modèle dans OCI Generative AI : xai.grok-3-mini
Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
Mode texte uniquement : saisissez du texte et obtenez une sortie texte. (Aucune image prise en charge.)
Fast : idéal pour les tâches logiques qui ne nécessitent pas de connaissances approfondies du domaine.
Longueur du contexte : 131 072 jetons (la longueur maximale de l'invite + de la réponse est de 131 072 jetons pour conserver le contexte). Dans le terrain de jeu, la longueur de la réponse est plafonnée à 16 000 jetons pour chaque exécution, mais le contexte reste 131 072 jetons.
Appel de fonction : Oui, via l'API.
Sorties structurées : Oui.
Jetons d'entrée en cache : Oui
- Nombre de jetons : reportez-vous à l'attribut cachedTokens dans l'API de référence PromptTokensDetails.
- Tarification : Voir la page Tarification.
Remarque importante : La fonctionnalité d'entrée en cache est disponible à la fois dans le playground de test et dans l'API. Cependant, ces informations ne peuvent être extraites que via l'API.
A un raisonnement : Oui. Reportez-vous au paramètre reasoning_effort dans la section Paramètres du modèle.
Limite de connaissances : novembre 2024

Limites

Jetons par minute (TPM)

Les appels d'inférence vers ce modèle sont plafonnés à 100 000 jetons par minute (TPM) par client ou location.

Afin d'afficher la limite en cours pour une location, accédez à Gouvernance et administration dans la console. Sous Gestion des locations, sélectionnez Limites, quotas et utilisation. Sous Service, sélectionnez IA générative et vérifiez les limites de service. Pour demande d'augmentation de limite de service, sélectionnez Demande d'augmentation de limite de service. Pour l'augmentation de limite TPM, utilisez le nom de limite suivant : grok-3-mini-chat-tokens-per-minute-count.

Mode à la demande

Remarque

Les modèles Grok sont disponibles uniquement en mode à la demande.


Nom du modèle	Nom du modèle OCI	Nom du produit de la page de tarification
xAI Grok 3 Mini	`xai.grok-3-mini`	xAI – Grok 3 Mini Les prix sont indiqués pour : Jetons d'entrée Jetons de sortie Jetons d'entrée en cache

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :

Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.
Faible barrière pour commencer à utiliser l'IA générative.
Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).

Dates de publication et de retrait OCI

Pour les dates de déblocage et de sortie et les options de modèle de remplacement, voir Dates de sortie du modèle (mode à la demande).

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie

Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. La longueur maximale de l'invite + de la sortie est de 131 072 jetons pour chaque exécution. Dans le terrain de jeu, le nombre maximal de jetons de sortie est plafonné à 16 000 pour chaque exécution.

Température

Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.

Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Min : 0, Max : 1.

Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Effort de raisonnement

Le paramètre reasoning_effort, disponible via l'API et non via la console, contrôle le temps que le modèle passe à réfléchir avant de répondre. Vous devez la définir sur l'une des valeurs suivantes :

low : temps de réflexion minimal, en utilisant moins de jetons pour des réponses rapides.
high : temps de réflexion maximal, en exploitant davantage de jetons pour les problèmes complexes.

Le choix du niveau approprié dépend de votre tâche : utilisez low pour les requêtes simples qui se terminent rapidement et high pour les problèmes plus complexes où la latence de réponse est moins importante. En savoir plus sur ce paramètre dans les guides xAI.

Documentation Oracle Cloud Infrastructure