xAI Grok 4

Le modèle xai.grok-4 a de meilleures performances que son prédécesseur, Grok 3, et excelle dans les cas d'utilisation d'entreprise tels que l'extraction de données, le codage et le résumé du texte. Ce modèle possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.

Régions pour ce modèle

Important

Pour les régions prises en charge, les types d'adresse (clusters d'IA dédiés ou à la demande) et l'hébergement (appels externes ou OCI Generative AI) pour ce modèle, reportez-vous à la page Modèles par région. Pour plus de détails sur les régions, reportez-vous à la page Régions d'IA générative.

Principales fonctionnalités

  • Nom du modèle dans OCI Generative AI : xai.grok-4
  • Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
  • Prise en charge multimodale : saisissez du texte et des images et obtenez une sortie texte.
  • Connaissances : possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.
  • Longueur du contexte : 128 000 jetons (la longueur maximale de l'invite + de la réponse est de 128 000 jetons pour conserver le contexte). Dans le terrain de jeu, la longueur de la réponse est plafonnée à 16 000 jetons pour chaque exécution, mais le contexte reste 128 000 jetons.
  • Excelle dans les cas d'utilisation suivants : extraction de données, codage et synthèse de texte
  • Appel de fonction : Oui, via l'API.
  • Sorties structurées : Oui.
  • A un raisonnement : Oui. Les problèmes de raisonnement augmentent le nombre maximal de jetons de sortie. Reportez-vous à Paramètres de modèle.
  • Jetons d'entrée en cache : Oui

    Remarque importante : La fonctionnalité d'entrée en cache est disponible à la fois dans le playground de test et dans l'API. Cependant, ces informations ne peuvent être extraites que via l'API.

  • Limite de connaissances : novembre 2024

Limites

Jetons par minute (TPM)
Pour l'augmentation de limite TPM, utilisez le nom de limite suivant : grok-4-chat-tokens-per-minute-count (pour 200 000 jetons). Reportez-vous à Création d'une demande d'augmentation de limite.
Entrées d'image
  • Console : téléchargez des images .png ou .jpg, de 5 Mo ou moins.
  • API : soumettez une version d'image encodée en base64, en vous assurant que chaque image convertie est supérieure à 512 et inférieure à 1 792 jetons. Par exemple, une image 512 x 512 convertit généralement en environ 1 610 jetons.

Mode à la demande

Remarque

Les modèles Grok sont disponibles uniquement en mode à la demande.

Nom du modèle Nom du modèle OCI Nom du produit de la page de tarification
xAI Grok 4 xai.grok-4 xAI – Grok 4
Les prix sont indiqués pour :
  • Jetons d'entrée
  • Jetons de sortie
  • Jetons d'entrée en cache
Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :
  • Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
  • Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie

Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. La longueur maximale de l'invite + de la sortie est de 128 000 jetons pour chaque exécution.

Conseil

Pour les entrées volumineuses présentant des problèmes difficiles, définissez une valeur élevée pour le paramètre de jetons de sortie maximum. Reportez-vous à Dépannage.
Température

Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Remarque

Le modèle xai.grok-4 a un raisonnement, mais ne prend pas en charge le paramètre reasoning_effort utilisé dans les modèles rapides Grok 3 mini et Grok 3 mini. Si vous indiquez le paramètre reasoning_effort dans l'API pour le modèle xai.grok-4, vous obtenez une réponse d'erreur.

Dépannage

Problème : le modèle Grok 4 ne répond pas.

Cause : le paramètre Nombre maximal de jetons de sortie dans la zone de lecture ou le paramètre max_tokens dans l'API est probablement trop faible.

Action : augmentez le paramètre de jetons de sortie maximum.

Motif : pour les problèmes difficiles qui nécessitent un raisonnement et une résolution de problèmes, et pour les entrées sophistiquées volumineuses, le modèle xai.grok-4 a tendance à penser et à consommer de nombreux jetons. Par conséquent, si le paramètre max_tokens est trop faible, le modèle utilise les jetons alloués et ne renvoie pas de réponse finale.