xAI Grok 3 Fast

Le modèle xai.grok-3-fast excelle dans les cas d'utilisation d'entreprise tels que l'extraction de données, le codage et la synthèse du texte. Ce modèle possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.

Les modèles xai.grok-3 et xai.grok-3-fast utilisent tous deux le même modèle sous-jacent et fournissent une qualité de réponse identique. La différence réside dans la façon dont ils sont servis : le modèle xai.grok-3-fast est servi sur une infrastructure plus rapide, offrant des temps de réponse nettement plus rapides que le modèle xai.grok-3 standard. La vitesse accrue se traduit par un coût plus élevé par jeton de sortie.

Les modèles xai.grok-3 et xai.grok-3-fast pointent vers le même modèle sous-jacent. Sélectionnez xai.grok-3-fast pour les applications sensibles à la latence et xai.grok-3 pour un coût réduit.

Disponible dans ces régions

  • Est des Etats-Unis (Ashburn) (à la demande uniquement)
  • Midwest des Etats-Unis (Chicago) (à la demande uniquement)
  • Ouest des Etats-Unis (Phoenix) (à la demande uniquement)
Important

Appels externes

Les modèles xAI Grok accessibles via le service OCI Generative AI sont hébergés en externe par xAI. Par conséquent, un appel à un modèle xAI Grok (via le service OCI Generative AI) entraîne un appel vers un emplacement xAI.

Principales fonctionnalités

  • Nom du modèle dans OCI Generative AI : xai.grok-3-fast
  • Disponible à la demande : accédez à ce modèle à la demande, via le playground de test de la console ou l'API.
  • Mode texte uniquement : saisissez du texte et obtenez une sortie texte. (Aucune image prise en charge.)
  • Connaissances : possède une connaissance approfondie du domaine de la finance, des soins de santé, du droit et de la science.
  • Longueur de contexte : 131 072 jetons (la longueur maximale de l'invite + de la réponse est de 131 072 jetons pour chaque exécution). Dans le terrain de jeu, la longueur de la réponse est plafonnée à 16 000 jetons pour chaque exécution.
  • Excelle dans les cas d'utilisation suivants : extraction de données, codage et synthèse de texte
  • Appel de fonction : Oui, via l'API.
  • Sorties structurées : Oui.
  • A un raisonnement : Non.
  • Limite de connaissances : novembre 2024

Limites

Jetons par minute (TPM)

Les appels d'inférence vers ce modèle sont plafonnés à 100 000 jetons par minute (TPM) par client ou location.

Afin d'afficher la limite en cours pour votre location, accédez à Gouvernance et administration dans la console. Sous Gestion des locations, sélectionnez Limites, quotas et utilisation. Sous Service, sélectionnez IA générative et vérifiez les limites de service. Pour demander une augmentation du nombre limite de service, sélectionnez Demander une augmentation du nombre limite de service. Pour l'augmentation de limite TPM, utilisez le nom de limite suivant : grok-3-chat-tokens-per-minute-count.

Mode à la demande

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :
  • Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concepts et l'évaluation des modèles.
  • Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).
Conseil

Pour garantir un accès fiable aux modèles d'IA générative en mode à la demande, nous vous recommandons d'implémenter une stratégie de back-off, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de votre intégration au service.

Remarque

Les modèles Grok sont disponibles uniquement en mode à la demande.

Reportez-vous au tableau suivant pour connaître le nom de produit de ce modèle sur la page de tarification.

Nom du modèle Nom du modèle OCI Nom du produit de la page de tarification
xAI Grok 3 Fast xai.grok-3-fast xAI – Grok 3 Fast

Date de lancement

Modèle Date de version bêta Date de publication de la disponibilité générale Date de sortie à la demande Date de retrait du mode dédié
xai.grok-3-fast 2 025-5-22 2 025-6-24 Provisoire Ce modèle n'est pas disponible pour le mode dédié.
Important

Pour obtenir la liste de toutes les lignes de temps du modèle et des détails de sortie, voir Mettre hors service les modèles.

Paramètres de modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le playground de test ou l'API.

Nombre maximal de sèmes de sortie

Nombre maximal de sèmes que le modèle doit générer pour chaque réponse. Estimez quatre caractères par jeton. Comme vous demandez un modèle de discussion, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués. La longueur maximale de l'invite + de la sortie est de 131 072 jetons pour chaque exécution. Dans le terrain de jeu, le nombre maximal de jetons de sortie est plafonné à 16 000 pour chaque exécution.

Température

Niveau de randomité utilisé pour générer le texte de sortie. Min : 0, Max : 2

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invitations pour affiner les sorties. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.
Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Pénalité de fréquence

Pénalité affectée à un jeton lorsque ce dernier apparaît fréquemment. Les pénalités élevées encouragent moins de jetons répétés et produisent un résultat plus aléatoire.

Cette pénalité peut être positive ou négative. Les nombres positifs encouragent le modèle à utiliser de nouveaux jetons et les nombres négatifs encouragent le modèle à répéter les jetons. Valeur minimale : -2, valeur maximale : 2. Définissez la valeur sur 0 pour désactiver.

Pénalité de présence

Pénalité affectée à chaque jeton lorsqu'il apparaît dans la sortie pour encourager les sorties avec des jetons qui n'ont pas été utilisés. Valeur minimale : -2, valeur maximale : 2. Définissez la valeur sur 0 pour désactiver.