xAI Grok 3

El modelo xai.grok-3 destaca en casos de uso empresarial, como la extracción de datos, la codificación y el resumen de texto. Este modelo tiene un profundo conocimiento de dominio en finanzas, salud, derecho y ciencia.

Los modelos xai.grok-3 y xai.grok-3-fast, ambos utilizan el mismo modelo subyacente y ofrecen una calidad de respuesta idéntica. La diferencia radica en cómo se sirven: el modelo xai.grok-3-fast se sirve en una infraestructura más rápida, ofreciendo tiempos de respuesta que son significativamente más rápidos que el modelo estándar xai.grok-3. La mayor velocidad viene a un costo más alto por token de salida.

Los modelos xai.grok-3 y xai.grok-3-fast apuntan al mismo modelo subyacente. Seleccione xai.grok-3-fast para aplicaciones sensibles a la latencia y seleccione xai.grok-3 para un costo reducido.

Disponible en esta región

  • Medio oeste de EE. UU. (Chicago) (solo bajo demanda)
Importante

Llamadas entre regiones

Cuando un usuario introduce una solicitud de inferencia a este modelo en Chicago, el servicio de IA generativa en Chicago realiza una solicitud a este modelo alojado en Salt Lake City y devuelve la respuesta del modelo a Chicago de donde proviene la solicitud de inferencia del usuario. Consulte Modelos previamente entrenados con llamadas entre regiones.

Características clave

  • Nombre del modelo en OCI Generative AI: xai.grok-3
  • Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
  • Sólo Modo de Texto: Introduzca el texto y obtenga una salida de texto. (No hay soporte de imagen).
  • Conocimiento: tiene un profundo conocimiento de dominio en finanzas, salud, derecho y ciencia.
  • Longitud de contexto: 131 072 tokens (la petición de datos máxima + la longitud de respuesta es de 131 072 tokens por cada ejecución). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución.
  • Excels en estos casos de uso: extracción de datos, codificación y resumen de texto
  • Llamadas a funciones: sí, a través de la API.
  • Salidas estructuradas: sí.
  • Tiene razonamiento: no.
  • Cierre de conocimiento: noviembre de 2024

Fecha de liberación

Modelo Fecha de lanzamiento beta Fecha de liberación de disponibilidad general Fecha de baja bajo demanda Fecha de baja en modo dedicado
xai.grok-3 2.025-5-22 2.025-6-24 Provisional Este modelo no está disponible para el modo dedicado.
Importante

Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.

Parámetros de Modelo

Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.

Máximo de tokens de salida

Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 131.072 tokens para cada ejecución. En el patio de recreo, el máximo de tokens de salida está limitado a 16.000 tokens por cada ejecución.

Temperatura

Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2

Consejo

Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta.
p principales

Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a p un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Defina p en 1 para considerar todos los tokens.

Penalización de frecuencia

Penalización que se asigna a un token cuando ese token aparece con frecuencia. Las sanciones altas fomentan menos tokens repetidos y producen una salida más aleatoria.

Esta penalización puede ser positiva o negativa. Los números positivos animan al modelo a utilizar nuevos tokens y los números negativos animan al modelo a repetir los tokens. Mínimo: -2, máximo: 2. Establecido en 0 para desactivar.

Penalización de presencia

Una penalización que se asigna a cada token cuando aparece en la salida para fomentar la generación de salidas con tokens que no se han utilizado. Mínimo: -2, máximo: 2. Establecido en 0 para desactivar.