xAI Grok Code Fast 1
Lanzado a finales de agosto de 2025, el modelo xAI Grok Code Fast 1 es un modelo de IA centrado en la codificación que sobresale en la tarea de codificación común y de alto volumen y está diseñado especialmente para flujos de trabajo de codificación ágiles. Con su velocidad, eficiencia y bajo costo, este modelo está diseñado para manejar el bucle del desarrollo de software moderno (planificación, escritura, prueba y depuración), ofrece un rastreo resumido en tiempo real de su razonamiento y es competente en TypeScript, Python, Java, Rust, C++ y Go. Utilice este modelo para crear proyectos de cero a uno, responder preguntas de base de código, realizar correcciones de bugs y codificar de forma automática.
Regiones para este modelo
Para las regiones soportadas, los tipos de punto final (clusters de IA dedicados o bajo demanda) y el alojamiento (OCI Generative AI o llamadas externas) para este modelo, consulte la página Modelos por región. Para obtener más información sobre las regiones, consulte la página Regiones de IA generativa.
Características clave
- Nombre del modelo en OCI Generative AI:
xai.grok-code-fast-1 - Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
- Solo modo de texto: introduzca la entrada de texto y obtenga la salida de texto. No se admiten imágenes ni entradas de archivos, como archivos de audio, vídeo y documentos.
- Conocimiento: tiene un profundo conocimiento de dominio en finanzas, salud, derecho y ciencia.
- Longitud de contexto: 256 000 tokens (la petición de datos máxima + la longitud de respuesta es de 256 000 tokens para mantener el contexto). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución, pero el contexto sigue siendo de 256.000 tokens.
- Excels en estos casos de uso: codificación auténtica: a diferencia de los modelos generales entrenados para escribir solo código, este modelo está optimizado para el uso de herramientas. Está entrenado para utilizar el terminal de forma autónoma, por ejemplo, ejecutar un comando
greppara buscar archivos y realizar ediciones de varios pasos en un repositorio. - Rendimiento global masivo: en el momento de su lanzamiento, este modelo era uno de los modelos más rápidos de su clase, con aproximadamente 90-100 tokens por segundo. En muchas integraciones de IDE, como Cursor o GitHub Copilot, este modelo puede realizar docenas de llamadas y ediciones de herramientas antes de terminar de leer su plan inicial.
- Rastreos de pensamiento resumidos: una de sus características más destacadas es la visibilidad de su mente. A medida que funciona, proporciona un rastro resumido en tiempo real de su razonamiento. Puede verlo pensar en un error antes de que comience a escribir la corrección, lo que le ayuda a detectar errores de lógica temprano.
- Llamadas a funciones: sí, a través de la API.
- Salidas estructuradas: sí.
- Tiene razonamiento: sí.
-
Tokens de entrada almacenados en caché: sí
- Recuento de tokens: consulte el atributo
cachedTokensen la API de referencia de PromptTokensDetails. - Precios: consulte la página de precios.
Nota importante: La función de entrada en caché está disponible tanto en el patio de juegos como en la API. Sin embargo, esa información solo se puede recuperar a través de la API.
- Recuento de tokens: consulte el atributo
- Cierre de conocimiento: sin fecha de corte conocida
- Bajo costo: en el momento de su lanzamiento era más barato que otros modelos emblemáticos.
Límites
- Tokens por minuto (TPM)
- Para el aumento del límite de TPM, utilice el siguiente nombre de límite:
grok-code-fast-tokens-per-minute-count(para 200 000 tokens). Consulte Solicitud de aumento del límite de servicio.
Modo bajo demanda
Puede acceder a los modelos fundamentales previamente entrenados en IA generativa mediante dos modos: bajo demanda y dedicado.
Los modelos Grok solo están disponibles en el modo bajo demanda.
A continuación, se muestran las funciones clave para el modo bajo demanda:
-
Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
- Baja barrera para empezar a utilizar la IA generativa.
- Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
- Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
| Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
|---|---|---|
| xAI Grok Code Fast 1 | xai.grok-code-fast-1 |
xAI – Grok-Code-Fast-1 Los precios se muestran para:
|
Fechas de lanzamiento y baja de OCI
Para conocer las fechas de lanzamiento y baja y las opciones del modelo de sustitución, consulte Model Retirement Dates (On-Demand Mode).
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 256.000 tokens para cada ejecución.
Consejo
Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo. - Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
pun número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definapen 1 para considerar todos los tokens.
Parámetro de API para rastreos de pensamiento resumidos
- reasoning_content
-
Para utilizar Rastreos de pensamiento resumidos en la API de xAI, interactúa principalmente con el campo
reasoning_content. A diferencia de la respuesta final, este campo contiene la lógica interna del modelo y se transmite de vuelta a usted en tiempo real. Puede obtener su rastreo de pensamiento a través dechunk.choices[0].delta.reasoning_contenten el modo de transmisión. Consulte Para desarrolladores que crean agentes de codificación mediante la API de xAI.
Los rastreos de pensamiento resumidos solo están disponibles cuando se utiliza el modo de transmisión.