xAI Grok 4 Fast (Nuevo)
El modelo xAI Grok 4 Fast es una versión optimizada para la velocidad y el costo del modelo xAI Grok 4. Al igual que Grok 4, este modelo destaca en casos de uso empresarial como la extracción de datos, la codificación y el resumen de texto, y tiene un profundo conocimiento de dominio en finanzas, salud, derecho y ciencia.
Grok 4 Fast es más rápido que Grok 4, con una velocidad de salida rápida de tiempo hasta el primer token y alta. Esta priorización de la velocidad hace que este modelo sea ideal para aplicaciones en tiempo real.
Disponible en estas regiones
- Este de EE. UU. (Ashburn) (solo bajo demanda)
- Medio oeste de EE. UU. (Chicago) (solo bajo demanda)
- Oeste de EE. UU. (Phoenix) (solo bajo demanda)
Llamadas Externas
Los modelos de xAI Grok se alojan en un centro de datos de OCI, en un arrendamiento aprovisionado para xAI. Los modelos de xAI Grok, a los que se puede acceder a través del servicio OCI Generative AI, están gestionados por xAI.
Acceder a este modelo
Descripción general
El modelo xAI Grok 4 Fast viene en dos modos que se ofrecen en dos modelos separados. Un modelo Reasoning y un modelo Non-Reasoning. Consulte la siguiente tabla para ayudarle a decidir qué modelo seleccionar.
Modo | Nombre de modelo | Funcionamiento | Cuándo se Utiliza |
---|---|---|---|
Razonamiento | xai.grok-4-fast-reasoning |
Genera tokens de pensamiento para el análisis paso a paso de la cadena de pensamiento, ofreciendo un razonamiento lógico más profundo con más latencia (menos que los modelos de razonamiento anteriores). | Problemas complejos y de varios pasos que necesitan soluciones analíticas y cuidadosas. |
Sin razonamiento | xai.grok-4-fast-non-reasoning |
Omite la fase de tokens de pensamiento y devuelve respuestas instantáneas coincidentes con patrones. | Consultas simples y sencillas en las que la velocidad es la prioridad. |
Características clave
- Nombres de modelos en OCI Generative AI:
xai.grok-4-fast-reasoning
xai.grok-4-fast-non-reasoning
- Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
- Soporte multimodal: introduzca texto e imágenes y obtenga una salida de texto.
- Conocimiento: tiene un profundo conocimiento de dominio en finanzas, salud, derecho y ciencia.
- Longitud de contexto: 2 millones de tokens (la longitud máxima de petición de datos + respuesta es de 2 millones de tokens para mantener el contexto). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución, pero el contexto sigue siendo de 2 millones.
- Modos: funciona en dos modos: "razonamiento" para tareas complejas y "no razonamiento" para solicitudes sencillas y críticas para la velocidad.
- Llamadas a funciones: sí, a través de la API.
- Salidas estructuradas: sí.
-
Tokens de entrada almacenados en caché: sí
- Recuento de tokens: consulte el atributo
cachedTokens
en la API de referencia de PromptTokensDetails. - Precios: consulte la página de precios.
Nota importante: La función de entrada en caché está disponible tanto en el patio de juegos como en la API. Sin embargo, esa información solo se puede recuperar a través de la API.
- Recuento de tokens: consulte el atributo
- Cierre de conocimiento: no disponible
Límites
- Entradas de imagen
-
- Consola: cargue una o más imágenes
.png
o.jpg
, cada una de 5 MB o menos. - API: solo se admiten los formatos de archivo JPG/JPEG y PNG. Envíe una versión codificada
base64
de una imagen, asegurándose de que cada imagen convertida tenga más de 256 tokens y menos de 1.792 tokens. Por ejemplo, una imagen de 512 x 512 normalmente se convierte en alrededor de 1.610 tokens. No hay un número máximo de imágenes que se puedan cargar. El recuento combinado de tokens para texto e imágenes debe estar dentro de la ventana de contexto general del modelo de 2 millones de tokens.
- Consola: cargue una o más imágenes
Modo bajo demanda
Los modelos Grok solo están disponibles en el modo bajo demanda.
Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
---|---|---|
xAI Grok 4 Fast |
|
xAI - Grok 4 rápido Los precios se muestran para:
|
-
Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
- Baja barrera para empezar a utilizar la IA generativa.
- Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
- Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Fecha de liberación
Modelo | Fecha de liberación de disponibilidad general | Fecha de baja bajo demanda | Fecha de baja en modo dedicado |
---|---|---|---|
xai.grok-4-fast-reasoning |
2025-10-10 | Provisional | Este modelo no está disponible para el modo dedicado. |
xai.grok-4-fast-non-reasoning |
2025-10-10 | Provisional | Este modelo no está disponible para el modo dedicado. |
Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados.
Consejo
Para entradas grandes con problemas difíciles, defina un valor alto para el parámetro de tokens de salida máximo. Consulte Solución de problemas. - Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Asigne a
p
un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definap
en 1 para considerar todos los tokens.
Solución de problemas
Problema: el modelo Grok 4 Fast no responde.
Causa: el parámetro Máximo de tokens de salida en el patio de recreo o el parámetro max_tokens
en la API probablemente sea demasiado bajo. Por ejemplo, por defecto, este parámetro se establece en 600 tokens en el patio de recreo, lo que puede ser bajo para tareas complejas.
Acción: aumente el parámetro de tokens de salida máximo.