xAI Grok 3 Mini
El modelo xai.grok-3-mini
es un modelo ligero que piensa antes de responder. Rápido, inteligente y excelente para tareas basadas en la lógica que no requieren un profundo conocimiento del dominio. Las huellas del pensamiento crudo son accesibles.
Los modelos xai.grok-3-mini
y xai.grok-3-mini-fast
, ambos utilizan el mismo modelo subyacente y ofrecen una calidad de respuesta idéntica. La diferencia radica en cómo se sirven: el modelo xai.grok-3-mini-fast
se sirve en una infraestructura más rápida, ofreciendo tiempos de respuesta que son significativamente más rápidos que el modelo estándar xai.grok-3-mini
. La mayor velocidad viene a un costo más alto por token de salida.
Los modelos xai.grok-3-mini
y xai.grok-3-mini-fast
apuntan al mismo modelo subyacente. Seleccione xai.grok-3-mini-fast
para aplicaciones sensibles a la latencia y seleccione xai.grok-3-mini
para un costo reducido.
Disponible en estas regiones
- Este de EE. UU. (Ashburn) (solo bajo demanda)
- Medio oeste de EE. UU. (Chicago) (solo bajo demanda)
- Oeste de EE. UU. (Phoenix) (solo bajo demanda)
Llamadas Externas
Los modelos de xAI Grok se alojan en un centro de datos de OCI, en un arrendamiento aprovisionado para xAI. Los modelos de xAI Grok, a los que se puede acceder a través del servicio OCI Generative AI, están gestionados por xAI.
Acceder a este modelo
Características clave
- Nombre del modelo en OCI Generative AI:
xai.grok-3-mini
- Disponible bajo demanda: acceda a este modelo bajo demanda, a través del patio de la consola o la API.
- Sólo Modo de Texto: Introduzca el texto y obtenga una salida de texto. (No hay soporte de imagen).
- Rápido: ideal para tareas basadas en lógica que no requieren un conocimiento profundo del dominio.
- Longitud de contexto: 131 072 tokens (la petición de datos máxima + la longitud de respuesta es de 131 072 tokens por cada ejecución). En el patio de recreo, la longitud de respuesta se limita a 16.000 tokens por cada ejecución.
- Llamadas a funciones: sí, a través de la API.
- Salidas estructuradas: sí.
- Tiene razonamiento: sí. Consulte el parámetro
reasoning_effort
en la sección Parámetros de modelo. - Cierre de conocimiento: noviembre de 2024
Límites
- Tokens por minuto (TPM)
-
Las llamadas de inferencia a este modelo tienen un límite de 100 000 tokens por minuto (TPM) por cliente o arrendamiento.
Para ver el límite actual de un arrendamiento, en la consola, vaya a Gobernanza y administración. En Gestión de arrendamiento, seleccione Límites, cuotas y uso. En Service (Servicio), seleccione Generative AI (IA generativa) y revise los límites de servicio. Para solicitar un aumento del límite de servicio, seleccione Solicitar un aumento del límite de servicio. Para aumentar el límite de TPM, utilice el siguiente nombre de límite:
grok-3-mini-chat-tokens-per-minute-count
.
Modo bajo demanda
Los modelos Grok solo están disponibles en el modo bajo demanda.
Nombre de modelo | Nombre de modelo de OCI | Nombre de producto de página de asignación de precios |
---|---|---|
xAI Grok 3 Mini | xai.grok-3-mini |
xAI – Grok 3 Mini |
-
Paga sobre la marcha por cada llamada de inferencia cuando utiliza los modelos en el patio de recreo o cuando llama a los modelos a través de la API.
- Baja barrera para empezar a utilizar la IA generativa.
- Ideal para la experimentación, la prueba de concepto y la evaluación de modelos.
- Disponible para los modelos preentrenados en regiones que no se muestran como (solo cluster de IA dedicado).
Fecha de liberación
Modelo | Fecha de lanzamiento beta | Fecha de liberación de disponibilidad general | Fecha de baja bajo demanda | Fecha de baja en modo dedicado |
---|---|---|---|---|
xai.grok-3-mini |
2.025-5-22 | 2.025-6-24 | Provisional | Este modelo no está disponible para el modo dedicado. |
Para obtener una lista de todas las líneas de tiempo de modelo y los detalles de baja, consulte Baja de los modelos.
Parámetros de Modelo
Para cambiar las respuestas del modelo, puede cambiar los valores de los siguientes parámetros en el patio de juegos o en la API.
- Máximo de tokens de salida
-
Número máximo de tokens que se desea que el modelo genere para cada respuesta. Estimar cuatro caracteres por token. Debido a que está solicitando un modelo de chat, la respuesta depende de la petición de datos y cada respuesta no utiliza necesariamente el máximo de tokens asignados. La longitud máxima de petición de datos + salida es de 131.072 tokens para cada ejecución. En el patio de recreo, el máximo de tokens de salida está limitado a 16.000 tokens por cada ejecución.
- Temperatura
-
Nivel de aleatoriedad utilizado para generar el texto de salida. Mínimo: 0, Máximo: 2
Consejo
Comience con la temperatura establecida en 0 o menos de uno y aumente la temperatura a medida que vuelve a generar las peticiones de datos para obtener una salida más creativa. Las altas temperaturas pueden introducir alucinaciones e información objetivamente incorrecta. - p principales
-
Método de muestreo que controla la probabilidad acumulada de los tokens principales que se deben tener en cuenta para el siguiente token. Mínimo: 0, Máximo: 1.
Asigne a
p
un número decimal entre 0 y 1 para la probabilidad. Por ejemplo, introduzca 0,75 para que se tenga en cuenta el 75 por ciento superior. Definap
en 1 para considerar todos los tokens. - Esfuerzo de razonamiento
-
El parámetro
reasoning_effort
, disponible a través de la API y no de la consola, controla cuánto tiempo dedica el modelo a pensar antes de responder. Debe definirlo en uno de estos valores:low
: tiempo de pensamiento mínimo, utilizando menos tokens para respuestas rápidas.high
: tiempo máximo de reflexión, aprovechando más tokens para problemas complejos.
La elección del nivel correcto depende de la tarea: utilice
low
para consultas simples que se completen rápidamente yhigh
para problemas más difíciles en los que la latencia de respuesta es menos importante. Obtenga información sobre este parámetro en las guías de xAI.