xAI Grok 3 Mini Rápido

O modelo xai.grok-3-mini-fast é um modelo leve que pensa antes de responder. Rápido, inteligente e ótimo para tarefas baseadas em lógica que não exigem conhecimento profundo do domínio. Os traços de pensamento bruto são acessíveis.

Os modelos xai.grok-3-mini e xai.grok-3-mini-fast, ambos usam o mesmo modelo subjacente e oferecem qualidade de resposta idêntica. A diferença está em como eles são atendidos: o modelo xai.grok-3-mini-fast é servido em uma infraestrutura mais rápida, oferecendo tempos de resposta significativamente mais rápidos do que o modelo xai.grok-3-mini padrão. O aumento da velocidade tem um custo mais alto por token de saída.

Os modelos xai.grok-3-mini e xai.grok-3-mini-fast apontam para o mesmo modelo subjacente. Selecione xai.grok-3-mini-fast para aplicativos sensíveis à latência e selecione xai.grok-3-mini para obter custo reduzido.

Disponível nestas regiões

  • Leste dos EUA (Ashburn) (somente sob demanda)
  • Centro-Oeste dos EUA (Chicago) (somente sob demanda)
  • Oeste dos EUA (Phoenix) (somente sob demanda)
Importante

Chamadas Externas

Os modelos xAI Grok são hospedados em um data center da OCI, em uma tenancy provisionada para xAI. Os modelos xAI Grok, que podem ser acessados por meio do serviço OCI Generative AI, são gerenciados pelo xAI.

Principais Recursos

  • Nome do modelo na OCI Generative AI: xai.grok-3-mini
  • Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
  • Somente Modo de Texto: insira o texto e obtenha uma saída de texto. (Sem suporte a imagem.)
  • Rápido: Ótimo para tarefas baseadas em lógica que não exigem conhecimento profundo do domínio.
  • Tamanho do Contexto: 131.072 tokens (o tamanho máximo do prompt + da resposta é de 131.072 tokens para manter o contexto). No playground, a duração da resposta é limitada a 16.000 tokens para cada execução, mas o contexto permanece em 131.072 tokens.
  • Chamada de Função: Sim, por meio da API.
  • Saídas Estruturadas: Sim.
  • Tem Argumento: Sim. Consulte o parâmetro reasoning_effort na seção Parâmetros do Modelo.
  • Knowledge Cutoff: novembro de 2024
  • Tokens de Entrada em Cache: Sim

    Observação importante: O recurso de entrada em cache está disponível no playground e na API. No entanto, essas informações só podem ser recuperadas por meio da API.

Limites

Tokens por minuto (TPM)

As chamadas de inferência para esse modelo são limitadas a 100.000 tokens por minuto (TPM) por cliente ou tenancy.

Para ver o limite atual de uma tenancy, na Console, navegue até Governança e Administração. Em Gerenciamento de Tenancy, selecione Limites, cotas e uso. Em Serviço, selecione IA Generativa e revise os limites do serviço. Para solicitar um aumento do limite de serviço, selecione Solicitar um aumento do limite de serviço. Para o aumento do limite de TPM, use o seguinte nome de limite: grok-3-mini-chat-tokens-per-minute-count.

Modo sob Demanda

Observação

Os modelos Grok só estão disponíveis no modo sob demanda.

Nome do Modelo Nome do Modelo do OCI Nome do Produto da Página de Precificação
xAI Grok 3 Mini Fast xai.grok-3-mini-fast xAI – Grok 3 Mini Fast
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:
  • Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.

  • Baixa barreira para começar a usar IA generativa.
  • Ótimo para experimentação, prova de conceito e avaliação de modelo.
  • Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).

Data de Liberação

Modelo Data de lançamento beta Data de Liberação da Disponibilidade Geral Data de Aposentadoria Sob Demanda Data de Baixa do Modo Dedicado
xai.grok-3-mini-fast 2,025-5-22 2,025-6-24 Provisório Este modelo não está disponível para o modo dedicado.
Importante

Para obter uma lista de todas as linhas de tempo do modelo e detalhes de baixa, consulte Desativando os Modelos.

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída

O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 131.072 tokens para cada execução. No playground, o máximo de tokens de saída é limitado a 16.000 tokens para cada execução.

Temperatura

O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p

Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Mín.: 0, Máx.: 1.

Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Esforço de raciocínio

O parâmetro reasoning_effort, disponível por meio da API e não da Console, controla quanto tempo o modelo gasta pensando antes de responder. Você deve defini-lo como um destes valores:

  • low: Tempo mínimo de pensamento, usando menos tokens para respostas rápidas.
  • high: Tempo máximo de pensamento, aproveitando mais tokens para problemas complexos.

A escolha do nível correto depende da sua tarefa: use low para consultas simples que são concluídas rapidamente e high para problemas mais difíceis em que a latência de resposta é menos importante. Saiba mais sobre esse parâmetro nos guias xAI.