xAI Grok 4.1 Fast (Obsoleto)

O modelo xAI Grok 4.1 Fast melhora o xAI Grok 4 Fast principalmente por meio de treinamento especializado para fluxos de trabalho agênticos, oferecendo alucinações reduzidas (cortadas por ~3x), melhor chamada de ferramentas, processamento paralelo e uma enorme janela de contexto de token de 2 milhões, tornando esse modelo superior para tarefas complexas do mundo real, como suporte ao cliente e pesquisa, mantendo alta velocidade e precisão factual aprimorada. Este modelo é otimizado para desempenho e confiabilidade em sistemas de agentes autônomos.

Advertência

Aviso de Baixa: Esse modelo foi descontinuado em 15 de maio de 2026 e se aposenta em 15 de agosto de 2026. Após a baixa, você não terá mais acesso a este modelo.
Ação Necessária: Se você estiver usando esse modelo em qualquer região, deverá migrar para um modelo suportado mais recente até 15 de agosto de 2026. Consulte o modelo de substituição sugerido.

Regiões para este Modelo

Importante

Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.

Acessar este Modelo

Acesse esse modelo por meio de:

Visão Geral

O modelo xAI Grok 4 Fast vem em dois modos oferecidos em dois modelos separados. Um modelo Razão e um modelo Não‑Razão. Consulte a tabela a seguir para ajudá-lo a decidir qual modelo selecionar.


Modo	Nome do Modelo	Como Ele Funciona	Quando usar
Motivo	`xai.grok-4-1-fast-reasoning`	Gera tokens de pensamento para análise passo a passo da cadeia de pensamento, oferecendo um raciocínio lógico mais profundo com mais latência (menos do que os modelos de raciocínio anteriores).	Problemas complexos e de várias etapas que precisam de soluções analíticas e cuidadosas.
Sem raciocínio	`xai.grok-4-1-fast-non-reasoning`	Ignora a fase de tokens de pensamento e retorna respostas instantâneas com correspondência de padrão.	Consultas simples e diretas em que a velocidade é a prioridade.

Principais Recursos

Nomes de modelos na OCI Generative AI:
- xai.grok-4-1-fast-reasoning
- xai.grok-4-1-fast-non-reasoning
Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
Suporte multimodal: insira texto e imagens e obtenha uma saída de texto.
Conhecimento: Tem um profundo conhecimento em finanças, assistência médica, direito e ciência.
Tamanho do Contexto: 2 milhões de tokens (o tamanho máximo do prompt + da resposta é de 2 milhões de tokens para manter o contexto). No playground, a duração da resposta é limitada a 16.000 tokens para cada execução, mas o contexto permanece em 2 milhões.
Modos: Opera em dois modos: "raciocínio" para tarefas complexas e "não-raciocínio" para solicitações diretas e de alta velocidade.
Chamada de Função: Sim, por meio da API.
Saídas Estruturadas: Sim.
Tokens de Entrada em Cache: Sim
- Contagem de tokens: Consulte o atributo cachedTokens na API de Referência PromptTokensDetails.
- Preço: Consulte a Página Precificação.
Observação importante: O recurso de entrada em cache está disponível no playground e na API. No entanto, essas informações só podem ser recuperadas por meio da API.
Limite de Conhecimento: Não disponível

Limites

Tokens por minuto (TPM)

Para o aumento do limite de TPM, use o seguinte nome de limite: grok-4-fast-chat-tokens-per-minute-count (para 200.000 tokens). Consulte Criando uma Solicitação de Aumento de Limite.

Entradas de Imagem

Console: Faça upload de uma ou mais imagens .png ou .jpg, cada uma com 5 MB ou menos.
API: Somente os formatos de arquivo JPG/JPEG e PNG são suportados. Envie uma versão codificada em base64 de uma imagem, garantindo que cada imagem convertida tenha mais de 256 e menos de 1.792 tokens. Por exemplo, uma imagem 512 x 512 normalmente é convertida em cerca de 1.610 tokens. Não há número máximo declarado de imagens que podem ser carregadas. A contagem de tokens combinada para texto e imagens deve estar dentro da janela de contexto geral do modelo de 2 milhões de tokens.

Modo sob Demanda

Observação

Os modelos Grok só estão disponíveis no modo sob demanda.


Nome do Modelo	Nome do Modelo do OCI	Nome do Produto da Página de Precificação
xAI Grok 4.1 Fast	`xai.grok-4-1-fast-reasoning` `xai.grok-4-1-fast-non-reasoning`	xAI - Grok 4.1 Rápido Os preços são listados para: Tokens de entrada Tokens de Saída Tokens de entrada armazenados em cache

Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado. Veja a seguir os principais recursos do modo sob demanda:

Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
Baixa barreira para começar a usar IA generativa.
Ótimo para experimentação, prova de conceito e avaliação de modelo.
Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).

Datas de Lançamento e Baixa do OCI

Para datas de liberação e baixa e opções de modelo de substituição, consulte Datas de Baixa do Modelo (Modo Sob Demanda).

Parâmetros de Modelo

Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.

Máximo de tokens de saída: O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados.

Dica

Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima. Consulte Diagnóstico e Solução de Problemas.
Temperatura: O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2

Dica

Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas.
Top p: Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a p um número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Defina p como 1 para considerar todos os tokens.

Diagnóstico e Solução de Problemas

Problema: O modelo Grok 4.1 Fast não responde.

Causa: O parâmetro Máximo de tokens de saída no playground ou o parâmetro max_tokens na API provavelmente é muito baixo. Por exemplo, por padrão, esse parâmetro é definido como 600 tokens no playground, o que pode ser baixo para tarefas complexas.

Ação: Aumente o parâmetro máximo de tokens de saída.

Documentação do Oracle Cloud Infrastructure