xAI Grok Code Fast 1
Lançado no final de agosto de 2025, o modelo xAI Grok Code Fast 1 é um modelo de IA focado em codificação que se destaca em tarefas comuns de codificação de alto volume e é projetado especialmente para fluxos de trabalho de codificação agênticos. Com sua velocidade, eficiência e baixo custo, este modelo é construído para lidar com o ciclo de desenvolvimento de software moderno (planejamento, escrita, teste e depuração), oferece rastreamento resumido em tempo real de seu raciocínio e é proficiente em TypeScript, Python, Java, Rust, C++ e Go. Use esse modelo para criar projetos de zero a um, responder a perguntas da base de código, executar correções de bugs e codificação ágil.
Regiões para este Modelo
Para regiões suportadas, tipos de ponto final (clusters de IA sob demanda ou dedicados) e hospedagem (OCI Generative AI ou chamadas externas) para esse modelo, consulte a página Modelos por Região. Para obter detalhes sobre as regiões, consulte a página Regiões de IA Generativa.
Principais Recursos
- Nome do modelo na OCI Generative AI:
xai.grok-code-fast-1 - Disponível sob Demanda: Acesse esse modelo sob demanda, por meio do playground da Console ou da API.
- Somente Modo de Texto: Informe a entrada de texto e obtenha a saída de texto. Imagens e entradas de arquivos, como arquivos de áudio, vídeo e documento, não são suportadas.
- Conhecimento: Tem um profundo conhecimento em finanças, assistência médica, direito e ciência.
- Tamanho do Contexto: 256.000 tokens (o tamanho máximo do prompt + da resposta é de 256.000 tokens para manter o contexto). No playground, a duração da resposta é limitada a 16.000 tokens para cada execução, mas o contexto permanece em 256.000 tokens.
- Excels em Estes Casos de Uso: Codificação ágil - Ao contrário dos modelos gerais treinados para gravar somente código, esse modelo é otimizado para uso de ferramenta. Ele é treinado para usar o terminal de forma autônoma, por exemplo, executar um comando
greppara localizar arquivos e executar edições em várias etapas em um repositório. - Throughput Massivo: No momento de seu lançamento, esse modelo era um dos modelos mais rápidos de sua classe, entregando cerca de 90 a 100 tokens por segundo. Em muitas integrações do IDE, como Cursor ou GitHub Copilot, esse modelo pode executar dezenas de chamadas e edições de ferramentas antes de terminar de ler seu plano inicial.
- Rastreamentos de Pensamento Resumidos: Um de seus recursos de destaque é a visibilidade de sua mente. À medida que funciona, fornece um traço resumido em tempo real de seu raciocínio. Você pode vê-lo pensar em um bug antes de começar a escrever a correção, o que ajuda a detectar erros lógicos antecipadamente.
- Chamada de Função: Sim, por meio da API.
- Saídas Estruturadas: Sim.
- Tem Argumento: Sim.
-
Tokens de Entrada em Cache: Sim
- Contagem de tokens: Consulte o atributo
cachedTokensna API de Referência PromptTokensDetails. - Preço: Consulte a Página Precificação.
Observação importante: O recurso de entrada em cache está disponível no playground e na API. No entanto, essas informações só podem ser recuperadas por meio da API.
- Contagem de tokens: Consulte o atributo
- Limite de Conhecimento: Nenhuma data limite conhecida
- Baixo Custo: Na época de seu lançamento, era mais barato do que outros modelos emblemáticos.
Limites
- Tokens por minuto (TPM)
- Para o aumento do limite de TPM, use o seguinte nome de limite:
grok-code-fast-tokens-per-minute-count(para 200.000 tokens). Consulte Solicitando um Aumento do Limite de Serviço.
Modo sob Demanda
Você pode alcançar os modelos básicos pré-treinados no serviço Generative AI por meio de dois modos: sob demanda e dedicado.
Os modelos Grok só estão disponíveis no modo sob demanda.
Veja a seguir os principais recursos do modo sob demanda:
-
Você paga conforme usa para cada chamada de inferência quando usa os modelos no playground ou quando chama os modelos por meio da API.
- Baixa barreira para começar a usar IA generativa.
- Ótimo para experimentação, prova de conceito e avaliação de modelo.
- Disponível para os modelos pré-treinados em regiões não listadas como (somente cluster de IA dedicado).
| Nome do Modelo | Nome do Modelo do OCI | Nome do Produto da Página de Precificação |
|---|---|---|
| xAI Grok Code Fast 1 | xai.grok-code-fast-1 |
xAI – Grok-Code-Fast-1 Os preços são listados para:
|
Datas de Lançamento e Baixa do OCI
Para datas de liberação e baixa e opções de modelo de substituição, consulte Datas de Baixa do Modelo (Modo Sob Demanda).
Parâmetros de Modelo
Para alterar as respostas do modelo, você pode alterar os valores dos parâmetros a seguir no playground ou na API.
- Máximo de tokens de saída
-
O número máximo de tokens que você deseja que o modelo gere para cada resposta. Estime quatro caracteres por token. Como você está solicitando um modelo de chat, a resposta depende do prompt e cada resposta não necessariamente usa o máximo de tokens alocados. O comprimento máximo de prompt + saída é de 256.000 tokens para cada execução.
Dica
Para entradas grandes com problemas difíceis, defina um valor alto para o parâmetro de tokens de saída máxima. - Temperatura
-
O nível de aleatoriedade usado para gerar o texto de saída. Mín.: 0, Máx.: 2
Dica
Comece com a temperatura definida como 0 ou menos de um e aumente a temperatura conforme você gera novamente os prompts para uma saída mais criativa. As altas temperaturas podem introduzir alucinações e informações factualmente incorretas. - Top p
-
Um método de amostragem que controla a probabilidade cumulativa dos principais tokens a serem considerados para o próximo token. Atribua a
pum número decimal entre 0 e 1 para a probabilidade. Por exemplo, insira 0,75 para os 75% principais a serem considerados. Definapcomo 1 para considerar todos os tokens.
Parâmetro de API para Rastreamentos de Pensamento Resumidos
- reasoning_content
-
Para usar Rastreamentos de Pensamento Resumidos na API xAI, você interage principalmente com o campo
reasoning_content. Ao contrário da resposta final, este campo contém a lógica interna do modelo e é transmitido de volta para você em tempo real. Você pode obter seu rastreamento de pensamento através dochunk.choices[0].delta.reasoning_contentno modo de streaming. Consulte Para desenvolvedores que criam agentes de codificação por meio da API xAI.
Os rastreamentos de pensamento resumidos só estão disponíveis quando você usa o modo de streaming.