xAI Grok Code Fast 1
Rilasciato alla fine di agosto 2025, il modello xAI Grok Code Fast 1 è un modello AI incentrato sulla codifica che eccelle nell'attività di codifica comune e ad alto volume ed è progettato appositamente per flussi di lavoro di codifica identici. Con la sua velocità, efficienza e basso costo, questo modello è progettato per gestire il ciclo di sviluppo software moderno (pianificazione, scrittura, test e debug), offre una traccia sintetica in tempo reale del suo ragionamento ed è esperto in TypeScript, Python, Java, Rust, C++ e Go. Utilizza questo modello per creare progetti zero-to-one, rispondere alle domande del codebase, eseguire correzioni di bug e codificare in modo efficace.
Aree per questo modello
Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.
Caratteristiche principali
- Nome del modello in OCI Generative AI:
xai.grok-code-fast-1 - Disponibile su richiesta: accedi a questo modello on-demand tramite l'area di gioco della console o l'API.
- Solo modalità testo: immettere l'input di testo e ottenere l'output di testo. Immagini e input di file, ad esempio file audio, video e documenti, non sono supportati.
- Knowledge: ha una profonda conoscenza del dominio in finance, sanità, diritto e scienza.
- Lunghezza contesto: 256.000 token (la lunghezza massima del prompt + della risposta è di 256.000 token per mantenere il contesto). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 token per ogni esecuzione, ma il contesto rimane di 256.000 token.
- Escelte in questi casi d'uso: codifica Agentic: a differenza dei modelli generali addestrati per scrivere solo codice, questo modello è ottimizzato per l'uso degli strumenti. È addestrato a utilizzare il terminale in modo autonomo, ad esempio eseguire un comando
grepper trovare i file ed eseguire modifiche a più fasi in un repository. - Massive Throughput: al momento del rilascio, questo modello era uno dei modelli più veloci della sua classe, con circa 90-100 token al secondo. In molte integrazioni IDE come Cursor o GitHub Copilot, questo modello può eseguire decine di chiamate e modifiche agli strumenti prima di completare la lettura del piano iniziale.
- Pensieri sintetici: una delle sue caratteristiche principali è la visibilità della sua mente. Mentre funziona, fornisce una traccia riassunta in tempo reale del suo ragionamento. Puoi vederlo pensare attraverso un bug prima che inizi a scrivere la correzione, il che ti aiuta a rilevare gli errori di logica in anticipo.
- Chiamata di funzione: Sì, tramite l'API.
- Output strutturati: Sì.
- Motivo: Sì.
-
Token di input inseriti nella cache: Sì
- Conteggio token: vedere l'attributo
cachedTokensnell'API PromptTokensDetails Reference. - Determinazione prezzi: vedere la pagina Determinazione prezzi.
Nota importante: la funzione di input nella cache è disponibile sia nell'area di gioco che nell'API. Tuttavia, tali informazioni possono essere recuperate solo tramite l'API.
- Conteggio token: vedere l'attributo
- Conferma: nessuna data limite nota
- Costo basso: al momento del rilascio era più economico di altri modelli di punta.
Limiti
- Token al minuto (TPM)
- Per l'aumento del limite TPM, utilizzare il nome limite seguente:
grok-code-fast-tokens-per-minute-count(per 200.000 token). Vedere Creazione di una richiesta di aumento del limite.
Modalità su richiesta
Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato.
I modelli Grok sono disponibili solo in modalità su richiesta.
Di seguito sono riportate le funzioni principali per la modalità on-demand.
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
| Nome modello | Nome modello OCI | Nome prodotto pagina determinazione prezzi |
|---|---|---|
| xAI Grok Code Fast 1 | xai.grok-code-fast-1 |
xAI – Grok-Code-Fast-1 I prezzi sono indicati per:
|
Date di rilascio e ritiro OCI
Per le date di rilascio e smobilizzo e le opzioni del modello di sostituzione, vedere Date di smobilizzo del modello (modalità su richiesta).
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 256.000 token per ogni esecuzione.
Suggerimento
Per input di grandi dimensioni con problemi difficili, impostare un valore elevato per il parametro del numero massimo di token di output. - Temperatura
-
Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a
pun numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarepsu 1 per considerare tutti i token.
Parametro API per trace di riflessione riepilogati
- reasoning_content
-
Per utilizzare i tracce di riflessione riepilogate nell'API xAI, si interagisce principalmente con il campo
reasoning_content. A differenza della risposta finale, questo campo contiene la logica interna del modello ed è trasmesso di nuovo in tempo reale. Puoi ottenere la sua traccia di pensiero tramitechunk.choices[0].delta.reasoning_contentin modalità streaming. Vedere Per gli sviluppatori che creano agenti di codifica tramite l'API xAI.
I trace di pensiero sintetici sono disponibili solo quando si utilizza la modalità streaming.