xAI Grok 4 Fast (Nuovo)
Il modello xAI Grok 4 Fast è una versione ottimizzata in termini di velocità e costi del modello xAI Grok 4. Simile a Grok 4, questo modello eccelle nei casi d'uso aziendali come l'estrazione dei dati, la codifica e il riepilogo del testo e ha una profonda conoscenza del dominio in finance, sanità, legge e scienza.
Grok 4 Fast è più veloce di Grok 4, con un time-to-first-to-token rapido e una velocità di output elevata. Questa priorità della velocità rende questo modello ideale per applicazioni in tempo reale.
Disponibile in queste aree
- US East (Ashburn) (solo on-demand)
- Midwest degli Stati Uniti (Chicago) (solo su richiesta)
- US West (Phoenix) (solo on-demand)
Chiamate esterne
I modelli xAI Grok sono ospitati in un data center OCI, in una tenancy di cui è stato eseguito il provisioning per xAI. I modelli xAI Grok, a cui è possibile accedere tramite il servizio OCI Generative AI, sono gestiti da xAI.
Accesso a questo modello
Panoramica
Il modello xAI Grok 4 Fast è disponibile in due modalità disponibili in due modelli separati. Un modello di motivo e un modello di non-motivo. Per informazioni su quale modello selezionare, vedere la tabella seguente.
Modalità | Nome modello | Funzionamento | Quando utilizzarla |
---|---|---|---|
Ragionamento | xai.grok-4-fast-reasoning |
Genera token di pensiero per l'analisi dettagliata della catena di pensiero, fornendo un ragionamento logico più approfondito con maggiore latenza (meno dei modelli di ragionamento precedenti). | Problemi complessi in più fasi che richiedono soluzioni accurate e analitiche. |
Non ragionevole | xai.grok-4-fast-non-reasoning |
Salta la fase token di pensiero e restituisce risposte immediate corrispondenti a pattern. | Query semplici e semplici in cui la velocità è la priorità. |
Caratteristiche principali
- Nomi dei modelli nell'AI generativa OCI:
xai.grok-4-fast-reasoning
xai.grok-4-fast-non-reasoning
- Disponibile su richiesta: accedi a questo modello on-demand tramite l'area di gioco della console o l'API.
- Supporto multimodale: immettere testo e immagini e ottenere un output di testo.
- Knowledge: ha una profonda conoscenza del dominio in finance, sanità, diritto e scienza.
- Lunghezza contesto: 2 milioni di token (la lunghezza massima del prompt + della risposta è di 2 milioni di token per mantenere il contesto). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 token per ogni esecuzione, ma il contesto rimane di 2 milioni.
- Modalità: opera in due modalità: "ragionamento" per attività complesse e "non ragionamento" per richieste veloci e semplici.
- Chiamata di funzione: Sì, tramite l'API.
- Output strutturati: Sì.
-
Token di input inseriti nella cache: Sì
- Conteggio token: vedere l'attributo
cachedTokens
nell'API PromptTokensDetails Reference. - Determinazione prezzi: vedere la pagina Determinazione prezzi.
Nota importante: la funzione di input nella cache è disponibile sia nell'area di gioco che nell'API. Tuttavia, tali informazioni possono essere recuperate solo tramite l'API.
- Conteggio token: vedere l'attributo
- Knowledge Cutoff: non disponibile
Limiti
- Input immagine
-
- Console: caricare una o più immagini
.png
o.jpg
, ciascuna di 5 MB o inferiore. - API: sono supportati solo i formati di file JPG/JPEG e PNG. Invia una versione codificata
base64
di un'immagine, assicurando che ogni immagine convertita sia più di 256 e meno di 1.792 token. Ad esempio, un'immagine 512 x 512 in genere converte in circa 1.610 token. Non è stato specificato il numero massimo di immagini che è possibile caricare. Il conteggio dei token combinati sia per il testo che per le immagini deve rientrare nella finestra di contesto generale del modello di 2 milioni di token.
- Console: caricare una o più immagini
Modalità su richiesta
I modelli Grok sono disponibili solo in modalità su richiesta.
Nome modello | Nome modello OCI | Nome prodotto pagina determinazione prezzi |
---|---|---|
xAI Grok 4 Fast |
|
xAI - Grok 4 veloce I prezzi sono indicati per:
|
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Data di rilascio
Modello | Data rilascio disponibilità generale | Data smobilizzo su richiesta | Data smobilizzo modalità dedicata |
---|---|---|---|
xai.grok-4-fast-reasoning |
2025-10-10 | Provvisorio | Questo modello non è disponibile per la modalità dedicata. |
xai.grok-4-fast-non-reasoning |
2025-10-10 | Provvisorio | Questo modello non è disponibile per la modalità dedicata. |
Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.
Suggerimento
Per input di grandi dimensioni con problemi difficili, impostare un valore elevato per il parametro del numero massimo di token di output. Vedere Risoluzione dei problemi. - Temperatura
-
Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a
p
un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarep
su 1 per considerare tutti i token.
Risoluzione dei problemi
Problema: il modello Grok 4 Fast non risponde.
Causa: il parametro Numero massimo di token di output nell'area di esecuzione o il parametro max_tokens
nell'API è probabilmente troppo basso. Ad esempio, per impostazione predefinita questo parametro è impostato su 600 token nel campo di gioco che potrebbero essere bassi per attività complesse.
Azione: aumentare il parametro del numero massimo di token di output.