xAI Grok 3 Mini veloce (obsoleto)

Il modello xai.grok-3-mini-fast è un modello leggero che pensa prima di rispondere. Veloce, intelligente e ideale per attività basate sulla logica che non richiedono una conoscenza approfondita del dominio. Le tracce di pensiero grezzo sono accessibili.

Avvertenza

Avviso smobilizzo: Questo modello non è più valido il 15 maggio 2026 e si ritira il 15 agosto 2026. Dopo il ritiro, non si dispone più dell'accesso a questo modello.
Azione richiesta: Se si utilizza questo modello in qualsiasi area, è necessario eseguire la migrazione a un modello più recente supportato entro il 15 agosto 2026. Vedere il modello di sostituzione suggerito.

I modelli xai.grok-3-mini e xai.grok-3-mini-fast, entrambi utilizzano lo stesso modello di base e offrono la stessa qualità di risposta. La differenza sta nel modo in cui vengono serviti: il modello xai.grok-3-mini-fast viene servito su un'infrastruttura più veloce, offrendo tempi di risposta notevolmente più veloci rispetto al modello standard xai.grok-3-mini. La velocità aumentata viene fornita a un costo più elevato per token di output.

I modelli xai.grok-3-mini e xai.grok-3-mini-fast puntano allo stesso modello di base. Selezionare xai.grok-3-mini-fast per le applicazioni sensibili alla latenza e selezionare xai.grok-3-mini per ridurre i costi.

Aree per questo modello

Importante

Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.

Accesso a questo modello

Accedere a questo modello tramite:

Caratteristiche principali

Nome del modello in OCI Generative AI: xai.grok-3-mini
Disponibile su richiesta: accedi a questo modello on-demand tramite l'area di gioco della console o l'API.
Solo in modalità testo: immettere il testo e ottenere un output di testo. (Nessun supporto immagine.)
Veloce: ottimo per i task basati sulla logica che non richiedono una conoscenza approfondita del dominio.
Lunghezza contesto: 131.072 token (la lunghezza massima del prompt + della risposta è di 131.072 token per mantenere il contesto). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 token per ogni esecuzione, ma il contesto rimane 131.072 token.
Chiamata di funzione: Sì, tramite l'API.
Output strutturati: Sì.
Motivo: Sì. Vedere il parametro reasoning_effort nella sezione Parametri modello.
Knowledge Cutoff: novembre 2024
Token di input inseriti nella cache: Sì
- Conteggio token: vedere l'attributo cachedTokens nell'API PromptTokensDetails Reference.
- Determinazione prezzi: vedere la pagina Determinazione prezzi.
Nota importante: la funzione di input nella cache è disponibile sia nell'area di gioco che nell'API. Tuttavia, tali informazioni possono essere recuperate solo tramite l'API.

Limiti

Token al minuto (TPM)

Le chiamate di inferenza a questo modello hanno un limite di 100.000 token al minuto (TPM) per cliente o tenancy.

Per visualizzare il limite corrente di una tenancy, nella console andare a Governance e amministrazione. In Gestione tenancy selezionare Limiti, quote e uso. In Servizio, selezionare AI generativa e rivedere i limiti del servizio. Per richiedere un aumento del limite del servizio, selezionare Richiedere un aumento del limite del servizio. Per l'aumento del limite TPM, utilizzare il nome limite seguente: grok-3-mini-chat-tokens-per-minute-count.

Modalità su richiesta

Nota

I modelli Grok sono disponibili solo in modalità su richiesta.


Nome modello	Nome modello OCI	Nome prodotto pagina determinazione prezzi
xAI Grok 3 Mini Fast	`xai.grok-3-mini-fast`	xAI – Grok 3 Mini Fast

Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.

È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).

Date di rilascio e ritiro OCI

Per le date di rilascio e smobilizzo e le opzioni del modello di sostituzione, vedere Date di smobilizzo del modello (modalità su richiesta).

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 131.072 token per ogni esecuzione. Nel campo di gioco, i token di output massimi sono limitati a 16.000 token per ogni esecuzione.

Temperatura

Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.

Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Min: 0, Max: 1.

Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.

Impegno ragionamento

Il parametro reasoning_effort, disponibile tramite l'API e non la console, controlla il tempo che il modello trascorre pensando prima di rispondere. È necessario impostarlo su uno dei seguenti valori:

low: tempo di pensiero minimo, utilizzando meno token per ottenere risposte rapide.
high: tempo di pensiero massimo, utilizzando più token per problemi complessi.

La scelta del livello corretto dipende dal task: utilizzare low per query semplici che vengono completate rapidamente e high per problemi più difficili in cui la latenza della risposta è meno importante. Informazioni su questo parametro nelle guide xAI.

Documentazione dell'infrastruttura Oracle Cloud