xAI Grok 3 Mini
Il modello xai.grok-3-mini
è un modello leggero che pensa prima di rispondere. Veloce, intelligente e ideale per attività basate sulla logica che non richiedono una conoscenza approfondita del dominio. Le tracce di pensiero grezzo sono accessibili.
I modelli xai.grok-3-mini
e xai.grok-3-mini-fast
, entrambi utilizzano lo stesso modello di base e offrono la stessa qualità di risposta. La differenza sta nel modo in cui vengono serviti: il modello xai.grok-3-mini-fast
viene servito su un'infrastruttura più veloce, offrendo tempi di risposta notevolmente più veloci rispetto al modello standard xai.grok-3-mini
. La velocità aumentata viene fornita a un costo più elevato per token di output.
I modelli xai.grok-3-mini
e xai.grok-3-mini-fast
puntano allo stesso modello di base. Selezionare xai.grok-3-mini-fast
per le applicazioni sensibili alla latenza e selezionare xai.grok-3-mini
per ridurre i costi.
Disponibile in quest'area
- Midwest degli Stati Uniti (Chicago) (solo su richiesta)
Chiamate tra più aree
Quando un utente inserisce una richiesta di inferenza a questo modello in un'area elencata, ad esempio Chicago, il servizio AI generativa di Chicago effettua una richiesta a questo modello ospitato a Salt Lake City e restituisce la risposta del modello a Chicago da cui proviene la richiesta di inferenza dell'utente. Vedere Modelli pre-addestrati con chiamate tra più aree.
Caratteristiche principali
- Nome del modello in OCI Generative AI:
xai.grok-3-mini
- Disponibile su richiesta: accedi a questo modello on-demand tramite l'area di gioco della console o l'API.
- Solo in modalità testo: immettere il testo e ottenere un output di testo. (Nessun supporto immagine.)
- Veloce: ottimo per i task basati sulla logica che non richiedono una conoscenza approfondita del dominio.
- Lunghezza contesto: 131.072 token (la lunghezza massima del prompt + della risposta è di 131.072 token per ogni esecuzione). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 gettoni per ogni esecuzione.
- Chiamata di funzione: Sì, tramite l'API.
- Output strutturati: Sì.
- Motivo: Sì. Vedere il parametro
reasoning_effort
nella sezione Parametri modello. - Knowledge Cutoff: novembre 2024
Modalità su richiesta
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per sperimentare, dimostrare i concetti e valutare i modelli.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Per garantire un accesso affidabile AI modelli di intelligenza artificiale generativa in modalità on-demand, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, ad esempio una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive della tua integrazione nel servizio.
I modelli Grok sono disponibili solo in modalità su richiesta.
Vedere la tabella riportata di seguito per il nome del prodotto di questo modello nella pagina Determinazione prezzi.
Nome modello | Nome modello OCI | Nome prodotto pagina determinazione prezzi |
---|---|---|
xAI Grok 3 Mini | xai.grok-3-mini |
xAI – Grok 3 Mini |
Data di rilascio
Modello | Data rilascio beta | Data rilascio disponibilità generale | Data smobilizzo su richiesta | Data smobilizzo modalità dedicata |
---|---|---|---|---|
xai.grok-3-mini |
2.025-5-22 | 2.025-6-24 | Provvisorio | Questo modello non è disponibile per la modalità dedicata. |
Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 131.072 token per ogni esecuzione. Nel campo di gioco, i token di output massimi sono limitati a 16.000 token per ogni esecuzione.
- Temperatura
-
Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Min: 0, Max: 1.
Assegnare a
p
un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarep
su 1 per considerare tutti i token. - Impegno ragionamento
-
Il parametro
reasoning_effort
, disponibile tramite l'API e non la console, controlla il tempo che il modello trascorre pensando prima di rispondere. È necessario impostarlo su uno dei seguenti valori:low
: tempo di pensiero minimo, utilizzando meno token per ottenere risposte rapide.high
: tempo di pensiero massimo, utilizzando più token per problemi complessi.
La scelta del livello corretto dipende dal task: utilizzare
low
per query semplici che vengono completate rapidamente ehigh
per problemi più difficili in cui la latenza della risposta è meno importante. Informazioni su questo parametro nelle guide xAI.