xAI Grok 3 Fast
Il modello xai.grok-3-fast
eccelle nei casi d'uso aziendali come l'estrazione dei dati, la codifica e il testo di riepilogo. Questo modello ha una profonda conoscenza del dominio in finanza, sanità, diritto e scienza.
I modelli xai.grok-3
e xai.grok-3-fast
, entrambi utilizzano lo stesso modello di base e offrono la stessa qualità di risposta. La differenza sta nel modo in cui vengono serviti: il modello xai.grok-3-fast
viene servito su un'infrastruttura più veloce, offrendo tempi di risposta notevolmente più veloci rispetto al modello standard xai.grok-3
. La velocità aumentata viene fornita a un costo più elevato per token di output.
I modelli xai.grok-3
e xai.grok-3-fast
puntano allo stesso modello di base. Selezionare xai.grok-3-fast
per le applicazioni sensibili alla latenza e selezionare xai.grok-3
per ridurre i costi.
Disponibile in queste aree
- US East (Ashburn) (solo on-demand)
- Midwest degli Stati Uniti (Chicago) (solo su richiesta)
- US West (Phoenix) (solo on-demand)
Chiamate esterne
I modelli xAI Grok sono ospitati in un data center OCI, in una tenancy di cui è stato eseguito il provisioning per xAI. I modelli xAI Grok, a cui è possibile accedere tramite il servizio OCI Generative AI, sono gestiti da xAI.
Accedi a questo modello
Caratteristiche principali
- Nome del modello in OCI Generative AI:
xai.grok-3-fast
- Disponibile su richiesta: accedi a questo modello on-demand tramite l'area di gioco della console o l'API.
- Solo in modalità testo: immettere il testo e ottenere un output di testo. (Nessun supporto immagine.)
- Knowledge: ha una profonda conoscenza del dominio in finance, sanità, diritto e scienza.
- Lunghezza contesto: 131.072 token (la lunghezza massima del prompt + della risposta è di 131.072 token per ogni esecuzione). Nel parco giochi, la lunghezza della risposta è limitata a 16.000 gettoni per ogni esecuzione.
- Escelte in questi casi d'uso: estrazione dei dati, codifica e riepilogo del testo
- Chiamata di funzione: Sì, tramite l'API.
- Output strutturati: Sì.
- Motivo: n.
- Knowledge Cutoff: novembre 2024
Limiti
- Token al minuto (TPM)
-
Le chiamate di inferenza a questo modello hanno un limite di 100.000 token al minuto (TPM) per cliente o tenancy.
Per visualizzare il limite corrente di una tenancy, nella console andare a Governance e amministrazione. In Gestione tenancy selezionare Limiti, quote e uso. In Servizio, selezionare AI generativa e rivedere i limiti del servizio. Per richiedere un aumento del limite del servizio, selezionare Richiedere un aumento del limite del servizio. Per l'aumento del limite TPM, utilizzare il nome limite seguente:
grok-3-chat-tokens-per-minute-count
.
Modalità su richiesta
I modelli Grok sono disponibili solo in modalità su richiesta.
Nome modello | Nome modello OCI | Nome prodotto pagina determinazione prezzi |
---|---|---|
xAI Grok 3 Fast | xai.grok-3-fast |
xAI – Grok 3 Fast |
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Data di rilascio
Modello | Data rilascio beta | Data rilascio disponibilità generale | Data smobilizzo su richiesta | Data smobilizzo modalità dedicata |
---|---|---|---|---|
xai.grok-3-fast |
2.025-5-22 | 2.025-6-24 | Provvisorio | Questo modello non è disponibile per la modalità dedicata. |
Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati. La lunghezza massima del prompt + output è di 131.072 token per ogni esecuzione. Nel campo di gioco, i token di output massimi sono limitati a 16.000 token per ogni esecuzione.
- Temperatura
-
Livello di casualità utilizzato per generare il testo di output. Min: 0, Max: 2
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a
p
un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarep
su 1 per considerare tutti i token. - Penalità di frequenza
-
Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.
Questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Min: -2, Max: 2. Impostare su 0 per disabilitare.
- Penalità di presenza
-
Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati. Min: -2, Max: 2. Impostare su 0 per disabilitare.