Meta Llama 4 Maverick (Nuovo)
I modelli Llama 4 sfruttano un'architettura Mixture of Experts (MoE), consentendo funzionalità di elaborazione efficienti e potenti. Questi modelli sono ottimizzati per la comprensione multimodale, le attività multilingue, la codifica, la chiamata di strumenti e l'alimentazione di sistemi agenti. Per informazioni dettagliate sul modello meta.llama-4-maverick-17b-128e-instruct-fp8
, vedere le sezioni seguenti.
Disponibile in queste aree
- Brasile orientale (San Paolo) (solo cluster AI dedicato)
- India meridionale (Hyderabad) (solo cluster AI dedicato)
- Japan Central (Osaka) (solo cluster AI dedicato)
- Regno Unito meridionale (Londra) (solo cluster AI dedicato)
- Stati Uniti (Midwest) - Chicago
Caratteristiche principali
- Meta Llama Serie 4
-
- Funzionalità multimodali: i modelli Llama 4 sono nativamente multimodali, in grado di elaborare e integrare vari tipi di dati, tra cui testo e immagini. Inserire testo e immagini e ottenere un output di testo.
- Supporto multilingue: formato su dati che comprendono 200 lingue, con un supporto di ottimizzazione per 12 lingue tra cui arabo, inglese, francese, tedesco, hindi, indonesiano, italiano, portoghese, spagnolo, tagalog, tailandese e vietnamita. La comprensione delle immagini è limitata all'inglese.
- Distribuzione efficiente: struttura GPU di piccole dimensioni.
- Knowledge Cutoff: agosto 2024
- Limitazioni d'uso: la politica sull'uso accettabile di Lama 4 ne limita l'uso nell'Unione europea (UE).
- Meta Llama 4 Maverick
-
- Architettura: simile a Meta Llama Scout, questo modello presenta 17 miliardi di parametri attivi, ma all'interno di un framework più ampio di circa 400 miliardi di parametri, utilizzando 128 esperti.
- Finestra Contesto: supporta una lunghezza di contesto di 512.000 token. (La lunghezza massima del prompt + risposta è di 512.000 token per ogni esecuzione.)
- Prestazioni: consente di abbinare i modelli avanzati nei task di codifica e ragionamento.
- Altre caratteristiche
-
- Inferenza su richiesta disponibile a Chicago.
- Per l'inferenza su richiesta, la lunghezza della risposta è limitata a 4.000 token per ogni esecuzione.
- Per la modalità dedicata, la lunghezza della risposta non è limitata e la lunghezza del contesto è di 512.000 token.
- Nella console immettere un'immagine
.png
o.jpg
di almeno 5 MB. - Per l'API, inserire un'immagine con codifica
base64
in ogni esecuzione. Un'immagine 512 x 512 viene convertita in circa 1.610 token.
Modalità su richiesta
-
È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
- Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
- Ottimo per sperimentare, dimostrare i concetti e valutare i modelli.
- Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).
Per garantire un accesso affidabile AI modelli di intelligenza artificiale generativa in modalità on-demand, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, ad esempio una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive della tua integrazione nel servizio.
Vedere la tabella riportata di seguito per il nome del prodotto di questo modello nella pagina Determinazione prezzi.
Nome modello | Nome modello OCI | Nome prodotto pagina determinazione prezzi |
---|---|---|
Meta Llama 4 Maverick | meta.llama-4-maverick-17b-128e-instruct-fp8 |
Meta Llama 4 Maverick |
Cluster AI dedicato per il modello
Nella lista di aree precedente, le aree non contrassegnate con (solo cluster AI dedicato) dispongono di opzioni cluster AI on-demand e dedicate. Per l'opzione on-demand, non sono necessari cluster ed è possibile raggiungere il modello nell'area di riproduzione della console o tramite l'API. Ulteriori informazioni sulla modalità dedicata.
Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Per le dimensioni dell'unità cluster corrispondenti a questo modello, vedere la tabella riportata di seguito.
Modello base | Cluster di ottimizzazione | Cluster di hosting | Informazioni pagina determinazione prezzi | Richiedi aumento limite cluster |
---|---|---|---|---|
|
Non disponibile per l'ottimizzazione |
|
|
|
Se non si dispone di limiti cluster sufficienti nella tenancy per l'hosting del modello Meta Llama 4 Maverick in un cluster AI dedicato, richiedere il limite dedicated-unit-llama2-70-count
da aumentare di 4.
Benchmark sulle prestazioni del cluster
Esaminare i benchmark delle prestazioni del cluster Meta Llama 4 Maverick per vari casi d'uso.
Date rilascio e smobilizzo
Modello | Data di rilascio | Data smobilizzo su richiesta | Data smobilizzo modalità dedicata |
---|---|---|---|
meta.llama-4-maverick-17b-128e-instruct-fp8
|
2.025-5-14 | Almeno un mese dopo il rilascio del 1° modello di sostituzione. | Almeno 6 mesi dopo il rilascio del 1o modello di sostituzione. |
Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.
Parametri modello
Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.
- Numero massimo di token di output
-
Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.
- Temperatura
-
Livello di casualità utilizzato per generare il testo di output.
Suggerimento
Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate. - Top p
-
Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a
p
un numero decimale positivo compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostarep
su 1 per considerare tutti i token. - Top k
-
Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token
top k
con maggiore probabilità. Un valore elevato perk
genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelliCohere Command
e -1 per i modelliMeta Llama
, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo. - Penalità di frequenza
-
Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.
Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.
- Penalità di presenza
-
Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati. Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. Impostare su 0 per disabilitare.
- Popola
-
Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.
I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.
Avvertenza
Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.