Meta Llama 3.3 (70B)

Il modello meta.llama-3.3-70b-instruct è disponibile per l'inferenza su richiesta, l'hosting dedicato e l'ottimizzazione e offre prestazioni migliori rispetto a Llama 3.1 70B e Llama 3.2 90B per le attività di testo.

Disponibile in queste aree commerciali

Brasile (Est) - San Paolo
Germania (Centro) - Francoforte
India meridionale (Hyderabad) (solo cluster AI dedicato)
Giappone centrale (Osaka)
Arabia Saudita centrale (Riyadh) (solo cluster AI dedicato)
UAE East (Dubai) (disponibile come meta.llama-3.3-70b-instruct-fp8-dynamic solo per cluster AI dedicati e senza fine tuning)
Regno Unito (Sud) - Londra
Stati Uniti (Midwest) - Chicago

Disponibile in questa area sovrana

Questo modello è disponibile in EU Sovereign Central (Francoforte) (solo cluster AI dedicato) tramite i seguenti endpoint API:

API di inferenza:
https://inference.generativeai.eu-frankfurt-2.oci.oraclecloud.eu
API di gestione:
https://generativeai.eu-frankfurt-2.oci.oraclecloud.eu

Nell'API, sia per il nome del modello che per l'OCID del modello utilizzare meta.llama-3.3-70b-instruct-fp8-dynamic.

L'ottimizzazione non è disponibile per questo modello in quest'area.

Scopri Oracle EU Sovereign Cloud.

Disponibile in questa area governativa

Questo modello è disponibile nel Gov South del Regno Unito (Londra) (solo cluster AI dedicato) tramite i seguenti endpoint API:

API di inferenza:
https://inference.generativeai.uk-gov-london-1.oci.oraclegovcloud.uk
API di gestione:
https://generativeai.uk-gov-london-1.oci.oraclegovcloud.uk

Nell'API, sia per il nome del modello che per l'OCID del modello utilizzare meta.llama-3.3-70b-instruct-fp8-dynamic.

L'ottimizzazione non è disponibile per questo modello in quest'area.

Scopri Oracle Cloud Infrastructure United Kingdom Government Cloud.

Accesso a questo modello

Accedere a questo modello tramite la console, l'API e l'interfaccia CLI:

Caratteristiche principali

Il modello ha 70 miliardi di parametri.
Accetta input di solo testo e produce output di solo testo.
Utilizza lo stesso formato di prompt di Llama 3.1 70B.
Supporta lo stesso interprete di codice di Llama 3.1 70B e mantiene la lunghezza del contesto di 128.000 token. (Prompt massimo + lunghezza risposta: 128.000 token per ogni esecuzione.)
Rispetto al suo predecessore Llama 3.1 70B, risponde con un ragionamento, una codifica, una matematica e un'istruzione migliori. Vedere la scheda modello Llama 3.3.
Disponibile per inferenza on-demand, hosting dedicato e ottimizzazione.
Per l'inferenza su richiesta, la lunghezza della risposta è limitata a 4.000 token per ogni esecuzione.
Per la modalità dedicata, la lunghezza della risposta non è limitata e la lunghezza del contesto è di 128.000 token.
È possibile ottimizzare questo modello con il data set.

Modalità su richiesta

Questo modello è disponibile on-demand in aree non elencate come (solo cluster AI dedicato). Vedere la tabella riportata di seguito per il nome del prodotto su richiesta di questo modello nella pagina relativa alla determinazione prezzi.


Nome modello	Nome modello OCI	Nome prodotto pagina determinazione prezzi
Meta Llama 3.3	`meta.llama-3.3-70b-instruct`	Large Meta

Puoi raggiungere i modelli di base pre-addestrati nell'intelligenza artificiale generativa attraverso due modalità: on-demand e dedicato. Di seguito sono riportate le funzioni principali per la modalità on-demand.

È possibile pagare man mano per ogni chiamata di inferenza quando si utilizzano i modelli nell'area di gioco o quando si chiamano i modelli tramite l'API.
Barriera bassa per iniziare a utilizzare l'intelligenza artificiale generativa.
Ottimo per la sperimentazione, la prova di concetto e la valutazione del modello.
Disponibile per i modelli pre-addestrati in aree non elencate come (solo cluster AI dedicato).

Importante

Adeguamento limite limitazione dinamica per modalità su richiesta

OCI Generative AI regola in modo dinamico il limite di limitazione delle richieste per ogni tenancy attiva in base alla domanda del modello e alla capacità del sistema per ottimizzare l'allocazione delle risorse e garantire un accesso equo.

Questo adeguamento dipende dai seguenti fattori:

Throughput massimo corrente supportato dal modello di destinazione.
Capacità del sistema non utilizzata al momento della regolazione.
Uso del throughput cronologico di ciascuna tenancy e qualsiasi limite di sostituzione specificato impostato per tale tenancy.

Nota: a causa della limitazione dinamica, i limiti di frequenza non sono documentati e possono cambiare per soddisfare la domanda a livello di sistema.

Suggerimento

A causa dell'adeguamento dinamico del limite di limitazione, si consiglia di implementare una strategia di back-off, che prevede il ritardo delle richieste dopo un rifiuto. Senza una richiesta, le ripetute richieste rapide possono portare a ulteriori rifiuti nel tempo, a una maggiore latenza e a un potenziale blocco temporaneo del client da parte del servizio di intelligenza artificiale generativa. Utilizzando una strategia di back-off, ad esempio una strategia di back-off esponenziale, puoi distribuire le richieste in modo più uniforme, ridurre il carico e migliorare il successo dei nuovi tentativi, seguendo le best practice del settore e migliorando la stabilità e le prestazioni complessive della tua integrazione nel servizio.

Cluster AI dedicato per il modello

Nella lista di aree precedente, le aree non contrassegnate con (solo cluster AI dedicato) dispongono di opzioni cluster AI on-demand e dedicate. Per l'opzione on-demand, non sono necessari cluster ed è possibile raggiungere il modello nell'area di riproduzione della console o tramite l'API. Ulteriori informazioni sulla modalità dedicata.

Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Per le dimensioni dell'unità cluster corrispondenti a questo modello, vedere la tabella riportata di seguito.


Modello base	Cluster di ottimizzazione	Cluster di hosting	Informazioni pagina determinazione prezzi	Richiedi aumento limite cluster
Nome modello: Meta Llama 3.3 (70B) Nome modello OCI: `meta.llama-3.3-70b-instruct`	Dimensione unità: Large Generic Unità obbligatorie: 2	Dimensione unità: Large Generic Unità obbligatorie: 1	Nome prodotto pagina determinazione prezzi: Large Meta - Dedicated Per l'Hosting, Moltiplica il Prezzo Unitario: x2 Per ottimizzare il prezzo unitario, moltiplicarlo per: x4	Nome limite: `dedicated-unit-llama2-70-count` Per l'hosting, richiedere l'aumento del limite entro: 2 Per l'ottimizzazione, richiedere un aumento del limite di: 4
Nome modello: Meta Llama 3.3 (70B) (solo UAE East (Dubai)) Nome modello OCI: `meta.llama-3.3-70b-instruct-fp8-dynamic`	Non disponibile per l'ottimizzazione	Dimensione unità: LARGE_GENERIC_V1 Unità obbligatorie: 1	Nome prodotto pagina determinazione prezzi: Large Meta - Dedicated Per l'Hosting, Moltiplica il Prezzo Unitario: x2	Nome limite: `dedicated-unit-llama2-70-count` Per l'hosting, richiedere l'aumento del limite entro: 2

Suggerimento

Se non si dispone di limiti cluster sufficienti nella tenancy per l'hosting del modello Meta Llama 3.3 (70B) in un cluster AI dedicato, richiedere il limite dedicated-unit-llama2-70-count da aumentare di 2.
Per l'ottimizzazione, richiedere un aumento del limite di dedicated-unit-llama2-70-count di 4.

Regole endpoint per i cluster

Un cluster AI dedicato può contenere fino a 50 endpoint.
Utilizzare questi endpoint per creare alias che puntano tutti allo stesso modello base o alla stessa versione di un modello personalizzato, ma non a entrambi i tipi.
Diversi endpoint per lo stesso modello semplificano l'assegnazione a utenti o scopi diversi.


Dimensione unità cluster di hosting	Regole endpoint
Large Generic	Modello di base: per eseguire il modello ⁇ `meta.llama-3.3-70b-instruct` ⁇ su più endpoint, creare tutti gli endpoint necessari su un cluster Large Generic (dimensione unità). Modello personalizzato: lo stesso vale per un modello personalizzato creato in cima a `meta.llama-3.3-70b-instruct`: crea il numero richiesto di endpoint in un cluster Small Cohere V2 (dimensione unità).
LARGE_GENERIC_V1 (solo UAE East (Dubai))	Modello di base: per eseguire il modello ⁇ `meta.llama-3.3-70b-instruct-fp8-dynamic` ⁇ su diversi endpoint in UAE East (Dubai), creare tutti gli endpoint necessari in un cluster LARGE_GENERIC_V1 (dimensione unità). Modello personalizzato: non è possibile perfezionare ⁇ `meta.llama-3.3-70b-instruct-fp8-dynamic` in UAE East (Dubai), quindi non è possibile creare e ospitare modelli personalizzati creati da tale base in UAE East (Dubai).

Suggerimento

Per aumentare il volume delle chiamate supportato da un cluster di hosting, aumentare il conteggio delle istanze modificando il cluster AI dedicato. Vedere Aggiornamento di un cluster AI dedicato.
Per più di 50 endpoint per cluster, richiedere un aumento del limite, endpoint-per-dedicated-unit-count. Vedere Richiesta di un aumento del limite del servizio e Limiti del servizio per l'intelligenza artificiale generativa.

Benchmark sulle prestazioni del cluster

Esaminare i benchmark delle prestazioni del cluster Meta Llama 3.3 (70B) per i diversi casi d'uso.

Date rilascio e smobilizzo


Modello	Data di rilascio	Data smobilizzo su richiesta	Data smobilizzo modalità dedicata
`meta.llama-3.3-70b-instruct`	2.025-2-7	Almeno un mese dopo il rilascio del 1^° modello di sostituzione.	Almeno 6 mesi dopo il rilascio del 1^o modello di sostituzione.

Importante

Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.

Temperatura

Livello di casualità utilizzato per generare il testo di output.

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.

Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiore probabilità. Un valore elevato per k genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli Cohere Command e -1 per i modelli Meta Llama, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo.

Penalità di frequenza

Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.

Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.

Penalità di presenza

Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.

Popola

Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.

I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.

Avvertenza

Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.

Documentazione dell'infrastruttura Oracle Cloud

Meta Llama 3.3 (70B)

Disponibile in queste aree commerciali

Disponibile in questa area sovrana

Disponibile in questa area governativa

Accesso a questo modello

Caratteristiche principali

Modalità su richiesta

Cluster AI dedicato per il modello

Regole endpoint per i cluster

Benchmark sulle prestazioni del cluster

Date rilascio e smobilizzo

Parametri modello