Meta Llama 3.3 (70B)

Il modello meta.llama-3.3-70b-instruct è disponibile per l'inferenza su richiesta, l'hosting dedicato e l'ottimizzazione e offre prestazioni migliori rispetto a Llama 3.1 70B e Llama 3.2 90B per le attività di testo.

Aree per questo modello

Importante

Per le aree supportate, i tipi di endpoint (cluster AI su richiesta o dedicati) e l'hosting (AI generativa OCI o chiamate esterne) per questo modello, vedere la pagina Modelli per area. Per informazioni dettagliate sulle aree, vedere la pagina Aree AI generative.

Accedi a questo modello

Accedere a questo modello tramite la console, l'API e l'interfaccia CLI:
Nota

Gli endpoint API per tutte le region commerciali, sovrane e governative supportate sono elencati nei collegamenti API di gestione e API di inferenza. È possibile accedere a ciascun modello solo tramite le aree supportate.

Caratteristiche principali

  • Il modello ha 70 miliardi di parametri.
  • Accetta input di solo testo e produce output di solo testo.
  • Utilizza lo stesso formato di prompt di Llama 3.1 70B.
  • Supporta lo stesso interprete di codice di Llama 3.1 70B e mantiene la lunghezza del contesto di 128.000 token. (Prompt massimo + lunghezza risposta: 128.000 token per ogni esecuzione.)
  • Rispetto al suo predecessore Llama 3.1 70B, risponde con un ragionamento, una codifica, una matematica e un'istruzione migliori. Vedere la scheda modello Llama 3.3.
  • Disponibile per inferenza on-demand, hosting dedicato e ottimizzazione.
  • Per l'inferenza su richiesta, la lunghezza della risposta è limitata a 4.000 token per ogni esecuzione.
  • Per la modalità dedicata, la lunghezza della risposta non è limitata e la lunghezza del contesto è di 128.000 token.

Meta Llama 3.3 Varianti

Il modello Meta Llama 3.3 (70B) è disponibile in due varianti: lo standard meta.llama-3.3-70b-instruct e il meta.llama-3.3-70b-instruct-fp8-dynamic ottimizzato (versione dinamica FP8). Ad eccezione di alcune regioni, entrambe le varianti sono offerte nelle stesse regioni. La disponibilità varia in base all'area e alla modalità (cluster AI su richiesta o dedicati). Per la lista completa e i dettagli completi, vedere Modelli per area.

Variante standard: meta.llama-3.3-70b-instruct
  • Prestazioni: fornisce prestazioni di precisione completa.
  • Fine-tuning: è possibile ottimizzare questo modello con il data set nelle aree commerciali (OC1). L'ottimizzazione non è supportata per i modelli in un'area OC19 OC4.
  • Quando utilizzare: ideale per attività generiche che richiedono un'elevata precisione, ad esempio un ragionamento complesso, la generazione di contenuti e qualsiasi caso d'uso in cui è necessario un perfezionamento.
Variante dinamica FP8: meta.llama-3.3-70b-instruct-fp8-dynamic
  • Prestazioni: utilizza FP8 (a virgola mobile a 8 bit), un formato numerico a precisione ridotta che rappresenta i numeri a virgola mobile utilizzando 8 bit per accelerare l'inferenza. Rispetto ai formati a 16 bit come FP16, FP8 dimezza i requisiti di larghezza di banda della memoria, che possono aumentare il throughput computazionale e ridurre il consumo energetico della GPU.
  • Efficienza: ottimizzata per l'efficienza, questa variante offre inferenza più rapida con una perdita di precisione minima per molte attività.
  • Fine-tuning: non disponibile.
  • Quando utilizzare: selezionare questa variante per scenari ad alto volume e sensibili alla latenza, ad esempio applicazioni in tempo reale, servizi su larga scala o inferenza ottimizzata in base ai costi, in cui la velocità e l'efficienza sono più importanti dell'ottimizzazione o della massima precisione. Questa variante è ideale per gli ambienti di produzione incentrati sul throughput anziché sulla personalizzazione.
Nota

Per le richieste API, specificare sempre l'ID modello esatto.

Modalità su richiesta

Vedere la tabella riportata di seguito per il nome del prodotto su richiesta di questo modello nella pagina relativa alla determinazione prezzi.

Nome modello Nome modello OCI Nome prodotto pagina determinazione prezzi
Meta Llama 3.3 (70B) (standard) meta.llama-3.3-70b-instruct Large Meta
Meta Llama 3.3 (70B) (Dinamico FP8) meta.llama-3.3-70b-instruct-fp8-dynamic Large Meta

Informazioni sulla modalità On-Demand.

Cluster AI dedicato per il modello

Per i modelli in modalità on-demand, non sono necessari cluster. Accedervi tramite il parco giochi e l'API della console. Per i modelli disponibili in modalità dedicata, utilizzare gli endpoint creati su cluster AI dedicati. Ulteriori informazioni sulla modalità dedicata.

Nella tabella seguente sono elencate le dimensioni delle unità hardware e i limiti del servizio per i cluster AI dedicati.

Modello base Cluster di ottimizzazione Cluster di hosting Informazioni pagina determinazione prezzi Richiedi aumento limite cluster
  • Nome modello: Meta Llama 3.3 (70B) (Standard)
  • Nome modello OCI: meta.llama-3.3-70b-instruct
  • Dimensione unità: Large Generic
  • Unità obbligatorie: 2

    Ottimizzazione non disponibile per EU Sovereign Central (Francoforte) (OC19) e UK Gov South (Londra) (OC4))

  • Dimensione unità: Large Generic
  • Unità obbligatorie: 1
  • Nome prodotto pagina determinazione prezzi: Large Meta - Dedicated
  • Per l'Hosting, Moltiplica il Prezzo Unitario: x2
  • Per ottimizzare il prezzo unitario, moltiplicarlo per: x4
  • Nome limite: dedicated-unit-llama2-70-count
  • Per l'hosting, richiedere l'aumento del limite entro: 2
  • Per l'ottimizzazione, richiedere un aumento del limite di: 4
  • Nome modello: Meta Llama 3.3 (70B) (Dynamic FP8)
  • Nome modello OCI: meta.llama-3.3-70b-instruct-fp8-dynamic
Non disponibile per l'ottimizzazione

Per UAE East (Dubai):

  • Dimensione unità: LARGE_GENERIC_V1
  • Unità obbligatorie: 1

Per le altre regioni disponibili:

  • Dimensione unità: Large Generic
  • Unità obbligatorie: 1
  • Nome prodotto pagina determinazione prezzi: Large Meta - Dedicated
  • Per l'Hosting, Moltiplica il Prezzo Unitario: x2
  • Nome limite: dedicated-unit-llama2-70-count
  • Per l'hosting, richiedere l'aumento del limite entro: 2
Suggerimento

  • Se non si dispone di limiti cluster sufficienti nella tenancy per l'hosting del modello Meta Llama 3.3 (70B) (standard o dinamico fp8) su un cluster AI dedicato, richiedere il limite dedicated-unit-llama2-70-count da aumentare di 2.
  • Per l'ottimizzazione, richiedere un aumento del limite di dedicated-unit-llama2-70-count di 4.

Regole endpoint per i cluster

  • Un cluster AI dedicato può contenere fino a 50 endpoint.
  • Utilizzare questi endpoint per creare alias che puntano tutti allo stesso modello base o alla stessa versione di un modello personalizzato, ma non a entrambi i tipi.
  • Diversi endpoint per lo stesso modello semplificano l'assegnazione a utenti o scopi diversi.
Dimensione unità cluster di hosting Regole endpoint
Large Generic per meta.llama-3.3-70b-instruct
  • Modello di base: per eseguire il modello ⁇ meta.llama-3.3-70b-instruct ⁇ su più endpoint, creare tutti gli endpoint necessari su un cluster Large Generic (dimensione unità).
  • Modello personalizzato: lo stesso vale per un modello personalizzato creato in cima a meta.llama-3.3-70b-instruct: crea il numero richiesto di endpoint in un cluster Large Generic (dimensione unità).
Large Generic per meta.llama-3.3-70b-instruct-fp8-dynamic
  • Modello di base: per eseguire il modello ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ su più endpoint, creare tutti gli endpoint necessari su un cluster Large Generic (dimensione unità).
  • Modello personalizzato: non è possibile perfezionare ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic, quindi non è possibile creare e ospitare modelli personalizzati creati da tale base.
LARGE_GENERIC_V1 per meta.llama-3.3-70b-instruct-fp8-dynamic (solo UAE East (Dubai))
  • Modello di base: per eseguire il modello ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ su diversi endpoint in UAE East (Dubai), creare tutti gli endpoint necessari in un cluster LARGE_GENERIC_V1 (dimensione unità).
  • Modello personalizzato: non è possibile perfezionare ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic, quindi non è possibile creare e ospitare modelli personalizzati creati da tale base in UAE East (Dubai).
Suggerimento

Benchmark sulle prestazioni del cluster

Esaminare i benchmark delle prestazioni del cluster Meta Llama 3.3 (70B) per i diversi casi d'uso.

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.

Temperatura

Livello di casualità utilizzato per generare il testo di output.

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.
Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiore probabilità. Un valore elevato per k genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli Cohere Command e -1 per i modelli Meta Llama, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo.

Penalità di frequenza

Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.

Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.

Penalità di presenza

Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.

Valore iniziale

Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.

I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.

Avvertenza

Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.