Meta Llama 3 (70B)

Il modello meta.llama-3-70b-instruct è stato ritirato.

importante

Il modello meta.llama-3-70b-instruct è ora disattivato. Per i modelli di sostituzione suggeriti, vedere Ritiro dei modelli.

Informazioni sui modelli ritirati

Smobilizzo per modalità su richiesta: Quando un modello viene ritirato in modalità su richiesta, non è più disponibile per l'uso nell'area di gioco del servizio AI generativa o tramite l'API di inferenza AI generativa.

Smobilizzo per modalità dedicata

Quando un modello viene ritirato in modalità dedicata, non è più possibile creare un cluster AI dedicato per il modello ritirato, ma un cluster AI dedicato attivo che esegue un modello ritirato continua a essere eseguito. Un modello personalizzato, che sta eseguendo un modello ritirato, continua a essere disponibile anche per i cluster AI dedicati attivi e puoi continuare a creare nuovi cluster AI dedicati con un modello personalizzato creato su un modello ritirato. Tuttavia, Oracle offre un supporto limitato per questi scenari e la progettazione Oracle potrebbe richiedere di eseguire l'aggiornamento a un modello supportato per risolvere i problemi relativi al modello.

Per richiedere che un modello rimanga in vita più a lungo della data di ritiro in modalità dedicata, creare un ticket di supporto.

Disponibile in queste aree

Se si esegue questo modello su un cluster AI dedicato, questo modello si trova in una delle seguenti aree:

Brasile (Est) - San Paolo
Germania (Centro) - Francoforte
Regno Unito (Sud) - Londra
Stati Uniti (Midwest) - Chicago

Accedi a questo modello

Accedere a questo modello tramite la console, l'API e l'interfaccia CLI:

Caratteristiche principali

Dimensione modello: 70 miliardi di parametri
Lunghezza contesto: 8.000 token (Lunghezza massima prompt + risposta: 8.000 token per ogni esecuzione).
Conoscenza: ha una vasta conoscenza generale, dalla generazione di idee al perfezionamento dell'analisi del testo e alla stesura di contenuti scritti, come e-mail, post di blog e descrizioni.

Modalità su richiesta

Il modello cohere.embed-english-light-image-v3.0 è stato ritirato e pertanto non è disponibile nella modalità su richiesta.

Cluster AI dedicato per il modello

Per raggiungere un modello tramite un cluster AI dedicato in qualsiasi area elencata, devi creare un endpoint per tale modello su un cluster AI dedicato. Se è stato creato un cluster AI dedicato per questo modello, ecco le informazioni sul cluster:


Modello base	Cluster di ottimizzazione	Cluster di hosting	Informazioni pagina determinazione prezzi	Richiedi aumento limite cluster
Nome modello: Meta Llama 3 Nome modello OCI: `meta.llama-3-70b-instruct` (ritirato)	Dimensione unità: Large Generic Unità obbligatorie: 2	Dimensione unità: Large Generic Unità obbligatorie: 1	Nome prodotto pagina determinazione prezzi: Large Meta - Dedicated Per l'Hosting, Moltiplica il Prezzo Unitario: x2 Per ottimizzare il prezzo unitario, moltiplicarlo per: x4	Nome limite: `dedicated-unit-llama2-70-count` Per l'hosting, richiedere l'aumento del limite entro: 2 Per l'ottimizzazione, richiedere un aumento del limite di: 4

Nota

Hosting del modello Meta Llama 3 su un cluster AI dedicato, utilizza 2 conteggi di unità del limite del servizio, dedicated-unit-llama2-70-count.
L'ottimizzazione del modello Meta Llama 3 su un cluster AI dedicato utilizza 4 conteggi di unità del limite del servizio, dedicated-unit-llama2-70-count.

Regole endpoint per i cluster

Un cluster AI dedicato può contenere fino a 50 endpoint.
Utilizzare questi endpoint per creare alias che puntano tutti allo stesso modello base o alla stessa versione di un modello personalizzato, ma non a entrambi i tipi.
Diversi endpoint per lo stesso modello semplificano l'assegnazione a utenti o scopi diversi.


Dimensione unità cluster di hosting	Regole endpoint
Large Generic	Modello di base: per eseguire il modello ⁇ `meta.llama-3-70b-instruct` ⁇ su più endpoint, creare tutti gli endpoint necessari su un cluster Large Generic (dimensione unità). Modello personalizzato: lo stesso vale per un modello personalizzato creato in cima a `meta.llama-3-70b-instruct`: crea il numero richiesto di endpoint in un cluster Large Generic (dimensione unità).

Suggerimento

Per aumentare il volume delle chiamate supportato da un cluster di hosting, aumentare il conteggio delle istanze modificando il cluster AI dedicato. Vedere Aggiornamento di un cluster AI dedicato.
Per più di 50 endpoint per cluster, richiedere un aumento del limite, endpoint-per-dedicated-unit-count. Vedere Richiesta di un aumento del limite del servizio e Limiti del servizio per l'intelligenza artificiale generativa.

Benchmark sulle prestazioni del cluster

Esaminare i benchmark delle prestazioni del cluster Meta Llama 3 (70B) per vari casi d'uso.

Date rilascio e smobilizzo


Modello	Data di rilascio	Data smobilizzo su richiesta	Data smobilizzo modalità dedicata
`meta.llama-3-70b-instruct`	2.024-6-4	`2.024-11-12`	`2.025-8-7`

Importante

Per un elenco di tutte le linee temporali del modello e dei relativi dettagli, vedere Ritiro dei modelli.

Parametri modello

Per modificare le risposte del modello, è possibile modificare i valori dei seguenti parametri nell'area di gioco o nell'API.

Numero massimo di token di output

Numero massimo di token che si desidera venga generato dal modello per ogni risposta. Ogni risposta. Stima quattro caratteri per token. Poiché si sta richiedendo un modello di chat, la risposta dipende dal prompt e ogni risposta non utilizza necessariamente il numero massimo di token allocati.

Temperatura

Livello di casualità utilizzato per generare il testo di output.

Suggerimento

Iniziare con la temperatura impostata su 0 o meno e aumentare la temperatura quando si rigenerano i prompt per ottenere un output più creativo. Le alte temperature possono introdurre allucinazioni e informazioni di fatto errate.

Top p

Metodo di campionamento che controlla la probabilità cumulativa dei primi token da considerare per il token successivo. Assegnare a p un numero decimale compreso tra 0 e 1 per la probabilità. Ad esempio, immettere 0,75 per il primo 75% da considerare. Impostare p su 1 per considerare tutti i token.

Top k

Metodo di campionamento in cui il modello sceglie il token successivo in modo casuale dai token top k con maggiore probabilità. Un valore elevato per k genera un output più casuale, che rende il testo di output più naturale. Il valore predefinito per k è 0 per i modelli Cohere Command e -1 per i modelli Meta Llama, il che significa che il modello deve considerare tutti i token e non utilizzare questo metodo.

Penalità di frequenza

Penale assegnata a un token quando tale token appare frequentemente. Le sanzioni elevate incoraggiano un minor numero di token ripetuti e producono un output più casuale.

Per i modelli della famiglia Meta Llama, questa penalità può essere positiva o negativa. I numeri positivi incoraggiano il modello a utilizzare nuovi token e i numeri negativi incoraggiano il modello a ripetere i token. Impostare su 0 per disabilitare.

Penalità di presenza

Penalità assegnata a ciascun token quando viene visualizzato nell'output per incoraggiare la generazione di output con token non utilizzati.

Popola

Parametro che fa il possibile per campionare i token in modo deterministico. Quando a questo parametro viene assegnato un valore, il modello di linguaggio di grandi dimensioni mira a restituire lo stesso risultato per le richieste ripetute quando si assegnano gli stessi seed e parametri per le richieste.

I valori consentiti sono numeri interi e l'assegnazione di un valore iniziale grande o piccolo non influisce sul risultato. L'assegnazione di un numero per il parametro seed è simile all'applicazione di tag alla richiesta con un numero. Il modello di linguaggio di grandi dimensioni mira a generare lo stesso set di token per lo stesso numero intero nelle richieste consecutive. Questa funzione è particolarmente utile per le operazioni di debug e test. Il parametro seed non ha un valore massimo per l'API e nella console il relativo valore massimo è 9999. Lasciando vuoto il valore iniziale nella console o nullo nell'API, questa funzione viene disabilitata.

Avvertenza

Il parametro seed potrebbe non produrre lo stesso risultato nel lungo periodo, poiché gli aggiornamenti del modello nel servizio OCI Generative AI potrebbero invalidare il seed.

Documentazione dell'infrastruttura Oracle Cloud