Iperparametri di ottimizzazione nell'AI generativa

L'AI generativa OCI ottimizza ogni modello di base utilizzando i seguenti iperparametri, che si basano sul modello di base pre-addestrato.

Suggerimento

Inizia ad addestrare ogni modello con i relativi valori di iperparametri predefiniti. Dopo la creazione del modello, nella pagina dei dettagli del modello, in Prestazioni modello, controllare i valori per precisione e perdita. Se non sei soddisfatto dei risultati, crea un altro modello con un set di dati più grande o iperparametri diversi fino a quando le prestazioni non migliorano.

meta.llama-3.3-70b-instruct

Nella tabella riportata di seguito vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base meta.llama-3.3-70b-instruct con il metodo LoRA.


Iperparametro	descrizione;	Intervallo valido	Valore predefinito
Totale epoche di addestramento	Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 `epoch` indica che il modello viene addestrato utilizzando l'intero data set una sola volta.	1 o un numero intero superiore	3
Velocità di apprendimento	La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore.	Un numero compreso tra 0 e 1.0	0
Dimensione batch di allenamento	Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello.	Un numero intero compreso tra 8 e 16	8
Pazienza prima di arresto anticipato	Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione.	0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza	15
Soglia prima di arresto anticipato	La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta.	0 o un numero positivo	0
Intervallo delle metriche del modello di log in passi	Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione.	Preimpostato su 10	10
`LoRA r` (solo per il metodo `LoRA`)	Dimensione di attenzione (range) delle matrici di aggiornamento. Una classificazione inferiore produce matrici di aggiornamento più piccole con un minor numero di parametri formabili.	Numero intero compreso tra 1 e 64	8
`LoRA alpha` (solo per il metodo `LoRA`)	Il parametro `alpha` per la scala `LoRA`. Le matrici di peso `LoRA` vengono scalate dividendo `LoRA` alpha per `LoRA r`. Il parametro `alpha` definisce i pesi `LoRA`, che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello.	Numero intero compreso tra 1 e 128	8
`LoRA dropout` (solo per il metodo `LoRA`)	La probabilità di caduta per i neuroni negli strati `LoRA`. Il metodo dropout previene l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di uno strato. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere lasciato cadere.	Un numero decimale minore di 1 per la percentuale, ad esempio 0,1 per 10%	0,1

La seguente equazione mostra come il modello calcola il parametro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize