Hyperparameters for Fine-Tuning a Model in Generative AI
L'AI generativa OCI ottimizza ogni modello di base utilizzando i seguenti iperparametri, che si basano sul modello di base pre-addestrato.
Avviare l'addestramento di ogni modello con i relativi valori di iperparametro predefiniti. Dopo la creazione del modello, nella pagina dei dettagli del modello, in Prestazioni modello, controllare i valori per accuratezza e perdita. Se non si è soddisfatti dei risultati, creare un altro modello con un set di dati più grande o con iperparametri diversi finché le prestazioni non migliorano.
Nella tabella riportata di seguito vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base meta.llama-3.3-70b-instruct
con il metodo LoRA
.
Iperparametro | descrizione; | Intervallo valido | Valore predefinito |
---|---|---|---|
Totale epoche di addestramento | Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero data set una sola volta. |
1 o un numero intero superiore |
3 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0 |
Dimensione batch di allenamento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Un numero intero compreso tra 8 e 16 | 8 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 15 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | 0 o un numero positivo | 0 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | Preimpostato su 10 | 10 |
LoRA r (solo per il metodo LoRA ) |
Dimensione di attenzione (range) delle matrici di aggiornamento. Una classificazione inferiore produce matrici di aggiornamento più piccole con un minor numero di parametri formabili. | Numero intero compreso tra 1 e 64 | 8 |
LoRA alpha (solo per il metodo LoRA ) |
Il parametro alpha per la scala LoRA . Le matrici di peso LoRA vengono scalate dividendo LoRA alpha per LoRA r . Il parametro alpha definisce i pesi LoRA , che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello. |
Numero intero compreso tra 1 e 128 | 8 |
LoRA dropout (solo per il metodo LoRA ) |
La probabilità di caduta per i neuroni negli strati LoRA . Il metodo dropout previene l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di uno strato. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere lasciato cadere. |
Un numero decimale minore di 1 per la percentuale, ad esempio 0,1 per 10% | 0,1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella riportata di seguito vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base meta.llama-3.1-70b-instruct
con il metodo LoRA
.
Iperparametro | descrizione; | Intervallo valido | Valore predefinito |
---|---|---|---|
Totale epoche di addestramento | Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero data set una sola volta. |
1 o un numero intero superiore |
3 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0 |
Dimensione batch di allenamento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Un numero intero compreso tra 8 e 16 | 8 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 15 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | 0 o un numero positivo | 0 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | Preimpostato su 10 | 10 |
LoRA r (solo per il metodo LoRA ) |
Dimensione di attenzione (range) delle matrici di aggiornamento. Una classificazione inferiore produce matrici di aggiornamento più piccole con un minor numero di parametri formabili. | Numero intero compreso tra 1 e 64 | 8 |
LoRA alpha (solo per il metodo LoRA ) |
Il parametro alpha per la scala LoRA . Le matrici di peso LoRA vengono scalate dividendo LoRA alpha per LoRA r . Il parametro alpha definisce i pesi LoRA , che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello. |
Numero intero compreso tra 1 e 128 | 8 |
LoRA dropout (solo per il metodo LoRA ) |
La probabilità di caduta per i neuroni negli strati LoRA . Il metodo dropout previene l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di uno strato. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere lasciato cadere. |
Un numero decimale minore di 1 per la percentuale, ad esempio 0,1 per 10% | 0,1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base meta.llama-3-70b-instruct
(deprecato) con il metodo LoRA
.
Iperparametro | Descrizione | Intervallo valido | Valore predefinito |
---|---|---|---|
Totale epoche di addestramento | Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero data set una sola volta. |
1 o un numero intero superiore |
3 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0 |
Dimensione batch di allenamento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Un numero intero compreso tra 8 e 16 | 8 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 15 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | 0 o un numero positivo | 0 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | Preimpostato su 10 | 10 |
LoRA r (solo per il metodo LoRA ) |
Dimensione di attenzione (range) delle matrici di aggiornamento. Una rango inferiore si traduce in matrici di aggiornamento più piccole con un minor numero di parametri allenabili. | Numero intero compreso tra 1 e 64 | 8 |
LoRA alpha (solo per il metodo LoRA ) |
Il parametro alpha per la scala LoRA . Le matrici di peso LoRA vengono scalate dividendo LoRA alpha per LoRA r . Il parametro alpha definisce i pesi LoRA , che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello. |
Numero intero compreso tra 1 e 128 | 8 |
LoRA dropout (solo per il metodo LoRA ) |
La probabilità di caduta per i neuroni negli strati LoRA . Il metodo dropout previene l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di uno strato. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere lasciato cadere. |
Un numero decimale inferiore a 1 come percentuale, ad esempio 0,1 per il 10% | 0,1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base cohere.command-r-16k
(deprecato) con il metodo T-Few
.
Iperparametro | descrizione; | Intervallo valido | Valore predefinito |
---|---|---|---|
Totale epoche di addestramento | Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero data set una sola volta. |
Numero intero compreso tra 1 e 10 |
1 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0.00005 e 0.1 | 0,01 |
Dimensione batch di allenamento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Un numero intero compreso tra 8 e 32 | 16 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione. | 0 per disabilitare e un numero intero compreso tra 1 e 16 per aggiungere un periodo di tolleranza | 10 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | Un numero compreso tra 0.001 e 0.1 | 0,001 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | Impossibile eseguire il tuning ed è impostato su 1. | 1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella riportata di seguito vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base cohere.command-r-16k
con il metodo T-Few
.
Iperparametro | descrizione; | Intervallo valido | Valore predefinito |
---|---|---|---|
Totale epoche di addestramento | Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero data set una sola volta. |
Numero intero compreso tra 1 e 10 |
1 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0.000005 e 0.1 | 0,01 |
Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Un numero intero compreso tra 8 e 32 | 16 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione. | 0 per disabilitare e un numero intero compreso tra 1 e 16 per aggiungere un periodo di tolleranza | 10 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | Un numero compreso tra 0.001 e 0.1 | 0,001 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | Impossibile eseguire il tuning ed è impostato su 1. | 1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti i parametri iperparametri utilizzati da OCI Generative AI per addestrare il modello di base cohere.command
(deprecato) e vengono visualizzati i valori predefiniti per i metodi T-Few
e Vanilla
.
Il file
cohere.command
è disponibile solo nell'area Midwest degli Stati Uniti (Chicago).Iperparametro | descrizione; | Intervallo valido | Valore predefinito per T-Few | Valore predefinito per vaniglia |
---|---|---|---|---|
Totale epoche di addestramento | Numero di volte in cui l'addestramento ripete l'intero data set di esempio. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero data set una sola volta. |
1 o un numero intero superiore |
3 | 3 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0,01 | 0.000006 (6e-7) |
Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | 8 | 8 | 8 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto anticipato per questo numero di volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 6 | 6 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | 0 o un numero positivo | 0,01 | 0,01 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | 0 per disabilitare e un numero intero compreso tra 1 e il totale dei passi di formazione da registrare. | 10 | 10 |
Numero degli ultimi layer (solo per il metodo Vanilla ) |
Numero degli ultimi layer da ottimizzare nel metodo Vanilla . |
Numero intero compreso tra 1 e 15 | non applicabile | 15 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti i parametri iperparametri utilizzati da OCI Generative AI per addestrare il modello di base cohere.command-light
(deprecato) e vengono visualizzati i valori predefiniti per i metodi T-Few
e Vanilla
.
Il file
cohere.command-light
è disponibile solo nell'area Midwest degli Stati Uniti (Chicago).Iperparametro | descrizione; | Intervallo valido | Valore predefinito per T-Few | Valore predefinito per vaniglia |
---|---|---|---|---|
Totale epoche di addestramento | Il numero di volte in cui l'addestramento viene iterato nell'intero data set di addestramento. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero set di dati di addestramento una sola volta. |
1 o un numero intero superiore |
3 | 3 |
Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0,01 | 0 |
Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Un numero intero compreso tra 8 e 16 | 16 | 16 |
Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di interruzione anticipata. L'allenamento si interrompe se la metrica di perdita non migliora oltre la soglia di arresto iniziale per questo numero di volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 6 | 6 |
Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel successivo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto anticipato. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore si reimposta. | 0 o un numero positivo | 0,01 | 0,01 |
Intervallo delle metriche del modello di log in passi | Numero di passi per log. Vengono registrate le metriche del modello, ad esempio la perdita di formazione e il tasso di apprendimento. Se la perdita di formazione non diminuisce come previsto, esaminare i dati di formazione o la velocità di formazione. | 0 per disabilitare e un numero intero compreso tra 1 e il totale dei passi di formazione da registrare. | 10 | 10 |
Numero degli ultimi layer (solo per il metodo Vanilla ) |
Numero degli ultimi layer da ottimizzare nel metodo Vanilla . |
Numero intero compreso tra 1 e 14 | non applicabile | 14 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Nell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.