Iperparametri di ottimizzazione nell'AI generativa
L'AI generativa OCI ottimizza ogni modello di base utilizzando i seguenti iperparametri, che si basano sul modello di base pre-addestrato.
Inizia ad addestrare ogni modello con i relativi valori di iperparametri predefiniti. Dopo la creazione del modello, nella pagina dei dettagli del modello, in Prestazioni modello, controllare i valori per precisione e perdita. Se non sei soddisfatto dei risultati, crea un altro modello con un set di dati più grande o iperparametri diversi fino a quando le prestazioni non migliorano.
Nella tabella seguente vengono descritti gli iperparametri utilizzati dall'AI generativa OCI per addestrare un modello di base meta.llama-3.3-70b-instruct con il metodo LoRA.
| Iperparametro | Descrizione | Intervallo valido | Valore predefinito |
|---|---|---|---|
| Totale epoche di addestramento | Numero di iterazioni dell'addestramento nell'intero set di dati di addestramento. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero set di dati di esempio una volta. |
1 o un numero intero superiore |
3 |
| Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0 |
| Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Numero intero compreso tra 8 e 16 | 8 |
| Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di arresto anticipato. L'allenamento si interrompe se la metrica delle perdite non migliora oltre la soglia di arresto anticipato per questo molte volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 15 |
| Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel prossimo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto precoce. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore viene reimpostato. | 0 o un numero positivo | 0 |
| Intervallo delle metriche del modello di log in passi | Il numero di passi per log. Vengono registrate metriche del modello quali la perdita di formazione e il tasso di apprendimento. Se la perdita d'addestramento non diminuisce come previsto, esaminare i dati di addestramento o la velocità di addestramento. | Preimpostato su 10 | 10 |
LoRA r (solo per il metodo LoRA) |
La dimensione di attenzione (rank) delle matrici di aggiornamento. Una posizione inferiore nella classifica comporta matrici d'aggiornamento più piccole con una minore quantità di parametri addestrabili. | Numero intero compreso tra 1 e 64 | 8 |
LoRA alpha (solo per il metodo LoRA) |
Parametro alpha per la scala LoRA. Le matrici di peso LoRA vengono scalate dividendo LoRA alfa per LoRA r. Il parametro alpha definisce il peso LoRA, che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello. |
Numero intero compreso tra 1 e 128 | 8 |
LoRA dropout (solo per il metodo LoRA) |
La probabilità di eliminazione dei neuroni nei livelli LoRA. Il metodo di dropout impedisce l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di un livello. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere eliminato. |
Un numero decimale inferiore a 1 come percentuale, ad esempio 0,1 come percentuale 10%. | 0,1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeNell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti gli iperparametri utilizzati dall'AI generativa OCI per addestrare un modello di base meta.llama-3.1-70b-instruct con il metodo LoRA.
| Iperparametro | Descrizione | Intervallo valido | Valore predefinito |
|---|---|---|---|
| Totale epoche di addestramento | Numero di iterazioni dell'addestramento nell'intero set di dati di addestramento. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero set di dati di esempio una volta. |
1 o un numero intero superiore |
3 |
| Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0 |
| Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Numero intero compreso tra 8 e 16 | 8 |
| Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di arresto anticipato. L'allenamento si interrompe se la metrica delle perdite non migliora oltre la soglia di arresto anticipato per questo molte volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 15 |
| Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel prossimo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto precoce. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore viene reimpostato. | 0 o un numero positivo | 0 |
| Intervallo delle metriche del modello di log in passi | Il numero di passi per log. Vengono registrate metriche del modello quali la perdita di formazione e il tasso di apprendimento. Se la perdita d'addestramento non diminuisce come previsto, esaminare i dati di addestramento o la velocità di addestramento. | Preimpostato su 10 | 10 |
LoRA r (solo per il metodo LoRA) |
La dimensione di attenzione (rank) delle matrici di aggiornamento. Una posizione inferiore nella classifica comporta matrici d'aggiornamento più piccole con una minore quantità di parametri addestrabili. | Numero intero compreso tra 1 e 64 | 8 |
LoRA alpha (solo per il metodo LoRA) |
Parametro alpha per la scala LoRA. Le matrici di peso LoRA vengono scalate dividendo LoRA alfa per LoRA r. Il parametro alpha definisce il peso LoRA, che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello. |
Numero intero compreso tra 1 e 128 | 8 |
LoRA dropout (solo per il metodo LoRA) |
La probabilità di eliminazione dei neuroni nei livelli LoRA. Il metodo di dropout impedisce l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di un livello. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere eliminato. |
Un numero decimale inferiore a 1 come percentuale, ad esempio 0,1 come percentuale 10%. | 0,1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeNell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base meta.llama-3-70b-instruct (deprecato) con il metodo LoRA.
| Iperparametro | Descrizione | Intervallo valido | Valore predefinito |
|---|---|---|---|
| Totale epoche di addestramento | Numero di iterazioni dell'addestramento nell'intero set di dati di addestramento. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero set di dati di esempio una volta. |
1 o un numero intero superiore |
3 |
| Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0 e 1.0 | 0 |
| Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Numero intero compreso tra 8 e 16 | 8 |
| Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di arresto anticipato. L'allenamento si interrompe se la metrica delle perdite non migliora oltre la soglia di arresto anticipato per questo molte volte di valutazione. | 0 per disabilitare e 1 o un numero intero superiore per aggiungere un periodo di tolleranza | 15 |
| Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel prossimo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto precoce. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore viene reimpostato. | 0 o un numero positivo | 0 |
| Intervallo delle metriche del modello di log in passi | Il numero di passi per log. Vengono registrate metriche del modello quali la perdita di formazione e il tasso di apprendimento. Se la perdita d'addestramento non diminuisce come previsto, esaminare i dati di addestramento o la velocità di addestramento. | Preimpostato su 10 | 10 |
LoRA r (solo per il metodo LoRA) |
La dimensione di attenzione (rank) delle matrici di aggiornamento. Una posizione inferiore nella classifica comporta matrici d'aggiornamento più piccole con una minore quantità di parametri addestrabili. | Numero intero compreso tra 1 e 64 | 8 |
LoRA alpha (solo per il metodo LoRA) |
Parametro alpha per la scala LoRA. Le matrici di peso LoRA vengono scalate dividendo LoRA alfa per LoRA r. Il parametro alpha definisce il peso LoRA, che sono un numero inferiore di nuovi pesi e sono gli unici pesi addestrati nel modello. |
Numero intero compreso tra 1 e 128 | 8 |
LoRA dropout (solo per il metodo LoRA) |
La probabilità di eliminazione dei neuroni nei livelli LoRA. Il metodo di dropout impedisce l'overfitting ignorando casualmente (eliminando) i neuroni all'interno di un livello. Un calo del 10% significa che ogni neurone ha una probabilità del 10% di essere eliminato. |
Un numero decimale inferiore a 1 come percentuale, ad esempio 0,1 come percentuale 10%. | 0,1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeNell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti gli iperparametri utilizzati da OCI Generative AI per addestrare un modello di base cohere.command-r-16k (deprecato) con il metodo T-Few.
| Iperparametro | Descrizione | Intervallo valido | Valore predefinito |
|---|---|---|---|
| Totale epoche di addestramento | Numero di iterazioni dell'addestramento nell'intero set di dati di addestramento. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero set di dati di esempio una volta. |
Un numero intero compreso tra 1 e 10 |
1 |
| Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0.000005 e 0.1 | 0,01 |
| Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Numero intero compreso tra 8 e 32 | 16 |
| Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di arresto anticipato. L'allenamento si interrompe se la metrica delle perdite non migliora oltre la soglia di arresto anticipato per questo molte volte di valutazione. | 0 per disabilitare e un numero intero compreso tra 1 e 16 per aggiungere un periodo di tolleranza | 10 |
| Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel prossimo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto precoce. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore viene reimpostato. | Un numero compreso tra 0.001 e 0.1 | 0,001 |
| Intervallo delle metriche del modello di log in passi | Il numero di passi per log. Vengono registrate metriche del modello quali la perdita di formazione e il tasso di apprendimento. Se la perdita d'addestramento non diminuisce come previsto, esaminare i dati di addestramento o la velocità di addestramento. | Impossibile eseguire il tuning ed è impostato su 1. | 1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeNell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.Nella tabella seguente vengono descritti gli iperparametri utilizzati dall'AI generativa OCI per addestrare un modello di base cohere.command-r-16k con il metodo T-Few.
| Iperparametro | Descrizione | Intervallo valido | Valore predefinito |
|---|---|---|---|
| Totale epoche di addestramento | Numero di iterazioni dell'addestramento nell'intero set di dati di addestramento. Ad esempio, 1 epoch indica che il modello viene addestrato utilizzando l'intero set di dati di esempio una volta. |
Un numero intero compreso tra 1 e 10 |
1 |
| Velocità di apprendimento | La velocità con cui i pesi del modello vengono aggiornati rispetto al gradiente di errore. | Un numero compreso tra 0.000005 e 0.1 | 0,01 |
| Dimensione batch di addestramento | Il numero di campioni in un mini batch da esaminare prima di aggiornare i parametri del modello. | Numero intero compreso tra 8 e 32 | 16 |
| Pazienza prima di arresto anticipato | Definisce il numero di periodi di tolleranza per continuare il ciclo di valutazione dopo l'attivazione della soglia di arresto anticipato. L'allenamento si interrompe se la metrica delle perdite non migliora oltre la soglia di arresto anticipato per questo molte volte di valutazione. | 0 per disabilitare e un numero intero compreso tra 1 e 16 per aggiungere un periodo di tolleranza | 10 |
| Soglia prima di arresto anticipato | La perdita migliora quando diminuisce nel prossimo ciclo di allenamento. Se la perdita non migliora abbastanza, puoi interrompere l'allenamento. Definire il miglioramento minimo della perdita di valutazione che dovrebbe attivare il contatore di arresto precoce. Se la perdita non migliora oltre il valore minimo durante il periodo di pazienza, l'allenamento si interrompe. In caso contrario, la formazione continua e il contatore viene reimpostato. | Un numero compreso tra 0.001 e 0.1 | 0,001 |
| Intervallo delle metriche del modello di log in passi | Il numero di passi per log. Vengono registrate metriche del modello quali la perdita di formazione e il tasso di apprendimento. Se la perdita d'addestramento non diminuisce come previsto, esaminare i dati di addestramento o la velocità di addestramento. | Impossibile eseguire il tuning ed è impostato su 1. | 1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeNell'equazione precedente, il modello ignora alcuni calcoli di arrotondamento.