Ajuste de hiperparámetros en la IA generativa
OCI Generative AI ajusta cada modelo base mediante los siguientes hiperparámetros, que se basan en el modelo base previamente entrenado.
Empiece a entrenar cada modelo con sus valores de hiperparámetro por defecto. Después de crear el modelo, en la página de detalles del modelo, en Rendimiento del modelo, compruebe los valores de exactitud y pérdida. Si no está satisfecho con los resultados, cree otro modelo con un juego de datos más grande o con diferentes hiperparámetros hasta que mejore el rendimiento.
En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3.3-70b-instruct con el método LoRA.
| hiperparámetro | Descripción | Rango válido | Valor por defecto |
|---|---|---|---|
| Total de epochs de entrenamiento | El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez. |
1 o un entero mayor |
3 |
| Ratio de aprendizaje | Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. | Un número entre 0 y 1.0 | 0 |
| Tamaño de lote de entrenamiento | Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. | Un número entero entre 8 y 16 | 8 |
| Paciencia de detención temprana | Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. | 0 para desactivar y 1 o un entero superior para agregar un período de gracia | 15 |
| Umbral de detención temprana | La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. | 0 o un número positivo | 0 |
| Registro del intervalo de métricas del modelo en pasos | Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. | Valor predefinido en 10 | 10 |
LoRA r (solo para el método LoRA) |
Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultados matrices de actualización más pequeñas con menos parámetros que entrenar. | Un número entero entre 1 y 64 | 8 |
LoRA alpha (solo para el método LoRA) |
Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define las ponderaciones de LoRA, que son menores de número y son las únicas que se entrenan en el modelo. |
Un número entero entre 1 y 128 | 8 |
LoRA dropout (solo para el método LoRA) |
La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (abandonar) las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. |
Un número decimal inferior a 1 para indicar el porcentaje, como 0,1 para indicar el 10% | 0,1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeEn la ecuación anterior, el modelo ignora algunos cálculos de redondeo.En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3.1-70b-instruct con el método LoRA.
| hiperparámetro | Descripción | Rango válido | Valor por defecto |
|---|---|---|---|
| Total de epochs de entrenamiento | El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez. |
1 o un entero mayor |
3 |
| Ratio de aprendizaje | Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. | Un número entre 0 y 1.0 | 0 |
| Tamaño de lote de entrenamiento | Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. | Un número entero entre 8 y 16 | 8 |
| Paciencia de detención temprana | Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. | 0 para desactivar y 1 o un entero superior para agregar un período de gracia | 15 |
| Umbral de detención temprana | La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. | 0 o un número positivo | 0 |
| Registro del intervalo de métricas del modelo en pasos | Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. | Valor predefinido en 10 | 10 |
LoRA r (solo para el método LoRA) |
Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultados matrices de actualización más pequeñas con menos parámetros que entrenar. | Un número entero entre 1 y 64 | 8 |
LoRA alpha (solo para el método LoRA) |
Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define las ponderaciones de LoRA, que son menores de número y son las únicas que se entrenan en el modelo. |
Un número entero entre 1 y 128 | 8 |
LoRA dropout (solo para el método LoRA) |
La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (abandonar) las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. |
Un número decimal inferior a 1 para indicar el porcentaje, como 0,1 para indicar el 10% | 0,1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeEn la ecuación anterior, el modelo ignora algunos cálculos de redondeo.En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3-70b-instruct (en desuso) con el método LoRA.
| hiperparámetro | Descripción | Rango válido | Valor por defecto |
|---|---|---|---|
| Total de epochs de entrenamiento | El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez. |
1 o un entero mayor |
3 |
| Ratio de aprendizaje | Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. | Un número entre 0 y 1.0 | 0 |
| Tamaño de lote de entrenamiento | Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. | Un número entero entre 8 y 16 | 8 |
| Paciencia de detención temprana | Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. | 0 para desactivar y 1 o un entero superior para agregar un período de gracia | 15 |
| Umbral de detención temprana | La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. | 0 o un número positivo | 0 |
| Registro del intervalo de métricas del modelo en pasos | Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. | Valor predefinido en 10 | 10 |
LoRA r (solo para el método LoRA) |
Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultados matrices de actualización más pequeñas con menos parámetros que entrenar. | Un número entero entre 1 y 64 | 8 |
LoRA alpha (solo para el método LoRA) |
Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define las ponderaciones de LoRA, que son menores de número y son las únicas que se entrenan en el modelo. |
Un número entero entre 1 y 128 | 8 |
LoRA dropout (solo para el método LoRA) |
La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (abandonar) las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. |
Un número decimal inferior a 1 para indicar el porcentaje, como 0,1 para indicar el 10% | 0,1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeEn la ecuación anterior, el modelo ignora algunos cálculos de redondeo.En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base cohere.command-r-16k (en desuso) con el método T-Few.
| hiperparámetro | Descripción | Rango válido | Valor por defecto |
|---|---|---|---|
| Total de epochs de entrenamiento | El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez. |
Un número entero entre 1 y 10 |
1 |
| Ratio de aprendizaje | Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. | Un número entre 0.000005 y 0.1 | 0,01 |
| Tamaño de lote de entrenamiento | Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. | Un número entero entre 8 y 32 | 16 |
| Paciencia de detención temprana | Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. | 0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia | 10 |
| Umbral de detención temprana | La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. | Un número entre 0.001 y 0.1 | 0,001 |
| Registro del intervalo de métricas del modelo en pasos | Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. | No se puede ajustar y se define en 1. | 1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeEn la ecuación anterior, el modelo ignora algunos cálculos de redondeo.En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base cohere.command-r-16k con el método T-Few.
| hiperparámetro | Descripción | Rango válido | Valor por defecto |
|---|---|---|---|
| Total de epochs de entrenamiento | El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez. |
Un número entero entre 1 y 10 |
1 |
| Ratio de aprendizaje | Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. | Un número entre 0.000005 y 0.1 | 0,01 |
| Tamaño de lote de entrenamiento | Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. | Un número entero entre 8 y 32 | 16 |
| Paciencia de detención temprana | Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. | 0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia | 10 |
| Umbral de detención temprana | La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. | Un número entre 0.001 y 0.1 | 0,001 |
| Registro del intervalo de métricas del modelo en pasos | Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. | No se puede ajustar y se define en 1. | 1 |
totalTrainingSteps.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSizeEn la ecuación anterior, el modelo ignora algunos cálculos de redondeo.