Hiperparámetros para ajustar un modelo en la IA generativa

OCI Generative AI ajusta cada modelo base utilizando los siguientes hiperparámetros, que se basan en el modelo base preentrenado.

Consejo

Comience a entrenar cada modelo con sus valores de hiperparámetros por defecto. Después de crear el modelo, en la página de detalles del modelo, en Rendimiento del modelo, compruebe los valores de exactitud y pérdida. Si no está satisfecho con los resultados, cree otro modelo con un conjunto de datos más grande o con hiperparámetros diferentes hasta que mejore el rendimiento.

meta.llama-3.3-70b-instruct

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar un modelo base meta.llama-3.3-70b-instruct con el método LoRA.


hiperparámetro	Descripción	Rango válido	Valor por defecto
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.	1 o un entero mayor	3
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0 y 1.0	0
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	Un número entero entre 8 y 16	8
Paciencia de detención temprana	Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación.	0 para desactivar y 1 o un entero superior para agregar un período de gracia	15
Umbral de detención temprana	La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	0 o un número positivo	0
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación.	Valor predefinido en 10	10
`LoRA r` (solo para el método `LoRA`)	Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultado matrices de actualización más pequeñas con menos parámetros entrenables.	Un número entero entre 1 y 64	8
`LoRA alpha` (solo para el método `LoRA`)	Parámetro `alpha` para la escala `LoRA`. Las matrices de peso `LoRA` se escalan dividiendo `LoRA` alfa entre `LoRA r`. El parámetro `alpha` define los pesos `LoRA`, que son un número menor de pesos nuevos y son los únicos pesos entrenados en el modelo.	Un número entero entre 1 y 128	8
`LoRA dropout` (solo para el método `LoRA`)	La probabilidad de abandono de las neuronas en las capas `LoRA`. El método de abandono evita el sobreajuste al ignorar (abandonar) al azar las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada.	Número decimal menor que 1 para el porcentaje, como 0,1 para el 10 %	0,1

La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

meta.llama-3.1-70b-instruct

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar un modelo base meta.llama-3.1-70b-instruct con el método LoRA.


hiperparámetro	Descripción	Rango válido	Valor por defecto
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.	1 o un entero mayor	3
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0 y 1.0	0
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	Un número entero entre 8 y 16	8
Paciencia de detención temprana	Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación.	0 para desactivar y 1 o un entero superior para agregar un período de gracia	15
Umbral de detención temprana	La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	0 o un número positivo	0
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación.	Valor predefinido en 10	10
`LoRA r` (solo para el método `LoRA`)	Dimensión de atención (rango) de las matrices de actualización. Una clasificación inferior da como resultado matrices de actualización más pequeñas con menos parámetros entrenables.	Entero entre 1 y 64	8
`LoRA alpha` (solo para el método `LoRA`)	Parámetro `alpha` para la escala `LoRA`. Las matrices de peso `LoRA` se escalan dividiendo `LoRA` alfa por `LoRA r`. El parámetro `alpha` define los pesos `LoRA`, que son un número menor de pesos nuevos y son los únicos que se entrenan en el modelo.	Entero entre 1 y 128	8
`LoRA dropout` (solo para el método `LoRA`)	Probabilidad de abandono de las neuronas en las capas `LoRA`. El método de abandono evita el sobreajuste al ignorar aleatoriamente (eliminar) las neuronas dentro de una capa. Un 10% de abandono significa que cada neurona tiene un 10% de probabilidad de ser abandonada.	Un número decimal menor que 1 para el porcentaje, como 0,1 para el 10%	0,1

La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

meta.llama-3-70b-instruct

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3-70b-instruct (en desuso) con el método LoRA.


hiperparámetro	Descripción	Rango válido	Valor por defecto
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.	1 o un entero mayor	3
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0 y 1.0	0
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	Entero entre 8 y 16	8
Paciencia de detención temprana	Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación.	0 para desactivar y 1 o un entero superior para agregar un período de gracia	15
Umbral de detención temprana	La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	0 o un número positivo	0
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación.	Valor predefinido en 10	10
`LoRA r` (solo para el método `LoRA`)	Dimensión de atención (rango) de las matrices de actualización. Un rango más bajo da como resultado matrices de actualización más pequeñas con menos parámetros que entrenar.	Un número entero entre 1 y 64	8
`LoRA alpha` (solo para el método `LoRA`)	Parámetro `alpha` para la escala `LoRA`. Las matrices de peso `LoRA` se escalan dividiendo `LoRA` alfa por `LoRA r`. El parámetro `alpha` define los pesos `LoRA`, que son un número menor de pesos nuevos y son los únicos que se entrenan en el modelo.	Un número entero entre 1 y 128	8
`LoRA dropout` (solo para el método `LoRA`)	Probabilidad de abandono de las neuronas en las capas `LoRA`. El método de abandono evita el sobreajuste al ignorar aleatoriamente (eliminar) las neuronas dentro de una capa. Un 10% de abandono significa que cada neurona tiene un 10% de probabilidad de ser abandonada.	Un número decimal inferior a 1 para el porcentaje, como 0.1 para el 10%	0,1

La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

cohere.command-r-16k (en desuso)

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base cohere.command-r-16k (en desuso) con el método T-Few.


hiperparámetro	Descripción	Rango válido	Valor por defecto
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.	Un número entero entre 1 y 10	1
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0.000005 y 0.1	0,01
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	Un número entero entre 8 y 32	16
Paciencia de detención temprana	Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación.	0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia	10
Umbral de detención temprana	La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	Un número entre 0.001 y 0.1	0,001
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación.	No se puede ajustar y se define en 1.	1

La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

cohere.command-r-08-2024

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar un modelo base cohere.command-r-16k con el método T-Few.


hiperparámetro	Descripción	Rango válido	Valor por defecto
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.	Número entero entre 1 y 10	1
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0.000005 y 0.1	0,01
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	Entero entre 8 y 32	16
Paciencia de detención temprana	Define el número de períodos de gracia para continuar con el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se para si la métrica de pérdida no mejora por encima del umbral de detención temprana para este número de veces de evaluación.	0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia	10
Umbral de detención temprana	La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de pérdida de evaluación que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	Un número entre 0.001 y 0.1	0,001
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo, como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o la tasa de entrenamiento.	No se puede ajustar y está definido en 1.	1

La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

cohere.command (en desuso)

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar el modelo base cohere.command (en desuso) y muestra los valores por defecto para los métodos T-Few y Vanilla.

Nota

cohere.command solo está disponible en la región Medio oeste de EE. UU. (Chicago).


hiperparámetro	Descripción	Rango válido	Valor por defecto para T-Pocos	Valor por defecto para vainilla
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.	1 o un entero mayor	3	3
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0 y 1.0	0,01	0.0000006 (6e-7)
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	8	8	8
Paciencia de detención temprana	Define el número de períodos de gracia para continuar con el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se para si la métrica de pérdida no mejora por encima del umbral de detención temprana para este número de veces de evaluación.	0 para desactivar y 1 o un entero superior para agregar un período de gracia	6	6
Umbral de detención temprana	La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de pérdida de evaluación que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	0 o un número positivo	0,01	0,01
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo, como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o la tasa de entrenamiento.	0 para desactivar y un entero entre 1 y el total de pasos de entrenamiento para registrar.	10	10
Número de últimas capas (solo para el método `Vanilla`)	Número de últimas capas que ajustar en el método `Vanilla`.	Un número entero entre 1 y 15	no aplicable	15

La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

cohere.command-light (en desuso)

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar el modelo base cohere.command-light (en desuso) y muestra los valores por defecto para los métodos T-Few y Vanilla.

Nota

cohere.command-light solo está disponible en la región Medio oeste de EE. UU. (Chicago).


hiperparámetro	Descripción	Rango válido	Valor por defecto para T-Pocos	Valor por defecto para vainilla
Total de epochs de entrenamiento	Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 `epoch` significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.	1 o un entero mayor	3	3
Ratio de aprendizaje	Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error.	Un número entre 0 y 1.0	0,01	0
Tamaño de lote de entrenamiento	Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo.	Un número entero entre 8 y 16	16	16
Paciencia de detención temprana	Define el número de períodos de gracia para continuar con el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación.	0 para desactivar y 1 o un entero superior para agregar un período de gracia	6	6
Umbral de detención temprana	La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de pérdida de evaluación que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece.	0 o un número positivo	0,01	0,01
Registro del intervalo de métricas del modelo en pasos	Número de pasos por registro. Se registran métricas de modelo, como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o la tasa de entrenamiento.	0 para desactivar y un entero entre 1 y el total de pasos de entrenamiento para registrar.	10	10
Número de últimas capas (solo para el método `Vanilla`)	Número de últimas capas que ajustar en el método `Vanilla`.	Un número entero entre 1 y 14	no aplicable	14

La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize

En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.

Documentación de Oracle Cloud Infrastructure

Hiperparámetros para ajustar un modelo en la IA generativa