Hiperparámetros para ajustar un modelo en la IA generativa

OCI Generative AI ajusta cada modelo base utilizando los siguientes hiperparámetros, que se basan en el modelo base preentrenado.

Consejo

Comience a entrenar cada modelo con sus valores de hiperparámetros por defecto. Después de crear el modelo, en la página de detalles del modelo, en Rendimiento del modelo, compruebe los valores de exactitud y pérdida. Si no está satisfecho con los resultados, cree otro modelo con un conjunto de datos más grande o con hiperparámetros diferentes hasta que mejore el rendimiento.
meta.llama-3.3-70b-instruct

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar un modelo base meta.llama-3.3-70b-instruct con el método LoRA.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 16 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 15
Umbral de detención temprana La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación. Valor predefinido en 10 10
LoRA r (solo para el método LoRA) Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultado matrices de actualización más pequeñas con menos parámetros entrenables. Un número entero entre 1 y 64 8
LoRA alpha (solo para el método LoRA) Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa entre LoRA r. El parámetro alpha define los pesos LoRA, que son un número menor de pesos nuevos y son los únicos pesos entrenados en el modelo. Un número entero entre 1 y 128 8
LoRA dropout (solo para el método LoRA) La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar (abandonar) al azar las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. Número decimal menor que 1 para el porcentaje, como 0,1 para el 10 % 0,1
La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
meta.llama-3.1-70b-instruct

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar un modelo base meta.llama-3.1-70b-instruct con el método LoRA.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 16 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 15
Umbral de detención temprana La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación. Valor predefinido en 10 10
LoRA r (solo para el método LoRA) Dimensión de atención (rango) de las matrices de actualización. Una clasificación inferior da como resultado matrices de actualización más pequeñas con menos parámetros entrenables. Entero entre 1 y 64 8
LoRA alpha (solo para el método LoRA) Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define los pesos LoRA, que son un número menor de pesos nuevos y son los únicos que se entrenan en el modelo. Entero entre 1 y 128 8
LoRA dropout (solo para el método LoRA) Probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (eliminar) las neuronas dentro de una capa. Un 10% de abandono significa que cada neurona tiene un 10% de probabilidad de ser abandonada. Un número decimal menor que 1 para el porcentaje, como 0,1 para el 10% 0,1
La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
meta.llama-3-70b-instruct

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3-70b-instruct (en desuso) con el método LoRA.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Entero entre 8 y 16 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 15
Umbral de detención temprana La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación. Valor predefinido en 10 10
LoRA r (solo para el método LoRA) Dimensión de atención (rango) de las matrices de actualización. Un rango más bajo da como resultado matrices de actualización más pequeñas con menos parámetros que entrenar. Un número entero entre 1 y 64 8
LoRA alpha (solo para el método LoRA) Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define los pesos LoRA, que son un número menor de pesos nuevos y son los únicos que se entrenan en el modelo. Un número entero entre 1 y 128 8
LoRA dropout (solo para el método LoRA) Probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (eliminar) las neuronas dentro de una capa. Un 10% de abandono significa que cada neurona tiene un 10% de probabilidad de ser abandonada. Un número decimal inferior a 1 para el porcentaje, como 0.1 para el 10% 0,1
La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
cohere.command-r-16k (en desuso)

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base cohere.command-r-16k (en desuso) con el método T-Few.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena mediante todo el juego de datos de entrenamiento una vez.

Un número entero entre 1 y 10

1
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0.000005 y 0.1 0,01
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 32 16
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de disparar el umbral de parada anticipada. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación. 0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia 10
Umbral de detención temprana La pérdida mejora cuando disminuye en el siguiente ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora de pérdida de evaluación mínima que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. Un número entre 0.001 y 0.1 0,001
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de formación no disminuye como se esperaba, revise los datos de formación o el porcentaje de formación. No se puede ajustar y se define en 1. 1
La siguiente ecuación muestra cómo el modelo calcula el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
cohere.command-r-08-2024

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar un modelo base cohere.command-r-16k con el método T-Few.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

Número entero entre 1 y 10

1
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0.000005 y 0.1 0,01
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Entero entre 8 y 32 16
Paciencia de detención temprana Define el número de períodos de gracia para continuar con el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se para si la métrica de pérdida no mejora por encima del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia 10
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de pérdida de evaluación que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. Un número entre 0.001 y 0.1 0,001
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo, como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o la tasa de entrenamiento. No se puede ajustar y está definido en 1. 1
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
cohere.command (en desuso)

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar el modelo base cohere.command (en desuso) y muestra los valores por defecto para los métodos T-Few y Vanilla.

Nota

cohere.command solo está disponible en la región Medio oeste de EE. UU. (Chicago).
hiperparámetro Descripción Rango válido Valor por defecto para T-Pocos Valor por defecto para vainilla
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3 3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0,01 0.0000006 (6e-7)
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. 8 8 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar con el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se para si la métrica de pérdida no mejora por encima del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 6 6
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de pérdida de evaluación que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0,01 0,01
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo, como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o la tasa de entrenamiento. 0 para desactivar y un entero entre 1 y el total de pasos de entrenamiento para registrar. 10 10
Número de últimas capas (solo para el método Vanilla) Número de últimas capas que ajustar en el método Vanilla. Un número entero entre 1 y 15 no aplicable 15
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
cohere.command-light (en desuso)

En la siguiente tabla se describen los hiperparámetros que OCI Generative AI utiliza para entrenar el modelo base cohere.command-light (en desuso) y muestra los valores por defecto para los métodos T-Few y Vanilla.

Nota

cohere.command-light solo está disponible en la región Medio oeste de EE. UU. (Chicago).
hiperparámetro Descripción Rango válido Valor por defecto para T-Pocos Valor por defecto para vainilla
Total de epochs de entrenamiento Número de veces que el entrenamiento itera a través de todo el juego de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3 3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0,01 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 16 16 16
Paciencia de detención temprana Define el número de períodos de gracia para continuar con el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para estas muchas veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 6 6
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de pérdida de evaluación que debe activar el contador de parada temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0,01 0,01
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo, como la pérdida de entrenamiento y la tasa de aprendizaje. Si la pérdida de entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o la tasa de entrenamiento. 0 para desactivar y un entero entre 1 y el total de pasos de entrenamiento para registrar. 10 10
Número de últimas capas (solo para el método Vanilla) Número de últimas capas que ajustar en el método Vanilla. Un número entero entre 1 y 14 no aplicable 14
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.