Ajuste de hiperparámetros en la IA generativa

OCI Generative AI ajusta cada modelo base mediante los siguientes hiperparámetros, que se basan en el modelo base previamente entrenado.

Consejo

Empiece a entrenar cada modelo con sus valores de hiperparámetro por defecto. Después de crear el modelo, en la página de detalles del modelo, en Rendimiento del modelo, compruebe los valores de exactitud y pérdida. Si no está satisfecho con los resultados, cree otro modelo con un juego de datos más grande o con diferentes hiperparámetros hasta que mejore el rendimiento.
meta.llama-3.3-70b-instruct

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3.3-70b-instruct con el método LoRA.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 16 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 15
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. Valor predefinido en 10 10
LoRA r (solo para el método LoRA) Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultados matrices de actualización más pequeñas con menos parámetros que entrenar. Un número entero entre 1 y 64 8
LoRA alpha (solo para el método LoRA) Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define las ponderaciones de LoRA, que son menores de número y son las únicas que se entrenan en el modelo. Un número entero entre 1 y 128 8
LoRA dropout (solo para el método LoRA) La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (abandonar) las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. Un número decimal inferior a 1 para indicar el porcentaje, como 0,1 para indicar el 10% 0,1
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
meta.llama-3.1-70b-instruct

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3.1-70b-instruct con el método LoRA.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 16 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 15
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. Valor predefinido en 10 10
LoRA r (solo para el método LoRA) Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultados matrices de actualización más pequeñas con menos parámetros que entrenar. Un número entero entre 1 y 64 8
LoRA alpha (solo para el método LoRA) Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define las ponderaciones de LoRA, que son menores de número y son las únicas que se entrenan en el modelo. Un número entero entre 1 y 128 8
LoRA dropout (solo para el método LoRA) La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (abandonar) las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. Un número decimal inferior a 1 para indicar el porcentaje, como 0,1 para indicar el 10% 0,1
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
meta.llama-3-70b-instruct

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base meta.llama-3-70b-instruct (en desuso) con el método LoRA.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

1 o un entero mayor

3
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0 y 1.0 0
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 16 8
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y 1 o un entero superior para agregar un período de gracia 15
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. 0 o un número positivo 0
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. Valor predefinido en 10 10
LoRA r (solo para el método LoRA) Dimensión de atención (rango) de las matrices de actualización. Un rango inferior da como resultados matrices de actualización más pequeñas con menos parámetros que entrenar. Un número entero entre 1 y 64 8
LoRA alpha (solo para el método LoRA) Parámetro alpha para la escala LoRA. Las matrices de peso LoRA se escalan dividiendo LoRA alfa por LoRA r. El parámetro alpha define las ponderaciones de LoRA, que son menores de número y son las únicas que se entrenan en el modelo. Un número entero entre 1 y 128 8
LoRA dropout (solo para el método LoRA) La probabilidad de abandono de las neuronas en las capas LoRA. El método de abandono evita el sobreajuste al ignorar aleatoriamente (abandonar) las neuronas dentro de una capa. Un abandono del 10% significa que cada neurona tiene un 10% de probabilidad de ser abandonada. Un número decimal inferior a 1 para indicar el porcentaje, como 0,1 para indicar el 10% 0,1
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
cohere.command-r-16k (en desuso)

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base cohere.command-r-16k (en desuso) con el método T-Few.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

Un número entero entre 1 y 10

1
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0.000005 y 0.1 0,01
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 32 16
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia 10
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. Un número entre 0.001 y 0.1 0,001
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. No se puede ajustar y se define en 1. 1
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.
cohere.command-r-08-2024

En la siguiente tabla se describen los hiperparámetros que utiliza OCI Generative AI para entrenar un modelo base cohere.command-r-16k con el método T-Few.

hiperparámetro Descripción Rango válido Valor por defecto
Total de epochs de entrenamiento El número de veces que el entrenamiento itera en todo el conjunto de datos de entrenamiento. Por ejemplo, 1 epoch significa que el modelo se entrena utilizando todo el juego de datos de entrenamiento una vez.

Un número entero entre 1 y 10

1
Ratio de aprendizaje Velocidad de actualización de las ponderaciones del modelo con respecto al gradiente de error. Un número entre 0.000005 y 0.1 0,01
Tamaño de lote de entrenamiento Número de ejemplos de un minilote que consultar antes de actualizar los parámetros del modelo. Un número entero entre 8 y 32 16
Paciencia de detención temprana Define el número de períodos de gracia para continuar el ciclo de evaluación, después de que se dispare el umbral de detención temprana. El entrenamiento se detiene si la métrica de pérdida no mejora más allá del umbral de detención temprana para este número de veces de evaluación. 0 para desactivar y un entero entre 1 y 16 para agregar un período de gracia 10
Umbral de detención temprana La pérdida mejora cuando disminuye en el próximo ciclo de entrenamiento. Si la pérdida no mejora lo suficiente, puede detener el entrenamiento. Defina la mejora mínima de la pérdida de evaluación que debe activar el contador de detención temprana. Si la pérdida no mejora más allá del valor mínimo durante el período de paciencia, el entrenamiento se detiene. De lo contrario, el entrenamiento continúa y el contador se restablece. Un número entre 0.001 y 0.1 0,001
Registro del intervalo de métricas del modelo en pasos Número de pasos por registro. Se registran métricas de modelo como la pérdida de formación y la tasa de aprendizaje. Si la pérdida del entrenamiento no disminuye como se esperaba, revise los datos de entrenamiento o el ratio de entrenamiento. No se puede ajustar y se define en 1. 1
La siguiente ecuación muestra cómo calcula el modelo el parámetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
En la ecuación anterior, el modelo ignora algunos cálculos de redondeo.