Hiperparâmetros para Ajustar um Modelo na IA Generativa

A OCI Generative AI ajusta cada modelo base usando os seguintes hiperparâmetros, que são baseados no modelo base pré-treinado.

Dica

Comece a treinar cada modelo com seus valores de hiperparâmetro padrão. Depois que o modelo for criado, na página de detalhes do modelo, em Desempenho do Modelo, verifique os valores para precisão e perda. Se você não estiver satisfeito com os resultados, crie outro modelo com um conjunto de dados maior ou hiperparâmetros diferentes até que o desempenho melhore.
meta.llama-3.3-70b-instruct

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.3-70b-instruct com o método LoRA.

Hiperparâmetro Descrição Faixa Válida Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

1 ou um número inteiro maior

3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um inteiro entre 8 e 16 8
Paciência da parada antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância 15
Limite de parada antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. 0 ou um número positivo 0
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. Predefinir para 10 10
LoRA r (somente para o método LoRA) A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores com menos parâmetros treináveis. Um inteiro entre 1 e 64 8
LoRA alpha (somente para o método LoRA) O parâmetro alpha para dimensionamento LoRA. As matrizes de peso LoRA são dimensionadas dividindo LoRA alfa por LoRA r. O parâmetro alpha define os pesos LoRA, que são um número menor de novos pesos e são os únicos que são treinados no modelo. Um inteiro entre 1 e 128 8
LoRA dropout (Somente para o método LoRA) A probabilidade de abandono para neurônios nas camadas LoRA. O método de dropout impede o overfitting ignorando aleatoriamente (dropping out) neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de ser caído. Um número decimal menor que 1 para porcentagem, como 0,1 para 10% 0.1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
meta.llama-3.1-70b-instruct

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.1-70b-instruct com o método LoRA.

Hiperparâmetro Descrição Faixa Válida Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

1 ou um número inteiro maior

3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um inteiro entre 8 e 16 8
Paciência da parada antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância 15
Limite de parada antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. 0 ou um número positivo 0
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. Predefinir para 10 10
LoRA r (somente para o método LoRA) A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores com menos parâmetros treináveis. Um inteiro entre 1 e 64 8
LoRA alpha (somente para o método LoRA) O parâmetro alpha para dimensionamento LoRA. As matrizes de peso LoRA são dimensionadas dividindo LoRA alfa por LoRA r. O parâmetro alpha define os pesos LoRA, que são um número menor de novos pesos e são os únicos que são treinados no modelo. Um inteiro entre 1 e 128 8
LoRA dropout (Somente para o método LoRA) A probabilidade de abandono de neurônios nas camadas LoRA. O método de dropout impede o overfitting ignorando aleatoriamente os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. Um número decimal menor que 1 para porcentagem, como 0,1 para 10% 0.1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
meta.llama-3-70b-instrução

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3-70b-instruct (obsoleto) com o método LoRA.

Hiperparâmetro Descrição Faixa Válida Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

1 ou um número inteiro maior

3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um inteiro entre 8 e 16 8
Paciência da parada antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância 15
Limite de parada antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. 0 ou um número positivo 0
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. Predefinir para 10 10
LoRA r (somente para o método LoRA) A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores, com menos parâmetros treináveis. Um inteiro entre 1 e 64 8
LoRA alpha (somente para o método LoRA) O parâmetro alpha para dimensionamento LoRA. As matrizes de peso LoRA são dimensionadas dividindo LoRA alfa por LoRA r. O parâmetro alpha define os pesos LoRA, que são um número menor de novos pesos e são os únicos que são treinados no modelo. Um inteiro entre 1 e 128 8
LoRA dropout (Somente para o método LoRA) A probabilidade de abandono de neurônios nas camadas LoRA. O método de dropout impede o overfitting ignorando aleatoriamente os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. Um número decimal menor que 1 para a porcentagem, como 0,1 para 10% 0.1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
cohere.command-r-16k (obsoleto)

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base cohere.command-r-16k (obsoleto) com o método T-Few.

Hiperparâmetro Descrição Faixa Válida Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

Um inteiro entre 1 e 10

1
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0.00005 e 0.1 0.01
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um inteiro entre 8 e 32 16
Paciência da parada antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. 0 para desativar e um número inteiro entre 1 e 16 para adicionar um período de tolerância 10
Limite de parada antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. Um número entre 0.001 e 0.1 0.001
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. Não pode ser ajustado e está definido como 1. 1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
cohere.command-r-08-2024

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base cohere.command-r-16k com o método T-Few.

Hiperparâmetro Descrição Intervalo Válido Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

Um inteiro entre 1 e 10

1
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0.000005 e 0.1 0.01
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um inteiro entre 8 e 32 16
paciência do Early stop Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. 0 para desativar e um número inteiro entre 1 e 16 para adicionar um período de tolerância 10
Limite de Earlystop A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. Um número entre 0.001 e 0.1 0.001
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados de treinamento ou a taxa de treinamento. Não pode ser ajustado e está definido como 1. 1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
cohere.command (obsoleto)

A tabela a seguir descreve os hiperparâmetros que a OCI Generative AI usa para treinar o modelo base cohere.command (obsoleto) e exibe os valores padrão para os métodos T-Few e Vanilla.

Observação

O cohere.command só está disponível na região Centro-Oeste dos EUA (Chicago).
Hiperparâmetro Descrição Intervalo Válido Valor Padrão para Poucos T Valor Padrão para Baunilha
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

1 ou um número inteiro maior

3 3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0.01 0.00006 (6e-7)
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. 8 8 8
paciência do Early stop Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância 6 6
Limite de Earlystop A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. 0 ou um número positivo 0.01 0.01
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados de treinamento ou a taxa de treinamento. 0 para desativar e um número inteiro entre 1 e o total de etapas de treinamento a serem registradas. 10 10
Número das últimas camadas (somente para o método Vanilla) O número das últimas camadas a serem ajustadas no método Vanilla. Um inteiro entre 1 e 15 não aplicável 15
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
cohere.command-light (obsoleto)

A tabela a seguir descreve os hiperparâmetros que a OCI Generative AI usa para treinar o modelo base cohere.command-light (obsoleto) e exibe os valores padrão para os métodos T-Few e Vanilla.

Observação

O cohere.command-light só está disponível na região Centro-Oeste dos EUA (Chicago).
Hiperparâmetro Descrição Intervalo Válido Valor Padrão para Poucos T Valor Padrão para Baunilha
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.

1 ou um número inteiro maior

3 3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0.01 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um inteiro entre 8 e 16 16 16
paciência do Early stop Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para essas muitas vezes de avaliação. 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância 6 6
Limite de Earlystop A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. 0 ou um número positivo 0.01 0.01
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados de treinamento ou a taxa de treinamento. 0 para desativar e um número inteiro entre 1 e o total de etapas de treinamento a serem registradas. 10 10
Número das últimas camadas (somente para o método Vanilla) O número das últimas camadas a serem ajustadas no método Vanilla. Um inteiro entre 1 e 14 não aplicável 14
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.