Hiperparâmetros para Ajustar um Modelo na IA Generativa
A OCI Generative AI ajusta cada modelo base usando os seguintes hiperparâmetros, que são baseados no modelo base pré-treinado.
Comece a treinar cada modelo com seus valores de hiperparâmetro padrão. Depois que o modelo for criado, na página de detalhes do modelo, em Desempenho do Modelo, verifique os valores para precisão e perda. Se você não estiver satisfeito com os resultados, crie outro modelo com um conjunto de dados maior ou hiperparâmetros diferentes até que o desempenho melhore.
A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.3-70b-instruct
com o método LoRA
.
Hiperparâmetro | Descrição | Faixa Válida | Valor Padrão |
---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
1 ou um número inteiro maior |
3 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0 e 1.0 | 0 |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | Um inteiro entre 8 e 16 | 8 |
Paciência da parada antecipada | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. | 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância | 15 |
Limite de parada antecipada | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. | 0 ou um número positivo | 0 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. | Predefinir para 10 | 10 |
LoRA r (somente para o método LoRA ) |
A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores com menos parâmetros treináveis. | Um inteiro entre 1 e 64 | 8 |
LoRA alpha (somente para o método LoRA ) |
O parâmetro alpha para dimensionamento LoRA . As matrizes de peso LoRA são dimensionadas dividindo LoRA alfa por LoRA r . O parâmetro alpha define os pesos LoRA , que são um número menor de novos pesos e são os únicos que são treinados no modelo. |
Um inteiro entre 1 e 128 | 8 |
LoRA dropout (Somente para o método LoRA ) |
A probabilidade de abandono para neurônios nas camadas LoRA . O método de dropout impede o overfitting ignorando aleatoriamente (dropping out) neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de ser caído. |
Um número decimal menor que 1 para porcentagem, como 0,1 para 10% | 0.1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.1-70b-instruct
com o método LoRA
.
Hiperparâmetro | Descrição | Faixa Válida | Valor Padrão |
---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
1 ou um número inteiro maior |
3 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0 e 1.0 | 0 |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | Um inteiro entre 8 e 16 | 8 |
Paciência da parada antecipada | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. | 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância | 15 |
Limite de parada antecipada | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. | 0 ou um número positivo | 0 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. | Predefinir para 10 | 10 |
LoRA r (somente para o método LoRA ) |
A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores com menos parâmetros treináveis. | Um inteiro entre 1 e 64 | 8 |
LoRA alpha (somente para o método LoRA ) |
O parâmetro alpha para dimensionamento LoRA . As matrizes de peso LoRA são dimensionadas dividindo LoRA alfa por LoRA r . O parâmetro alpha define os pesos LoRA , que são um número menor de novos pesos e são os únicos que são treinados no modelo. |
Um inteiro entre 1 e 128 | 8 |
LoRA dropout (Somente para o método LoRA ) |
A probabilidade de abandono de neurônios nas camadas LoRA . O método de dropout impede o overfitting ignorando aleatoriamente os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. |
Um número decimal menor que 1 para porcentagem, como 0,1 para 10% | 0.1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3-70b-instruct
(obsoleto) com o método LoRA
.
Hiperparâmetro | Descrição | Faixa Válida | Valor Padrão |
---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
1 ou um número inteiro maior |
3 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0 e 1.0 | 0 |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | Um inteiro entre 8 e 16 | 8 |
Paciência da parada antecipada | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. | 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância | 15 |
Limite de parada antecipada | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. | 0 ou um número positivo | 0 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. | Predefinir para 10 | 10 |
LoRA r (somente para o método LoRA ) |
A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores, com menos parâmetros treináveis. | Um inteiro entre 1 e 64 | 8 |
LoRA alpha (somente para o método LoRA ) |
O parâmetro alpha para dimensionamento LoRA . As matrizes de peso LoRA são dimensionadas dividindo LoRA alfa por LoRA r . O parâmetro alpha define os pesos LoRA , que são um número menor de novos pesos e são os únicos que são treinados no modelo. |
Um inteiro entre 1 e 128 | 8 |
LoRA dropout (Somente para o método LoRA ) |
A probabilidade de abandono de neurônios nas camadas LoRA . O método de dropout impede o overfitting ignorando aleatoriamente os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. |
Um número decimal menor que 1 para a porcentagem, como 0,1 para 10% | 0.1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base cohere.command-r-16k
(obsoleto) com o método T-Few
.
Hiperparâmetro | Descrição | Faixa Válida | Valor Padrão |
---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
Um inteiro entre 1 e 10 |
1 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0.00005 e 0.1 | 0.01 |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | Um inteiro entre 8 e 32 | 16 |
Paciência da parada antecipada | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. | 0 para desativar e um número inteiro entre 1 e 16 para adicionar um período de tolerância | 10 |
Limite de parada antecipada | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido. | Um número entre 0.001 e 0.1 | 0.001 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento. | Não pode ser ajustado e está definido como 1. | 1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base cohere.command-r-16k
com o método T-Few
.
Hiperparâmetro | Descrição | Intervalo Válido | Valor Padrão |
---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
Um inteiro entre 1 e 10 |
1 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0.000005 e 0.1 | 0.01 |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | Um inteiro entre 8 e 32 | 16 |
paciência do Early stop | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. | 0 para desativar e um número inteiro entre 1 e 16 para adicionar um período de tolerância | 10 |
Limite de Earlystop | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. | Um número entre 0.001 e 0.1 | 0.001 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados de treinamento ou a taxa de treinamento. | Não pode ser ajustado e está definido como 1. | 1 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.A tabela a seguir descreve os hiperparâmetros que a OCI Generative AI usa para treinar o modelo base cohere.command
(obsoleto) e exibe os valores padrão para os métodos T-Few
e Vanilla
.
O
cohere.command
só está disponível na região Centro-Oeste dos EUA (Chicago).Hiperparâmetro | Descrição | Intervalo Válido | Valor Padrão para Poucos T | Valor Padrão para Baunilha |
---|---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
1 ou um número inteiro maior |
3 | 3 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0 e 1.0 | 0.01 | 0.00006 (6e-7) |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | 8 | 8 | 8 |
paciência do Early stop | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações. | 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância | 6 | 6 |
Limite de Earlystop | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. | 0 ou um número positivo | 0.01 | 0.01 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados de treinamento ou a taxa de treinamento. | 0 para desativar e um número inteiro entre 1 e o total de etapas de treinamento a serem registradas. | 10 | 10 |
Número das últimas camadas (somente para o método Vanilla ) |
O número das últimas camadas a serem ajustadas no método Vanilla . |
Um inteiro entre 1 e 15 | não aplicável | 15 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.A tabela a seguir descreve os hiperparâmetros que a OCI Generative AI usa para treinar o modelo base cohere.command-light
(obsoleto) e exibe os valores padrão para os métodos T-Few
e Vanilla
.
O
cohere.command-light
só está disponível na região Centro-Oeste dos EUA (Chicago).Hiperparâmetro | Descrição | Intervalo Válido | Valor Padrão para Poucos T | Valor Padrão para Baunilha |
---|---|---|---|---|
Total de épocas de treinamento | O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento. |
1 ou um número inteiro maior |
3 | 3 |
Taxa de aprendizado | A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. | Um número entre 0 e 1.0 | 0.01 | 0 |
Tamanho do batch de treinamento | O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. | Um inteiro entre 8 e 16 | 16 | 16 |
paciência do Early stop | Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para essas muitas vezes de avaliação. | 0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância | 6 | 6 |
Limite de Earlystop | A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. | 0 ou um número positivo | 0.01 | 0.01 |
Intervalo de métricas do modelo de log em etapas | O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados de treinamento ou a taxa de treinamento. | 0 para desativar e um número inteiro entre 1 e o total de etapas de treinamento a serem registradas. | 10 | 10 |
Número das últimas camadas (somente para o método Vanilla ) |
O número das últimas camadas a serem ajustadas no método Vanilla . |
Um inteiro entre 1 e 14 | não aplicável | 14 |
totalTrainingSteps
.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.