Hiperparâmetros de Ajuste na IA Generativa

A OCI Generative AI ajusta cada modelo base usando os hiperparâmetros a seguir, que se baseiam no modelo base pré-treinado.

Dica

Comece a treinar cada modelo com seus valores de hiperparâmetro padrão. Após a criação do modelo, na página de detalhes do modelo, em Desempenho do Modelo, verifique os valores para precisão e perda. Se você não estiver satisfeito com os resultados, crie outro modelo com um conjunto de dados maior ou diferentes hiperparâmetros até que o desempenho melhore.
meta.llama-3.3-70b-instruir

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.3-70b-instruct com o método LoRA.

Hiperparâmetro Descrição Intervalo Válido Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado usando todo o conjunto de dados de treinamento uma vez.

1 ou um número inteiro superior

3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um número inteiro entre 8 e 16 8
paciência de interrupção antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, após o acionamento do limite de interrupção antecipada. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para muitas vezes a avaliação. 0 para desativar e 1 ou um inteiro maior para adicionar um período de tolerância 15
Limite de interrupção antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima de perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. 0 ou um número positivo 0
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda do treinamento não estiver diminuindo conforme esperado, analise os dados do treinamento ou o índice de treinamento. Predefinir para 10 10
LoRA r (somente para o método LoRA) A dimensão atenção (classificação) das matrizes de atualização. Uma classificação inferior resulta em matrizes de atualização menores com menos parâmetros treináveis. Um número inteiro entre 1 e 64 8
LoRA alpha (somente para o método LoRA) O parâmetro alpha para dimensionamento de LoRA. As matrizes de peso LoRA são escalonadas dividindo LoRA alfa por LoRA r. O parâmetro alpha define os pesos LoRA, que são um número menor de novos pesos e são os únicos que são treinados no modelo. Um número inteiro entre 1 e 128 8
LoRA dropout (Somente para o método LoRA) A probabilidade de abandono de neurônios nas camadas LoRA. O método evita o overfitting ignorando aleatoriamente (descartando) os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. Um número decimal menor que 1 para porcentagem, como 0,1 para 10% 0,1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
meta.llama-3.1-70b-instruct

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.1-70b-instruct com o método LoRA.

Hiperparâmetro Descrição Intervalo Válido Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado usando todo o conjunto de dados de treinamento uma vez.

1 ou um número inteiro maior

3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um número inteiro entre 8 e 16 8
paciência de interrupção antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, após o acionamento do limite de interrupção antecipada. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para muitas vezes a avaliação. 0 para desativar e 1 ou um inteiro maior para adicionar um período de tolerância 15
Limite de interrupção antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima de perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. 0 ou um número positivo 0
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda do treinamento não estiver diminuindo conforme esperado, analise os dados do treinamento ou o índice de treinamento. Predefinir para 10 10
LoRA r (somente para o método LoRA) A dimensão atenção (classificação) das matrizes de atualização. Uma classificação inferior resulta em matrizes de atualização menores com menos parâmetros treináveis. Um número inteiro entre 1 e 64 8
LoRA alpha (somente para o método LoRA) O parâmetro alpha para dimensionamento de LoRA. As matrizes de peso LoRA são escalonadas dividindo LoRA alfa por LoRA r. O parâmetro alpha define os pesos LoRA, que são um número menor de novos pesos e são os únicos que são treinados no modelo. Um número inteiro entre 1 e 128 8
LoRA dropout (Somente para o método LoRA) A probabilidade de abandono de neurônios nas camadas LoRA. O método evita o overfitting ignorando aleatoriamente (descartando) os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. Um número decimal menor que 1 para porcentagem, como 0,1 para 10% 0,1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
meta.llama-3-70b-instru

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3-70b-instruct (obsoleto) com o método LoRA.

Hiperparâmetro Descrição Intervalo Válido Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado usando todo o conjunto de dados de treinamento uma vez.

1 ou um número inteiro maior

3
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0 e 1.0 0
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um número inteiro entre 8 e 16 8
paciência de interrupção antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, após o acionamento do limite de interrupção antecipada. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para muitas vezes a avaliação. 0 para desativar e 1 ou um inteiro maior para adicionar um período de tolerância 15
Limite de interrupção antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima de perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. 0 ou um número positivo 0
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda do treinamento não estiver diminuindo conforme esperado, analise os dados do treinamento ou o índice de treinamento. Predefinir para 10 10
LoRA r (somente para o método LoRA) A dimensão atenção (classificação) das matrizes de atualização. Uma classificação inferior resulta em matrizes de atualização menores com menos parâmetros treináveis. Um número inteiro entre 1 e 64 8
LoRA alpha (somente para o método LoRA) O parâmetro alpha para dimensionamento de LoRA. As matrizes de peso LoRA são escalonadas dividindo LoRA alfa por LoRA r. O parâmetro alpha define os pesos LoRA, que são um número menor de novos pesos e são os únicos que são treinados no modelo. Um número inteiro entre 1 e 128 8
LoRA dropout (Somente para o método LoRA) A probabilidade de abandono de neurônios nas camadas LoRA. O método evita o overfitting ignorando aleatoriamente (descartando) os neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de cair. Um número decimal menor que 1 para porcentagem, como 0,1 para 10% 0,1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
cohere.command-r-16k (obsoleto)

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base cohere.command-r-16k (obsoleto) com o método T-Few.

Hiperparâmetro Descrição Intervalo Válido Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado usando todo o conjunto de dados de treinamento uma vez.

Um número inteiro entre 1 e 10

1
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0.000005 e 0.1 0,01
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um número inteiro entre 8 e 32 16
paciência de interrupção antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, após o acionamento do limite de interrupção antecipada. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para muitas vezes a avaliação. 0 para desativar e um número inteiro entre 1 e 16 para adicionar um período de tolerância 10
Limite de interrupção antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima de perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. Um número entre 0.001 e 0.1 0,001
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda do treinamento não estiver diminuindo conforme esperado, analise os dados do treinamento ou o índice de treinamento. Não pode ser ajustado e está definido como 1. 1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.
cohere.command-r-08-2024

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base cohere.command-r-16k com o método T-Few.

Hiperparâmetro Descrição Intervalo Válido Valor Padrão
Total de épocas de treinamento O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 epoch significa que o modelo é treinado usando todo o conjunto de dados de treinamento uma vez.

Um número inteiro entre 1 e 10

1
Taxa de aprendizado A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro. Um número entre 0.000005 e 0.1 0,01
Tamanho do batch de treinamento O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo. Um número inteiro entre 8 e 32 16
paciência de interrupção antecipada Define o número de períodos de tolerância para continuar o ciclo de avaliação, após o acionamento do limite de interrupção antecipada. O treinamento será interrompido se a métrica de perda não melhorar além do limite de interrupção antecipada para muitas vezes a avaliação. 0 para desativar e um número inteiro entre 1 e 16 para adicionar um período de tolerância 10
Limite de interrupção antecipada A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima de perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continua e o contador é redefinido. Um número entre 0.001 e 0.1 0,001
Intervalo de métricas do modelo de log em etapas O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizado, são registradas. Se a perda do treinamento não estiver diminuindo conforme esperado, analise os dados do treinamento ou o índice de treinamento. Não pode ser ajustado e está definido como 1. 1
A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Na equação anterior, o modelo ignora alguns cálculos de arredondamento.