Hiperparâmetros de Ajuste na IA Generativa

A OCI Generative AI ajusta cada modelo base usando os hiperparâmetros a seguir, que se baseiam no modelo base pré-treinado.

Dica

Comece a treinar cada modelo com seus valores de hiperparâmetro padrão. Após a criação do modelo, na página de detalhes do modelo, em Desempenho do Modelo, verifique os valores para precisão e perda. Se você não estiver satisfeito com os resultados, crie outro modelo com um conjunto de dados maior ou diferentes hiperparâmetros até que o desempenho melhore.

meta.llama-3.3-70b-instruct

A tabela a seguir descreve os hiperparâmetros que o OCI Generative AI usa para treinar um modelo base meta.llama-3.3-70b-instruct com o método LoRA.


Hiperparâmetro	Descrição	Faixa Válida	Valor Padrão
Total de épocas de treinamento	O número de vezes que o treinamento itera em todo o conjunto de dados de treinamento. Por exemplo, 1 `epoch` significa que o modelo é treinado uma vez usando todo o conjunto de dados de treinamento.	1 ou um número inteiro maior	3
Taxa de aprendizado	A velocidade na qual os pesos do modelo são atualizados em relação ao gradiente de erro.	Um número entre 0 e 1.0	0
Tamanho do batch de treinamento	O número de amostras em um minibatch a serem analisadas antes de atualizar os parâmetros do modelo.	Um inteiro entre 8 e 16	8
Paciência da parada antecipada	Define o número de períodos de tolerância para continuar o ciclo de avaliação, depois que o limite de interrupção antecipada é acionado. O treinamento será interrompido se a métrica de perda não melhorar além do limite de parada antecipada para esse número de avaliações.	0 para desativar e 1 ou um número inteiro superior para adicionar um período de tolerância	15
Limite de parada antecipada	A perda melhora quando diminui no próximo ciclo de treinamento. Se a perda não melhorar o suficiente, você pode parar o treinamento. Defina a melhoria mínima da perda de avaliação que deve acionar o contador de parada antecipada. Se a perda não melhorar além do valor mínimo durante o período de paciência, o treinamento para. Caso contrário, o treinamento continuará e o contador será redefinido.	0 ou um número positivo	0
Intervalo de métricas do modelo de log em etapas	O número de etapas por log. Métricas de modelo, como perda de treinamento e taxa de aprendizagem, são registradas. Se a perda de treinamento não estiver diminuindo conforme o esperado, revise os dados ou a taxa de treinamento.	Predefinir para 10	10
`LoRA r` (somente para o método `LoRA`)	A dimensão de atenção (classificação) das matrizes de atualização. Uma classificação mais baixa resulta em matrizes de atualização menores com menos parâmetros treináveis.	Um inteiro entre 1 e 64	8
`LoRA alpha` (somente para o método `LoRA`)	O parâmetro `alpha` para dimensionamento `LoRA`. As matrizes de peso `LoRA` são dimensionadas dividindo `LoRA` alfa por `LoRA r`. O parâmetro `alpha` define os pesos `LoRA`, que são um número menor de novos pesos e são os únicos que são treinados no modelo.	Um inteiro entre 1 e 128	8
`LoRA dropout` (Somente para o método `LoRA`)	A probabilidade de abandono para neurônios nas camadas `LoRA`. O método de dropout impede o overfitting ignorando aleatoriamente (dropping out) neurônios dentro de uma camada. Uma queda de 10% significa que cada neurônio tem uma chance de 10% de ser caído.	Um número decimal menor que 1 para porcentagem, como 0,1 para 10%	0.1

A equação a seguir mostra como o modelo calcula o parâmetro totalTrainingSteps.

totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize