Affinage des hyperparamètres dans l'IA générative

OCI Generative AI affine chaque modèle de base à l'aide des hyperparamètres suivants, qui sont basés sur le modèle de base préentraîné.

Conseil

Commencez à entraîner chaque modèle avec ses valeurs d'hyperparamètre par défaut. Une fois le modèle créé, sur la page de détails du modèle, sous Performances du modèle, vérifiez la précision et la perte des valeurs. Si vous n'êtes pas satisfait des résultats, créez un autre modèle avec un ensemble de données plus grand ou des hyperparamètres différents jusqu'à ce que les performances s'améliorent.

meta.llama-3.3-70b-formateur

Le tableau suivant décrit les hyperparamètres utilisés par OCI Generative AI pour entraîner un modèle de base meta.llama-3.3-70b-instruct avec la méthode LoRA.


Hyperparamètre	Description	Plage valide	Valeur par défaut
Nombre total de périodes d'entraînement	Nombre d'itérations de l'entraînement avec l'ensemble de données d'entraînement complet. Par exemple, 1 valeur (`epoch`) signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble de données d'entraînement complet.	1 ou un entier supérieur	3
Taux d'apprentissage	Vitesse de mise à jour des pondérations du modèle par rapport au gradient d'erreur.	Un nombre compris entre 0 et 1.0	0
Taille de batch d'entraînement	Nombre d'échantillons d'un mini batch par lesquels passer avant de mettre à jour les paramètres du modèle.	Nombre entier compris entre 8 et 16	8
Patience d'arrêt anticipé	Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt anticipé pour ce nombre d'évaluations.	0 pour désactiver et 1 entier ou plus pour ajouter un délai de grâce	15
Seuil d'arrêt anticipé	La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définir l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt anticipé. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise.	0 ou un nombre positif	0
Intervalle de mesures de modèle de journal dans les étapes	Nombre d'étapes par journalisation. Les mesures de modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte de formation ne diminue pas comme prévu, examinez les données de formation ou le taux de formation.	Valeur prédéfinie : 10	10
`LoRA r` (pour la méthode `LoRA` uniquement)	Dimension d'attention (rang) des matrices de mise à jour. Un rang inférieur se traduit par des matrices de mise à jour plus petites avec moins de paramètres entraînables.	Un entier compris entre 1 et 64	8
`LoRA alpha` (pour la méthode `LoRA` uniquement)	Paramètre `alpha` pour le redimensionnement `LoRA`. Les matrices de poids `LoRA` sont mises à l'échelle en divisant `LoRA` alpha par `LoRA r`. Le paramètre `alpha` définit les pondérations `LoRA`, qui sont un plus petit nombre de nouvelles pondérations et sont les seules à être entraînées dans le modèle.	Nombre entier compris entre 1 et 128	8
`LoRA dropout` (pour la méthode `LoRA` uniquement)	La probabilité d'abandon des neurones dans les couches `LoRA`. La méthode d'abandon permet d'éviter le surajustement en ignorant aléatoirement les neurones d'une couche. Un abandon de 10% signifie que chaque neurone a 10% de chances d'être abandonné.	Nombre décimal inférieur à 1 pour le pourcentage, par exemple 0,1 pour 10 %	0,1