Hyperparamètres de réglage fin dans le service d'intelligence artificielle générative

OCI Generative AI affine chaque modèle de base à l'aide des hyperparamètres suivants, qui sont basés sur le modèle de base préentraîné.

Conseil

Commencez à entraîner chaque modèle avec ses valeurs d'hyperparamètre par défaut. Une fois le modèle créé, dans la page de détails du modèle, sous Performance du modèle, vérifiez les valeurs Exactitude et perte. Si les résultats ne vous conviennent pas, créez un autre modèle avec un jeu de données plus volumineux ou des hyperparamètres différents jusqu'à ce que les performances s'améliorent.

meta.llama-3.3-70b-instruct

Le tableau suivant décrit les hyperparamètres utilisés par l'intelligence artificielle générative pour OCI pour entraîner un modèle de base meta.llama-3.3-70b-instruct avec la méthode LoRA.


Hyperparamètre	Description	Intervalle valide	Valeur par défaut
Nombre total d'époques d'entraînement	Nombre d'itérations de l'entraînement sur l'ensemble du jeu de données d'entraînement. Par exemple, 1 `epoch` signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble du jeu de données d'entraînement.	1 ou un nombre entier supérieur	3
Fréquence d'apprentissage	Vitesse à laquelle les pondérations du modèle sont mises à jour par rapport au gradient d'erreur.	Nombre compris entre 0 et 1.0	0
Taille de lot d'entraînement	Nombre d'échantillons dans un mini-lot à traiter avant la mise à jour des paramètres du modèle.	Un nombre entier compris entre 8 et 16	8
Patience avant arrêt précoce	Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt précoce pour ce nombre d'évaluations.	0 pour désactiver et 1 ou un nombre entier supérieur pour ajouter un délai de grâce	15
Seuil d'arrêt précoce	La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définissez l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt précoce. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise.	0 ou un nombre positif	0
Intervalle d'enregistrement des mesures du modèle en étapes	Nombre d'étapes par journalisation. Les mesures du modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte d'entraînement ne diminue pas comme prévu, vérifiez les données d'entraînement ou le taux d'entraînement.	Prédéfini à 10	10
`LoRA r` (pour la méthode `LoRA` uniquement)	Dimension d'attention (rang) des matrices de mise à jour. Un rang inférieur entraîne des matrices de mise à jour plus petites avec moins de paramètres entraînables.	Un nombre entier compris entre 1 et 64	8
`LoRA alpha` (pour la méthode `LoRA` uniquement)	Paramètre `alpha` pour l'ajustement de `LoRA`. Les matrices de poids `LoRA` sont mises à l'échelle en divisant `LoRA` alpha par `LoRA r`. Le paramètre `alpha` définit les pondérations `LoRA`, qui sont un plus petit nombre de nouvelles pondérations et sont les seules pondérations entraînées dans le modèle.	Un nombre entier compris entre 1 et 128	8
`LoRA dropout` (pour la méthode `LoRA` uniquement)	Probabilité d'abandon des neurones dans les couches `LoRA`. La méthode d'abandon empêche le surajustement en ignorant (supprimant) aléatoirement les neurones à l'intérieur d'une couche. Un abandon de 10% signifie que chaque neurone a 10% de chance d'être abandonné.	Nombre décimal inférieur à 1 pour le pourcentage, par exemple 0,1 pour 10 %	0.1