Hyperparamètres de réglage fin dans le service d'intelligence artificielle générative

OCI Generative AI affine chaque modèle de base à l'aide des hyperparamètres suivants, qui sont basés sur le modèle de base préentraîné.

Conseil

Commencez à entraîner chaque modèle avec ses valeurs d'hyperparamètre par défaut. Une fois le modèle créé, dans la page de détails du modèle, sous Performance du modèle, vérifiez les valeurs Exactitude et perte. Si les résultats ne vous conviennent pas, créez un autre modèle avec un jeu de données plus volumineux ou des hyperparamètres différents jusqu'à ce que les performances s'améliorent.
meta.llama-3.3-70b-instruct

Le tableau suivant décrit les hyperparamètres utilisés par l'intelligence artificielle générative pour OCI pour entraîner un modèle de base meta.llama-3.3-70b-instruct avec la méthode LoRA.

Hyperparamètre Description Intervalle valide Valeur par défaut
Nombre total d'époques d'entraînement Nombre d'itérations de l'entraînement sur l'ensemble du jeu de données d'entraînement. Par exemple, 1 epoch signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble du jeu de données d'entraînement.

1 ou un nombre entier supérieur

3
Fréquence d'apprentissage Vitesse à laquelle les pondérations du modèle sont mises à jour par rapport au gradient d'erreur. Nombre compris entre 0 et 1.0 0
Taille de lot d'entraînement Nombre d'échantillons dans un mini-lot à traiter avant la mise à jour des paramètres du modèle. Un nombre entier compris entre 8 et 16 8
Patience avant arrêt précoce Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt précoce pour ce nombre d'évaluations. 0 pour désactiver et 1 ou un nombre entier supérieur pour ajouter un délai de grâce 15
Seuil d'arrêt précoce La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définissez l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt précoce. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise. 0 ou un nombre positif 0
Intervalle d'enregistrement des mesures du modèle en étapes Nombre d'étapes par journalisation. Les mesures du modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte d'entraînement ne diminue pas comme prévu, vérifiez les données d'entraînement ou le taux d'entraînement. Prédéfini à 10 10
LoRA r (pour la méthode LoRA uniquement) Dimension d'attention (rang) des matrices de mise à jour. Un rang inférieur entraîne des matrices de mise à jour plus petites avec moins de paramètres entraînables. Un nombre entier compris entre 1 et 64 8
LoRA alpha (pour la méthode LoRA uniquement) Paramètre alpha pour l'ajustement de LoRA. Les matrices de poids LoRA sont mises à l'échelle en divisant LoRA alpha par LoRA r. Le paramètre alpha définit les pondérations LoRA, qui sont un plus petit nombre de nouvelles pondérations et sont les seules pondérations entraînées dans le modèle. Un nombre entier compris entre 1 et 128 8
LoRA dropout (pour la méthode LoRA uniquement) Probabilité d'abandon des neurones dans les couches LoRA. La méthode d'abandon empêche le surajustement en ignorant (supprimant) aléatoirement les neurones à l'intérieur d'une couche. Un abandon de 10% signifie que chaque neurone a 10% de chance d'être abandonné. Nombre décimal inférieur à 1 pour le pourcentage, par exemple 0,1 pour 10 % 0.1
L'équation suivante montre comment le modèle calcule le paramètre totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Dans l'équation précédente, le modèle ignore certains calculs d'arrondissement.
meta.llama-3.1-70b-instruct

Le tableau suivant décrit les hyperparamètres utilisés par l'intelligence artificielle générative OCI pour entraîner un modèle de base meta.llama-3.1-70b-instruct avec la méthode LoRA.

Hyperparamètre Description Intervalle valide Valeur par défaut
Nombre total d'époques d'entraînement Nombre d'itérations de l'entraînement sur l'ensemble du jeu de données d'entraînement. Par exemple, 1 epoch signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble du jeu de données d'entraînement.

1 ou un nombre entier supérieur

3
Fréquence d'apprentissage Vitesse à laquelle les pondérations du modèle sont mises à jour par rapport au gradient d'erreur. Nombre compris entre 0 et 1.0 0
Taille de lot d'entraînement Nombre d'échantillons dans un mini-lot à traiter avant la mise à jour des paramètres du modèle. Un nombre entier compris entre 8 et 16 8
Patience avant arrêt précoce Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt précoce pour ce nombre d'évaluations. 0 pour désactiver et 1 ou un nombre entier supérieur pour ajouter un délai de grâce 15
Seuil d'arrêt précoce La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définissez l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt précoce. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise. 0 ou un nombre positif 0
Intervalle d'enregistrement des mesures du modèle en étapes Nombre d'étapes par journalisation. Les mesures du modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte d'entraînement ne diminue pas comme prévu, vérifiez les données d'entraînement ou le taux d'entraînement. Prédéfini à 10 10
LoRA r (pour la méthode LoRA uniquement) Dimension d'attention (rang) des matrices de mise à jour. Un rang inférieur entraîne des matrices de mise à jour plus petites avec moins de paramètres entraînables. Un nombre entier compris entre 1 et 64 8
LoRA alpha (pour la méthode LoRA uniquement) Paramètre alpha pour l'ajustement de LoRA. Les matrices de poids LoRA sont mises à l'échelle en divisant LoRA alpha par LoRA r. Le paramètre alpha définit les pondérations LoRA, qui sont un plus petit nombre de nouvelles pondérations et sont les seules pondérations entraînées dans le modèle. Un nombre entier compris entre 1 et 128 8
LoRA dropout (pour la méthode LoRA uniquement) Probabilité d'abandon des neurones dans les couches LoRA. La méthode d'abandon empêche le surajustement en ignorant (supprimant) aléatoirement les neurones à l'intérieur d'une couche. Un abandon de 10% signifie que chaque neurone a 10% de chance d'être abandonné. Nombre décimal inférieur à 1 pour le pourcentage, par exemple 0,1 pour 10 % 0.1
L'équation suivante montre comment le modèle calcule le paramètre totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Dans l'équation précédente, le modèle ignore certains calculs d'arrondissement.
meta.llama-3-70b-instruire

Le tableau suivant décrit les hyperparamètres utilisés par l'intelligence artificielle générative pour OCI pour entraîner un modèle de base meta.llama-3-70b-instruct (obsolète) avec la méthode LoRA.

Hyperparamètre Description Intervalle valide Valeur par défaut
Nombre total d'époques d'entraînement Nombre d'itérations de l'entraînement sur l'ensemble du jeu de données d'entraînement. Par exemple, 1 epoch signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble du jeu de données d'entraînement.

1 ou un nombre entier supérieur

3
Fréquence d'apprentissage Vitesse à laquelle les pondérations du modèle sont mises à jour par rapport au gradient d'erreur. Nombre compris entre 0 et 1.0 0
Taille de lot d'entraînement Nombre d'échantillons dans un mini-lot à traiter avant la mise à jour des paramètres du modèle. Un nombre entier compris entre 8 et 16 8
Patience avant arrêt précoce Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt précoce pour ce nombre d'évaluations. 0 pour désactiver et 1 ou un nombre entier supérieur pour ajouter un délai de grâce 15
Seuil d'arrêt précoce La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définissez l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt précoce. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise. 0 ou un nombre positif 0
Intervalle d'enregistrement des mesures du modèle en étapes Nombre d'étapes par journalisation. Les mesures du modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte d'entraînement ne diminue pas comme prévu, vérifiez les données d'entraînement ou le taux d'entraînement. Prédéfini à 10 10
LoRA r (pour la méthode LoRA uniquement) Dimension d'attention (rang) des matrices de mise à jour. Un rang inférieur produit des matrices de mise à jour plus petites avec moins de paramètres entraînables. Nombre entier compris entre 1 et 64 8
LoRA alpha (pour la méthode LoRA uniquement) Paramètre alpha pour l'ajustement LoRA. Les matrices de pondération LoRA sont mises à l'échelle en divisant LoRA alpha par LoRA r. Le paramètre alpha définit les pondérations LoRA, qui sont un nombre inférieur de nouvelles pondérations et sont les seules à être entraînées dans le modèle. Nombre entier compris entre 1 et 128 8
LoRA dropout (Pour la méthode LoRA uniquement) Probabilité d'abandon pour les neurones dans les couches LoRA. La méthode d'abandon empêche le surajustement en ignorant aléatoirement (supprimant) les neurones dans une couche. Une baisse de 10% signifie que chaque neurone a 10% de chance d'être abandonné. Nombre décimal inférieur à 1 pour le pourcentage, par exemple 0,1 pour 10 0.1
L'équation suivante montre comment le modèle calcule le paramètre totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Dans l'équation précédente, le modèle ignore certains calculs d'arrondissement.
cohere.command-r-16k (obsolète)

Le tableau suivant décrit les hyperparamètres utilisés par l'intelligence artificielle générative pour OCI pour entraîner un modèle de base cohere.command-r-16k (obsolète) avec la méthode T-Few.

Hyperparamètre Description Intervalle valide Valeur par défaut
Nombre total d'époques d'entraînement Nombre d'itérations de l'entraînement sur l'ensemble du jeu de données d'entraînement. Par exemple, 1 epoch signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble du jeu de données d'entraînement.

Un nombre entier compris entre 1 et 10

1
Fréquence d'apprentissage Vitesse à laquelle les pondérations du modèle sont mises à jour par rapport au gradient d'erreur. Nombre compris entre 0.00005 et 0.1 0.01
Taille de lot d'entraînement Nombre d'échantillons dans un mini-lot à traiter avant la mise à jour des paramètres du modèle. Un nombre entier compris entre 8 et 32 16
Patience avant arrêt précoce Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt précoce pour ce nombre d'évaluations. 0 pour désactiver et un nombre entier compris entre 1 et 16 pour ajouter un délai de grâce 10
Seuil d'arrêt précoce La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définissez l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt précoce. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise. Nombre compris entre 0.001 et 0.1 0.001
Intervalle d'enregistrement des mesures du modèle en étapes Nombre d'étapes par journalisation. Les mesures du modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte d'entraînement ne diminue pas comme prévu, vérifiez les données d'entraînement ou le taux d'entraînement. Ne peut pas être réglé et est réglé à 1. 1
L'équation suivante montre comment le modèle calcule le paramètre totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Dans l'équation précédente, le modèle ignore certains calculs d'arrondissement.
cohere.command-r-08-2024

Le tableau suivant décrit les hyperparamètres utilisés par l'intelligence artificielle générative OCI pour entraîner un modèle de base cohere.command-r-16k avec la méthode T-Few.

Hyperparamètre Description Intervalle valide Par défaut
Nombre total d'époques d'entraînement Nombre d'itérations de l'entraînement sur l'ensemble du jeu de données d'entraînement. Par exemple, 1 epoch signifie que le modèle est entraîné une seule fois à l'aide de l'ensemble du jeu de données d'entraînement.

Un nombre entier compris entre 1 et 10

1
Fréquence d'apprentissage Vitesse à laquelle les pondérations du modèle sont mises à jour par rapport au gradient d'erreur. Nombre compris entre 0.000005 et 0.1 0.01
Taille de lot d'entraînement Nombre d'échantillons dans un mini-lot à traiter avant la mise à jour des paramètres du modèle. Un nombre entier compris entre 8 et 32 16
Patience avant arrêt précoce Définit le nombre de périodes de grâce pour poursuivre le cycle d'évaluation, après le déclenchement du seuil d'arrêt anticipé. L'entraînement s'arrête si la mesure de perte ne s'améliore pas au-delà du seuil d'arrêt précoce pour ce nombre d'évaluations. 0 pour désactiver et un nombre entier compris entre 1 et 16 pour ajouter un délai de grâce 10
Seuil d'arrêt précoce La perte s'améliore lorsqu'elle diminue au cours du prochain cycle d'entraînement. Si la perte ne s'améliore pas assez, vous pouvez arrêter l'entraînement. Définissez l'amélioration minimale de la perte d'évaluation qui devrait déclencher le compteur d'arrêt précoce. Si la perte ne s'améliore pas au-delà de la valeur minimale pendant la période de patience, l'entraînement s'arrête. Sinon, l'entraînement se poursuit et le compteur se réinitialise. Nombre compris entre 0.001 et 0.1 0.001
Intervalle d'enregistrement des mesures du modèle en étapes Nombre d'étapes par journalisation. Les mesures du modèle telles que la perte d'entraînement et le taux d'apprentissage sont consignées. Si la perte d'entraînement ne diminue pas comme prévu, vérifiez les données d'entraînement ou le taux d'entraînement. Ne peut pas être réglé et est réglé à 1. 1
L'équation suivante montre comment le modèle calcule le paramètre totalTrainingSteps.
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
Dans l'équation précédente, le modèle ignore certains calculs d'arrondissement.