Choisir une méthode de réglage fin dans l'IA générative

Lorsque vous créez un modèle personnalisé, OCI Generative AI affine les modèles de base préentraînés à l'aide d'une méthode qui correspond au modèle de base.

Important

Certains modèles préentraînés de base OCI Generative AI pris en charge pour le mode de service dédié sont désormais en phase d'abandon et le seront au plus tôt 6 mois après la publication du 1er modèle de remplacement. Vous pouvez affiner et héberger un modèle de base préentraîné sur un cluster d'IA dédié (mode de service dédié) jusqu'à ce que ce modèle soit abandonné. Pour connaître les dates de retrait du mode de service dédié, reportez-vous à la section Retrait des modèles.

Le tableau suivant répertorie la méthode utilisée par Generative AI pour entraîner chaque type de modèle de base :

Modèle de base préentraîné Méthode de formation
cohere.command-r-16k
  • T-Few
meta.llama-3.1-70b-instruct
  • LoRA
cohere.command (en phase d'abandon)
  • T-Few
  • Vanilla
cohere.command-light (en phase d'abandon)
  • T-Few
  • Vanilla
meta.llama-3-70b-instruct (obsolète prochainement)
  • LoRA
Remarque

Pour plus d'informations sur les hyperparamètres utilisés pour chaque méthode d'entraînement, reportez-vous à Hyperparamètres pour le réglage fin d'un modèle dans l'IA générative.

Choisir entre T-Few et Vanilla

Pour les modèles cohere.command et cohere.command-light, OCI Generative AI propose deux méthodes d'entraînement : T-Few et Vanilla. Suivez les instructions ci-après pour choisir la meilleure méthode de formation pour vos cas d'emploi.

Caractéristique Options et recommandations
Méthodes de formation pour cohere.command et cohere.command-light
  • T-Few
  • Vanilla
Taille de l'ensemble de données
  • Utilisez T-Few pour les petits ensembles de données (quelques milliers d'échantillons ou moins)
  • Utiliser Vanilla pour les ensembles de données volumineux (de cent mille échantillons à des millions d'échantillons)

L'utilisation de petits ensembles de données pour la méthode Vanilla peut entraîner un surajustement. Le surajustement se produit lorsque le modèle entraîné donne d'excellents résultats pour les données d'entraînement, mais ne peut pas généraliser les sorties pour les données invisibles.

Complexité
  • Utilisez T-Few pour formater les éléments suivants ou les instructions suivantes.
  • Utilisez Vanilla pour améliorer la compréhension sémantique, par exemple pour améliorer la compréhension des cas médicaux par un modèle.
Hébergement
  • Utilisez T-Few si vous prévoyez d'héberger plusieurs modèles affinés sur le même cluster d'IA dédié à l'hébergement. Si tous les modèles sont entraînés sur le même modèle de base, vous pouvez les héberger sur le même cluster. Cette fonctionnalité de service empilé permet d'économiser des coûts et offre de bonnes performances si le trafic utilisateur vers chaque modèle affiné T-Few est relativement faible. Reportez-vous à Ajout d'adresses à des clusters d'hébergement.
  • Chaque modèle affiné à la méthode Vanilla nécessite son propre cluster d'IA dédié à l'hébergement.