Données d'entraînement dans l'IA générative
Voici des directives pour la création de données d'entraînement pour l'affinage des modèles préentraînés dans OCI Generative AI. Un modèle personnalisé peut être affiné avec un seul ensemble de données, que le système divise automatiquement en données d'entraînement de 80 ⁇ % et de validation de 20 ⁇ %. L'ensemble de données doit être un fichier JSONL contenant au moins 32 paires invite/finalisation, chaque ligne au format suivant : {"prompt": "<your prompt>", "completion": "<expected response>"}. Enregistrez le fichier dans un bucket OCI Object Storage et référencez-le lors de la création du modèle personnalisé.
Exigences relatives aux jeux de données
Les jeux de données pour l'entraînement des modèles personnalisés ont les exigences suivantes :
- Un jeu de données de réglage fin au maximum est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement en un ratio de 80:20 pour l'entraînement et la validation.
- Chaque fichier doit avoir au moins 32 exemples de paires invite/finalisation.
- Le format de fichier est
JSONL. - Chaque ligne du fichier
JSONLa le format suivant :{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n - Le fichier doit être stocké dans un bucket OCI Object Storage.
Format JSONL
- A propos de
JSONL -
Un fichier
JSONLcontient une nouvelle valeur ou un nouvel objetJSONsur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichierJSONstandard. A la place, chaque ligne est traitée comme s'il s'agissait d'un fichierJSONdistinct. Ce format est idéal pour stocker un ensemble d'entrées au formatJSON.Le service OCI Generative AI accepte un fichier
JSONLpour l'affinage des modèles personnalisés au format suivant :{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . . - Exemple
JSONL
Assurez-vous que chaque fichier d'ensemble de données
JSONL que vous créez pour Generative AI dispose des propriétés suivantes : - Le fichier est encodé en
UTF-8. - Chaque ligne contient un objet
JSONvalide. - Chaque objet
JSONcomporte deux propriétés :"prompt"et"completion". - Chaque objet
JSONest saisi sur une nouvelle ligne ou suivi d'un caractère de retour à la ligne (\n).
Une fois le fichier JSONL créé, ajoutez votre ensemble de données à un bucket Object Storage.