Données d'entraînement dans l'IA générative
Voici des directives pour la création de données d'entraînement pour l'affinage des modèles préentraînés dans OCI Generative AI. Un modèle personnalisé peut être affiné avec un seul ensemble de données, que le système divise automatiquement en données d'entraînement de 80 ⁇ % et de validation de 20 ⁇ %. L'ensemble de données doit être un fichier JSONL contenant au moins 32 paires invite/finalisation, chaque ligne au format suivant : {"prompt": "<your prompt>", "completion": "<expected response>"}
. Enregistrez le fichier dans un bucket OCI Object Storage et référencez-le lors de la création du modèle personnalisé.
Exigences relatives aux jeux de données
Les jeux de données pour l'entraînement des modèles personnalisés ont les exigences suivantes :
- Un jeu de données de réglage fin au maximum est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement en un ratio de 80:20 pour l'entraînement et la validation.
- Chaque fichier doit avoir au moins 32 exemples de paires invite/finalisation.
- Le format de fichier est
JSONL
. - Chaque ligne du fichier
JSONL
a le format suivant :{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Le fichier doit être stocké dans un bucket OCI Object Storage.
Format JSONL
- A propos de
JSONL
-
Un fichier
JSONL
contient une nouvelle valeur ou un nouvel objetJSON
sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichierJSON
standard. A la place, chaque ligne est traitée comme s'il s'agissait d'un fichierJSON
distinct. Ce format est idéal pour stocker un ensemble d'entrées au formatJSON
.Le service OCI Generative AI accepte un fichier
JSONL
pour l'affinage des modèles personnalisés au format suivant :{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
- Exemple
JSONL
Assurez-vous que chaque fichier d'ensemble de données
JSONL
que vous créez pour Generative AI dispose des propriétés suivantes : - Le fichier est encodé en
UTF-8
. - Chaque ligne contient un objet
JSON
valide. - Chaque objet
JSON
comporte deux propriétés :"prompt"
et"completion"
. - Chaque objet
JSON
est saisi sur une nouvelle ligne ou suivi d'un caractère de retour à la ligne (\n
).
Après avoir créé le fichier JSONL, ajoutez votre ensemble de données à un bucket Object Storage.