Données d'entraînement dans l'IA générative
Voici des directives pour créer des données d'entraînement afin de régler avec précision les modèles préentraînés dans l'intelligence artificielle générative pour OCI. Un modèle personnalisé peut être affiné avec un seul jeu de données, que le système divise automatiquement en données d'entraînement 80 % et de validation 20 %. Le jeu de données doit être un fichier JSONL contenant au moins 32 paires invite/achèvement, chaque ligne formatée comme suit : {"prompt": "<your prompt>", "completion": "<expected response>"}
. Enregistrez le fichier dans un seau de stockage d'objets OCI et référencez-le lors de la création du modèle personnalisé.
Exigences relatives aux jeux de données
Les jeux de données pour l'entraînement de modèles personnalisés ont les exigences suivantes :
- Un maximum d'un jeu de données de réglage fin est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement en un ratio de 80:20 pour l'entraînement et la validation.
- Chaque fichier doit comporter au moins 32 exemples de paire invite/achèvement.
- Le format du fichier est
JSONL
. - Chaque ligne du fichier
JSONL
a le format suivant :{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Le fichier doit être stocké dans un seau de stockage d'objets OCI.
Format JSONL
- À propos de
JSONL
-
Un fichier
JSONL
contient une nouvelle valeur ou un nouvel objetJSON
sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichierJSON
standard. Au lieu de cela, chaque ligne est traitée comme s'il s'agissait d'un fichierJSON
distinct. Ce format est idéal pour stocker un jeu d'entrées au formatJSON
.Le service IA générative pour OCI accepte un fichier
JSONL
pour le réglage de précision des modèles personnalisés au format suivant :{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
- Exemple
JSONL
Assurez-vous que chaque fichier du jeu de données
JSONL
que vous créez pour l'IA générative possède les propriétés suivantes : - Le fichier est encodé en
UTF-8
. - Chaque ligne d'article contient un objet
JSON
valide. - Chaque objet
JSON
a deux propriétés :"prompt"
et"completion"
. - Chaque objet
JSON
est entré sur une nouvelle ligne ou suivi d'un caractère de nouvelle ligne (\n
).
Après avoir créé le fichier JSONL, ajoutez votre jeu de données à un seau de stockage d'objets.