Exigences en matière de données d'entraînement dans le service d'intelligence artificielle générative
Découvrez les directives de création de données d'entraînement pour le réglage fin des modèles préentraînés dans l'IA générative OCI.
Les modèles personnalisés acceptent un seul fichier de jeu de données d'entraînement au format JSONL (JSON Lines)
. Le fichier doit comporter au minimum 32 paires invite/résultat par fichier. Ce jeu de données est réparti aléatoirement sur un ratio de 80:20 pour l'entraînement et la validation. Le nombre de phrases du fichier d'entraînement n'est pas limité, mais l'entraînement des jeux de données volumineux prend plus de temps.
- À propos de
JSONL
-
Un fichier
JSONL
contient une nouvelle valeur ou un nouvel objetJSON
sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichierJSON
standard. Au lieu de cela, chaque ligne est traitée comme s'il s'agissait d'un fichierJSON
distinct. Ce format est idéal pour stocker un jeu d'entrées au formatJSON
.Le service IA générative pour OCI accepte un fichier
JSONL
pour le réglage de précision des modèles personnalisés au format suivant :{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
- Exemple
JSONL
Assurez-vous que chaque fichier du jeu de données
JSONL
que vous créez pour l'IA générative possède les propriétés suivantes : - Le fichier est encodé en
UTF-8
. - Chaque ligne d'article contient un objet
JSON
valide. - Chaque objet
JSON
a deux propriétés :"prompt"
et"completion"
. - Chaque objet
JSON
est entré sur une nouvelle ligne ou suivi d'un caractère de nouvelle ligne (\n
).
Après avoir créé le fichier JSONL, ajoutez votre jeu de données à un seau de stockage d'objets.