Exigences relatives aux données d'entraînement dans Generative AI
Comprendre les directives relatives à la création de données d'entraînement pour affiner les modèles préentraînés dans OCI Generative AI.
Les modèles personnalisés acceptent un seul fichier d'ensemble de données d'entraînement au format JSONL (JSON Lines)
. Le fichier doit comporter au moins 32 exemples de paire invite/achèvement par fichier. Cet ensemble de données est divisé aléatoirement en un rapport de 80:20 pour la formation et la validation. Aucun nombre maximal de phrases n'est défini pour le fichier d'entraînement mais l'entraînement est plus long pour les ensembles de données volumineux.
- A propos de
JSONL
-
Un fichier
JSONL
contient une nouvelle valeur ou un nouvel objetJSON
sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichierJSON
standard. A la place, chaque ligne est traitée comme s'il s'agissait d'un fichierJSON
distinct. Ce format est idéal pour stocker un ensemble d'entrées au formatJSON
.Le service OCI Generative AI accepte un fichier
JSONL
pour l'affinage des modèles personnalisés au format suivant :{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
- Exemple
JSONL
Assurez-vous que chaque fichier d'ensemble de données
JSONL
que vous créez pour Generative AI dispose des propriétés suivantes : - Le fichier est encodé en
UTF-8
. - Chaque ligne contient un objet
JSON
valide. - Chaque objet
JSON
comporte deux propriétés :"prompt"
et"completion"
. - Chaque objet
JSON
est saisi sur une nouvelle ligne ou suivi d'un caractère de retour à la ligne (\n
).
Après avoir créé le fichier JSONL, ajoutez votre ensemble de données à un bucket Object Storage.