Exigences relatives aux données d'entraînement dans Generative AI

Découvrez les directives de création de données d'entraînement pour affiner les modèles préentraînés dans OCI Generative AI.

Les modèles personnalisés acceptent un seul fichier d'ensemble de données d'entraînement au format JSONL (JSON Lines). Le fichier doit comporter au moins 32 exemples de paire invite/achèvement par fichier. Cet ensemble de données est divisé aléatoirement en un rapport de 80:20 pour la formation et la validation. Aucun nombre maximal de phrases n'est défini pour le fichier d'entraînement mais l'entraînement est plus long pour les ensembles de données volumineux.

A propos de JSONL

Un fichier JSONL contient une nouvelle valeur ou un nouvel objet JSON sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichier JSON standard. A la place, chaque ligne est traitée comme s'il s'agissait d'un fichier JSON distinct. Ce format est idéal pour stocker un ensemble d'entrées au format JSON.

Le service OCI Generative AI accepte un fichier JSONL pour l'affinage des modèles personnalisés au format suivant :

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
Exemple JSONL
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Remarque

Assurez-vous que chaque fichier d'ensemble de données JSONL que vous créez pour Generative AI dispose des propriétés suivantes :
  • Le fichier est encodé en UTF-8.
  • Chaque ligne contient un objet JSON valide.
  • Chaque objet JSON comporte deux propriétés : "prompt" et "completion".
  • Chaque objet JSON est saisi sur une nouvelle ligne ou suivi d'un caractère de retour à la ligne (\n).

Une fois le fichier JSONL créé, ajoutez l'ensemble de données à un bucket Object Storage.