Exigences en matière de données d'entraînement dans le service d'intelligence artificielle générative

Découvrez les directives de création de données d'entraînement pour le réglage fin des modèles préentraînés dans l'IA générative OCI.

Les modèles personnalisés acceptent un seul fichier de jeu de données d'entraînement au format JSONL (JSON Lines). Le fichier doit comporter au minimum 32 paires invite/résultat par fichier. Ce jeu de données est réparti aléatoirement sur un ratio de 80:20 pour l'entraînement et la validation. Le nombre de phrases du fichier d'entraînement n'est pas limité, mais l'entraînement des jeux de données volumineux prend plus de temps.

À propos de JSONL

Un fichier JSONL contient une nouvelle valeur ou un nouvel objet JSON sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichier JSON standard. Au lieu de cela, chaque ligne est traitée comme s'il s'agissait d'un fichier JSON distinct. Ce format est idéal pour stocker un jeu d'entrées au format JSON.

Le service IA générative pour OCI accepte un fichier JSONL pour le réglage de précision des modèles personnalisés au format suivant :

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
Exemple JSONL
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Note

Assurez-vous que chaque fichier du jeu de données JSONL que vous créez pour l'IA générative possède les propriétés suivantes :
  • Le fichier est encodé en UTF-8.
  • Chaque ligne d'article contient un objet JSON valide.
  • Chaque objet JSON a deux propriétés : "prompt" et "completion".
  • Chaque objet JSON est entré sur une nouvelle ligne ou suivi d'un caractère de nouvelle ligne (\n).

Après avoir créé le fichier JSONL, ajoutez votre jeu de données à un seau de stockage d'objets.