Données d'entraînement dans l'IA générative

Voici des directives pour la création de données d'entraînement pour l'affinage des modèles préentraînés dans OCI Generative AI. Un modèle personnalisé peut être affiné avec un seul ensemble de données, que le système divise automatiquement en données d'entraînement de 80 ⁇ % et de validation de 20 ⁇ %. L'ensemble de données doit être un fichier JSONL contenant au moins 32 paires invite/finalisation, chaque ligne au format suivant : {"prompt": "<your prompt>", "completion": "<expected response>"}. Enregistrez le fichier dans un bucket OCI Object Storage et référencez-le lors de la création du modèle personnalisé.

Exigences relatives aux jeux de données

Les jeux de données pour l'entraînement des modèles personnalisés ont les exigences suivantes :

  • Un jeu de données de réglage fin au maximum est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement en un ratio de 80:20 pour l'entraînement et la validation.
  • Chaque fichier doit avoir au moins 32 exemples de paires invite/finalisation.
  • Le format de fichier est JSONL.
  • Chaque ligne du fichier JSONL a le format suivant :

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • Le fichier doit être stocké dans un bucket OCI Object Storage.

Format JSONL

A propos de JSONL

Un fichier JSONL contient une nouvelle valeur ou un nouvel objet JSON sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichier JSON standard. A la place, chaque ligne est traitée comme s'il s'agissait d'un fichier JSON distinct. Ce format est idéal pour stocker un ensemble d'entrées au format JSON.

Le service OCI Generative AI accepte un fichier JSONL pour l'affinage des modèles personnalisés au format suivant :

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
Exemple JSONL
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Remarque

Assurez-vous que chaque fichier d'ensemble de données JSONL que vous créez pour Generative AI dispose des propriétés suivantes :
  • Le fichier est encodé en UTF-8.
  • Chaque ligne contient un objet JSON valide.
  • Chaque objet JSON comporte deux propriétés : "prompt" et "completion".
  • Chaque objet JSON est saisi sur une nouvelle ligne ou suivi d'un caractère de retour à la ligne (\n).

Après avoir créé le fichier JSONL, ajoutez votre ensemble de données à un bucket Object Storage.