Données d'entraînement dans l'IA générative

Voici des directives pour créer des données d'entraînement afin de régler avec précision les modèles préentraînés dans l'intelligence artificielle générative pour OCI. Un modèle personnalisé peut être affiné avec un seul jeu de données, que le système divise automatiquement en données d'entraînement 80 % et de validation 20 %. Le jeu de données doit être un fichier JSONL contenant au moins 32 paires invite/achèvement, chaque ligne formatée comme suit : {"prompt": "<your prompt>", "completion": "<expected response>"}. Enregistrez le fichier dans un seau de stockage d'objets OCI et référencez-le lors de la création du modèle personnalisé.

Exigences relatives aux jeux de données

Les jeux de données pour l'entraînement de modèles personnalisés ont les exigences suivantes :

Un maximum d'un jeu de données de réglage fin est autorisé par modèle personnalisé. Ce jeu de données est divisé aléatoirement en un ratio de 80:20 pour l'entraînement et la validation.
Chaque fichier doit comporter au moins 32 exemples de paire invite/achèvement.
Le format du fichier est JSONL.
Chaque ligne du fichier JSONL a le format suivant :
{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
Le fichier doit être stocké dans un seau de stockage d'objets OCI.

Format JSONL

À propos de JSONL

Un fichier JSONL contient une nouvelle valeur ou un nouvel objet JSON sur chaque ligne. Le fichier n'est pas évalué dans son ensemble, comme un fichier JSON standard. Au lieu de cela, chaque ligne est traitée comme s'il s'agissait d'un fichier JSON distinct. Ce format est idéal pour stocker un jeu d'entrées au format JSON.

Le service IA générative pour OCI accepte un fichier JSONL pour le réglage de précision des modèles personnalisés au format suivant :

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.

Exemple JSONL

{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}

Note

Veillez à ce que chaque fichier du jeu de données JSONL que vous créez pour le service Intelligence artificielle générative possède les propriétés suivantes :

Le fichier est encodé en UTF-8.
Chaque ligne d'article contient un objet JSON valide.
Chaque objet JSON a deux propriétés : "prompt" et "completion".
Chaque objet JSON est entré dans une nouvelle ligne ou suivi d'un caractère de nouvelle ligne (\n).

Après avoir créé le fichier JSONL, ajoutez votre jeu de données à un seau de stockage d'objets.

Documentation sur Oracle Cloud Infrastructure

Données d'entraînement dans l'IA générative

Exigences relatives aux jeux de données

Format JSONL