Requisitos de datos de formación en IA generativa

Comprende las directrices para crear datos de entrenamiento para ajustar los modelos previamente entrenados en OCI Generative AI.

Los modelos personalizados aceptan solo un archivo de juego de datos de entrenamiento en formato JSONL (JSON Lines). El archivo debe tener un mínimo de 32 ejemplos de pares de petición de datos/finalización por archivo. Este conjunto de datos se divide aleatoriamente en una relación de 80:20 para entrenamiento y validación. No hay un número máximo de oraciones para el archivo de entrenamiento, pero los conjuntos de datos grandes tardan más en entrenarse.

Acerca de JSONL

Un archivo JSONL contiene un nuevo valor u objeto JSON en cada línea. El archivo no se evalúa como un todo, como un archivo JSON normal. En su lugar, cada línea se trata como si fuera un archivo JSON independiente. Este formato es ideal para almacenar un juego de entradas en formato JSON.

El servicio OCI Generative AI acepta un archivo JSONL para ajustar modelos personalizados con el siguiente formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
Ejemplo de JSONL
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Nota

Asegúrese de que cada archivo de juego de datos JSONL que cree para Generative AI tenga las siguientes propiedades:
  • El archivo está codificado con UTF-8.
  • Cada línea de ítem contiene un objeto JSON válido.
  • Cada objeto JSON tiene dos propiedades: "prompt" y "completion".
  • Cada objeto JSON se introduce en una nueva línea o seguido de un carácter de nueva línea (\n).

Después de crear el archivo JSONL, agregue el juego de datos a un cubo de Object Storage.