Datos de entrenamiento en IA generativa

Estas son las directrices para crear datos de entrenamiento para ajustar los modelos previamente entrenados en OCI Generative AI. Un modelo personalizado se puede ajustar con un solo conjunto de datos, que el sistema divide automáticamente en 80 ⁇ % de entrenamiento y 20 ⁇ % de datos de validación. El conjunto de datos debe ser un archivo JSONL que contenga al menos 32 ⁇ prompt/completion pairs, cada línea formateada como: {"prompt": "<your prompt>", "completion": "<expected response>"}. Guarde el archivo en un cubo de OCI Object Storage y haga referencia a él al crear el modelo personalizado.

Requisitos del conjunto de datos

Los conjuntos de datos para entrenar modelos personalizados tienen los siguientes requisitos:

  • Se permite un máximo de un juego de datos de ajuste por modelo personalizado. Este conjunto de datos se divide aleatoriamente en una proporción de 80:20 para entrenamiento y validación.
  • Cada archivo debe tener al menos 32 ejemplos de pares de petición/compleción.
  • El formato del archivo es JSONL.
  • Cada línea del archivo JSONL tiene el siguiente formato:

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • El archivo se debe almacenar en un cubo de OCI Object Storage.

Formato JSONL

Acerca de JSONL

Un archivo JSONL contiene un nuevo valor u objeto JSON en cada línea. El archivo no se evalúa como un todo, como un archivo JSON normal. En su lugar, cada línea se trata como si fuera un archivo JSON independiente. Este formato es ideal para almacenar un juego de entradas en formato JSON.

El servicio OCI Generative AI acepta un archivo JSONL para ajustar modelos personalizados con el siguiente formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
Ejemplo de JSONL
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Nota

Asegúrese de que cada archivo de juego de datos JSONL que cree para Generative AI tenga las siguientes propiedades:
  • El archivo está codificado con UTF-8.
  • Cada línea de ítem contiene un objeto JSON válido.
  • Cada objeto JSON tiene dos propiedades: "prompt" y "completion".
  • Cada objeto JSON se introduce en una nueva línea o seguido de un carácter de nueva línea (\n).

Después de crear el archivo JSONL, agregue el juego de datos a un cubo de Object Storage.