Requisitos de datos de formación en IA generativa
Comprende las directrices para crear datos de entrenamiento para ajustar los modelos previamente entrenados en OCI Generative AI.
Los modelos personalizados aceptan solo un archivo de juego de datos de entrenamiento en formato JSONL (JSON Lines)
. El archivo debe tener un mínimo de 32 ejemplos de pares de petición de datos/finalización por archivo. Este conjunto de datos se divide aleatoriamente en una relación de 80:20 para entrenamiento y validación. No hay un número máximo de oraciones para el archivo de entrenamiento, pero los conjuntos de datos grandes tardan más en entrenarse.
- Acerca de
JSONL
-
Un archivo
JSONL
contiene un nuevo valor u objetoJSON
en cada línea. El archivo no se evalúa como un todo, como un archivoJSON
normal. En su lugar, cada línea se trata como si fuera un archivoJSON
independiente. Este formato es ideal para almacenar un juego de entradas en formatoJSON
.El servicio OCI Generative AI acepta un archivo
JSONL
para ajustar modelos personalizados con el siguiente formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
- Ejemplo de
JSONL
Asegúrese de que cada archivo de juego de datos
JSONL
que cree para Generative AI tenga las siguientes propiedades: - El archivo está codificado con
UTF-8
. - Cada línea de ítem contiene un objeto
JSON
válido. - Cada objeto
JSON
tiene dos propiedades:"prompt"
y"completion"
. - Cada objeto
JSON
se introduce en una nueva línea o seguido de un carácter de nueva línea (\n
).
Después de crear el archivo JSONL, agregue el juego de datos a un cubo de Object Storage.