Datos de entrenamiento en IA generativa
Estas son las directrices para crear datos de entrenamiento para ajustar los modelos previamente entrenados en OCI Generative AI. Un modelo personalizado se puede ajustar con un solo conjunto de datos, que el sistema divide automáticamente en 80 ⁇ % de entrenamiento y 20 ⁇ % de datos de validación. El conjunto de datos debe ser un archivo JSONL que contenga al menos 32 ⁇ prompt/completion pairs, cada línea formateada como: {"prompt": "<your prompt>", "completion": "<expected response>"}
. Guarde el archivo en un cubo de OCI Object Storage y haga referencia a él al crear el modelo personalizado.
Requisitos del conjunto de datos
Los conjuntos de datos para entrenar modelos personalizados tienen los siguientes requisitos:
- Se permite un máximo de un juego de datos de ajuste por modelo personalizado. Este conjunto de datos se divide aleatoriamente en una proporción de 80:20 para entrenamiento y validación.
- Cada archivo debe tener al menos 32 ejemplos de pares de petición/compleción.
- El formato del archivo es
JSONL
. - Cada línea del archivo
JSONL
tiene el siguiente formato:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- El archivo se debe almacenar en un cubo de OCI Object Storage.
Formato JSONL
- Acerca de
JSONL
-
Un archivo
JSONL
contiene un nuevo valor u objetoJSON
en cada línea. El archivo no se evalúa como un todo, como un archivoJSON
normal. En su lugar, cada línea se trata como si fuera un archivoJSON
independiente. Este formato es ideal para almacenar un juego de entradas en formatoJSON
.El servicio OCI Generative AI acepta un archivo
JSONL
para ajustar modelos personalizados con el siguiente formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
- Ejemplo de
JSONL
Asegúrese de que cada archivo de juego de datos
JSONL
que cree para Generative AI tenga las siguientes propiedades: - El archivo está codificado con
UTF-8
. - Cada línea de ítem contiene un objeto
JSON
válido. - Cada objeto
JSON
tiene dos propiedades:"prompt"
y"completion"
. - Cada objeto
JSON
se introduce en una nueva línea o seguido de un carácter de nueva línea (\n
).
Después de crear el archivo JSONL, agregue el juego de datos a un cubo de Object Storage.