Requisiti dei dati di formazione nell'AI generativa

Comprendi le linee guida per creare dati di formazione per perfezionare i modelli pre-addestrati nell'AI generativa OCI.

I modelli personalizzati accettano un solo file di data set di addestramento in formato JSONL (JSON Lines). Il file deve avere almeno 32 esempi di coppie prompt/completamento per file. Questo set di dati viene suddiviso in modo casuale in un rapporto di 80:20 per l'addestramento e la convalida. Non è previsto un numero massimo di frasi per il file di addestramento, ma l'addestramento di set di dati di grandi dimensioni richiede più tempo.

Informazioni su JSONL

Un file JSONL contiene un nuovo valore o un nuovo oggetto JSON su ogni riga. Il file non viene valutato nel suo complesso, come un normale file JSON. Al contrario, ogni riga viene considerata come un file JSON separato. Questo formato è ideale per memorizzare un set di input in formato JSON.

Il servizio AI generativa OCI accetta un file JSONL per perfezionare i modelli personalizzati nel seguente formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL Esempio
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Nota

Assicurarsi che ogni file del data set JSONL creato per l'AI generativa disponga delle proprietà riportate di seguito.
  • Il file è codificato in UTF-8.
  • Ogni elemento contiene un oggetto JSON valido.
  • Ogni oggetto JSON dispone di due proprietà: "prompt" e "completion".
  • Ogni oggetto JSON viene immesso in una nuova riga o seguito da un carattere di nuova riga (\n).

Dopo aver creato il file JSONL, aggiungi il data set a un bucket di storage degli oggetti.