Requisiti dei dati di formazione nell'AI generativa
Comprendi le linee guida per creare dati di formazione per perfezionare i modelli pre-addestrati nell'AI generativa OCI.
I modelli personalizzati accettano un solo file di data set di addestramento in formato JSONL (JSON Lines)
. Il file deve avere almeno 32 esempi di coppie prompt/completamento per file. Questo set di dati viene suddiviso in modo casuale in un rapporto di 80:20 per l'addestramento e la convalida. Non è previsto un numero massimo di frasi per il file di addestramento, ma l'addestramento di set di dati di grandi dimensioni richiede più tempo.
- Informazioni su
JSONL
-
Un file
JSONL
contiene un nuovo valore o un nuovo oggettoJSON
su ogni riga. Il file non viene valutato nel suo complesso, come un normale fileJSON
. Al contrario, ogni riga viene considerata come un fileJSON
separato. Questo formato è ideale per memorizzare un set di input in formatoJSON
.Il servizio AI generativa OCI accetta un file
JSONL
per perfezionare i modelli personalizzati nel seguente formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
JSONL
Esempio
Assicurarsi che ogni file del data set
JSONL
creato per l'AI generativa disponga delle proprietà riportate di seguito. - Il file è codificato in
UTF-8
. - Ogni elemento contiene un oggetto
JSON
valido. - Ogni oggetto
JSON
dispone di due proprietà:"prompt"
e"completion"
. - Ogni oggetto
JSON
viene immesso in una nuova riga o seguito da un carattere di nuova riga (\n
).
Dopo aver creato il file JSONL, aggiungi il data set a un bucket di storage degli oggetti.