Dati di formazione nell'AI generativa
Di seguito sono riportate le linee guida per la creazione di dati di formazione per l'ottimizzazione dei modelli pre-addestrati nell'AI generativa OCI. Un modello personalizzato può essere messo a punto con un solo set di dati, che il sistema divide automaticamente in 80 ⁇ % di formazione e 20 ⁇ % di convalida dati. Il set di dati deve essere un file JSONL contenente almeno coppie 32 ⁇ prompt/completion, ogni riga formattata come: {"prompt": "<your prompt>", "completion": "<expected response>"}
. Salvare il file in un bucket di storage degli oggetti OCI e farvi riferimento durante la creazione del modello personalizzato.
Requisiti set di dati
I set di dati per i modelli personalizzati di addestramento hanno i seguenti requisiti:
- È consentito un massimo di un set di dati con tuning per ogni modello personalizzato. Questo set di dati viene suddiviso in modo casuale in un rapporto 80:20 per l'addestramento e la convalida.
- Ogni file deve contenere almeno 32 esempi di coppia prompt/completamento.
- Il formato del file è
JSONL
. - Ogni riga del file
JSONL
ha il formato seguente:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Il file deve essere memorizzato in un bucket di storage degli oggetti OCI.
Formato JSONL
- Informazioni su
JSONL
-
Un file
JSONL
contiene un nuovo valore o un nuovo oggettoJSON
su ogni riga. Il file non viene valutato nel suo complesso, come un normale fileJSON
. Al contrario, ogni riga viene considerata come un fileJSON
separato. Questo formato è ideale per memorizzare un set di input in formatoJSON
.Il servizio AI generativa OCI accetta un file
JSONL
per perfezionare i modelli personalizzati nel seguente formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
JSONL
Esempio
Assicurarsi che ogni file del data set
JSONL
creato per l'AI generativa disponga delle proprietà riportate di seguito. - Il file è codificato in
UTF-8
. - Ogni elemento contiene un oggetto
JSON
valido. - Ogni oggetto
JSON
dispone di due proprietà:"prompt"
e"completion"
. - Ogni oggetto
JSON
viene immesso in una nuova riga o seguito da un carattere di nuova riga (\n
).
Dopo aver creato il file JSONL, aggiungi il data set a un bucket di storage degli oggetti.