Dati di formazione nell'AI generativa
Di seguito sono riportate le linee guida per la creazione di dati di formazione per l'ottimizzazione dei modelli pre-addestrati nell'AI generativa OCI. Un modello personalizzato può essere messo a punto con un solo set di dati, che il sistema divide automaticamente in 80 ⁇ % di formazione e 20 ⁇ % di convalida dati. Il set di dati deve essere un file JSONL contenente almeno coppie 32 ⁇ prompt/completion, ogni riga formattata come: {"prompt": "<your prompt>", "completion": "<expected response>"}. Salvare il file in un bucket di storage degli oggetti OCI e farvi riferimento durante la creazione del modello personalizzato.
Requisiti set di dati
I set di dati per i modelli personalizzati di addestramento hanno i seguenti requisiti:
- È consentito un massimo di un set di dati con tuning per ogni modello personalizzato. Questo set di dati viene suddiviso in modo casuale in un rapporto 80:20 per l'addestramento e la convalida.
- Ogni file deve contenere almeno 32 esempi di coppia prompt/completamento.
- Il formato del file è
JSONL. - Ogni riga del file
JSONLha il formato seguente:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n - Il file deve essere memorizzato in un bucket di storage degli oggetti OCI.
Formato JSONL
- Informazioni su
JSONL -
Un file
JSONLcontiene un nuovo valore o un nuovo oggettoJSONsu ogni riga. Il file non viene valutato nel suo complesso, come un normale fileJSON. Al contrario, ogni riga viene considerata come un fileJSONseparato. Questo formato è ideale per memorizzare un set di input in formatoJSON.Il servizio AI generativa OCI accetta un file
JSONLper perfezionare i modelli personalizzati nel seguente formato:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . . JSONLEsempio
Assicurarsi che ogni file del data set
JSONL creato per l'AI generativa disponga delle proprietà riportate di seguito. - Il file è codificato in
UTF-8. - Ogni elemento contiene un oggetto
JSONvalido. - Ogni oggetto
JSONdispone di due proprietà:"prompt"e"completion". - Ogni oggetto
JSONviene immesso in una nuova riga o seguito da un carattere di nuova riga (\n).
Dopo aver creato il file JSONL, aggiungere il data set a un bucket di storage degli oggetti.