Dati di formazione nell'AI generativa

Di seguito sono riportate le linee guida per la creazione di dati di formazione per l'ottimizzazione dei modelli pre-addestrati nell'AI generativa OCI. Un modello personalizzato può essere messo a punto con un solo set di dati, che il sistema divide automaticamente in 80 ⁇ % di formazione e 20 ⁇ % di convalida dati. Il set di dati deve essere un file JSONL contenente almeno coppie 32 ⁇ prompt/completion, ogni riga formattata come: {"prompt": "<your prompt>", "completion": "<expected response>"}. Salvare il file in un bucket di storage degli oggetti OCI e farvi riferimento durante la creazione del modello personalizzato.

Requisiti set di dati

I set di dati per i modelli personalizzati di addestramento hanno i seguenti requisiti:

È consentito un massimo di un set di dati con tuning per ogni modello personalizzato. Questo set di dati viene suddiviso in modo casuale in un rapporto 80:20 per l'addestramento e la convalida.
Ogni file deve contenere almeno 32 esempi di coppia prompt/completamento.
Il formato del file è JSONL.
Ogni riga del file JSONL ha il formato seguente:
{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
Il file deve essere memorizzato in un bucket di storage degli oggetti OCI.

Formato JSONL

Informazioni su JSONL

Un file JSONL contiene un nuovo valore o un nuovo oggetto JSON su ogni riga. Il file non viene valutato nel suo complesso, come un normale file JSON. Al contrario, ogni riga viene trattata come se fosse un file JSON separato. Questo formato è ideale per memorizzare un set di input in formato JSON.

Il servizio OCI Generative AI accetta un file JSONL per l'ottimizzazione dei modelli personalizzati nel seguente formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.

Esempio JSONL

{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}

Nota

Assicurarsi che ogni file di set di dati JSONL creato per l'intelligenza artificiale generativa disponga delle proprietà riportate di seguito.

Il file è codificato in formato UTF-8.
Ogni elemento contiene un oggetto JSON valido.
Ogni oggetto JSON ha due proprietà: "prompt" e "completion".
Ogni oggetto JSON viene immesso in una nuova riga o seguito da un carattere di nuova riga (\n).

Dopo aver creato il file JSONL, aggiungere il data set a un bucket di storage degli oggetti.

Documentazione dell'infrastruttura Oracle Cloud

Dati di formazione nell'AI generativa

Requisiti set di dati

Formato JSONL