Dati di formazione nell'AI generativa

Di seguito sono riportate le linee guida per la creazione di dati di formazione per l'ottimizzazione dei modelli pre-addestrati nell'AI generativa OCI. Un modello personalizzato può essere messo a punto con un solo set di dati, che il sistema divide automaticamente in 80 ⁇ % di formazione e 20 ⁇ % di convalida dati. Il set di dati deve essere un file JSONL contenente almeno coppie 32 ⁇ prompt/completion, ogni riga formattata come: {"prompt": "<your prompt>", "completion": "<expected response>"}. Salvare il file in un bucket di storage degli oggetti OCI e farvi riferimento durante la creazione del modello personalizzato.

Requisiti set di dati

I set di dati per i modelli personalizzati di addestramento hanno i seguenti requisiti:

  • È consentito un massimo di un set di dati con tuning per ogni modello personalizzato. Questo set di dati viene suddiviso in modo casuale in un rapporto 80:20 per l'addestramento e la convalida.
  • Ogni file deve contenere almeno 32 esempi di coppia prompt/completamento.
  • Il formato del file è JSONL.
  • Ogni riga del file JSONL ha il formato seguente:

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • Il file deve essere memorizzato in un bucket di storage degli oggetti OCI.

Formato JSONL

Informazioni su JSONL

Un file JSONL contiene un nuovo valore o un nuovo oggetto JSON su ogni riga. Il file non viene valutato nel suo complesso, come un normale file JSON. Al contrario, ogni riga viene considerata come un file JSON separato. Questo formato è ideale per memorizzare un set di input in formato JSON.

Il servizio AI generativa OCI accetta un file JSONL per perfezionare i modelli personalizzati nel seguente formato:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL Esempio
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Nota

Assicurarsi che ogni file del data set JSONL creato per l'AI generativa disponga delle proprietà riportate di seguito.
  • Il file è codificato in UTF-8.
  • Ogni elemento contiene un oggetto JSON valido.
  • Ogni oggetto JSON dispone di due proprietà: "prompt" e "completion".
  • Ogni oggetto JSON viene immesso in una nuova riga o seguito da un carattere di nuova riga (\n).

Dopo aver creato il file JSONL, aggiungi il data set a un bucket di storage degli oggetti.