Daten in generativer KI trainieren
Im Folgenden finden Sie Richtlinien für die Erstellung von Trainingsdaten zur Feinabstimmung der vortrainierten Modelle in OCI Generative AI. Ein benutzerdefiniertes Modell kann mit nur einem Datensatz verfeinert werden, den das System automatisch in 80 ⁇ % Trainings- und 20 ⁇ % Validierungsdaten aufteilt. Der Datensatz muss eine JSONL-Datei mit mindestens 32 ⁇ Prompt/Completion-Paaren sein, wobei jede Zeile wie folgt formatiert ist: {"prompt": "<your prompt>", "completion": "<expected response>"}. Speichern Sie die Datei in einem OCI Object Storage-Bucket, und referenzieren Sie sie beim Erstellen des benutzerdefinierten Modells.
Dataset-Anforderungen
Datasets für das Training benutzerdefinierter Modelle haben die folgenden Anforderungen:
- Pro benutzerdefiniertem Modell ist maximal ein Optimierungs-Dataset zulässig. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für Training und Validierung aufgeteilt.
- Jede Datei muss mindestens 32 Beispiele für Eingabeaufforderungs-/Abschlusspaare enthalten.
- Das Dateiformat ist
JSONL. - Jede Zeile in der Datei
JSONLhat das folgende Format:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n - Die Datei muss in einem OCI Object Storage-Bucket gespeichert werden.
JSONL-Format
- Info zu
JSONL -
Eine
JSONL-Datei enthält einen neuenJSON-Wert oder ein neues Objekt in jeder Zeile. Die Datei wird nicht als Ganzes ausgewertet, wie eine normaleJSON-Datei. Stattdessen wird jede Zeile so behandelt, als wäre sie eine separateJSON-Datei. Dieses Format eignet sich zum Speichern eines Eingabesets imJSON-Format.Der OCI Generative AI-Service akzeptiert eine
JSONL-Datei für das Optimieren benutzerdefinierter Modelle im folgenden Format:{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . . JSONL-Beispiel
Stellen Sie sicher, dass jede
JSONL-Dataset-Datei, die Sie für generative KI erstellen, die folgenden Eigenschaften aufweist: - Die Datei ist
UTF-8-codiert. - Jede Position enthält ein gültiges
JSON-Objekt. - Jedes
JSON-Objekt hat zwei Eigenschaften:"prompt"und"completion". - Jedes
JSON-Objekt wird in einer neuen Zeile oder gefolgt von einem Zeilenvorschubzeichen (\n) eingegeben.
Nachdem Sie die Datei JSONL erstellt haben, fügen Sie das Dataset einem Object Storage-Bucket hinzu.