Trainingsdatenanforderungen in OCI Generative AI
Machen Sie sich mit den Richtlinien für die Erstellung von Trainingsdaten für die Feinabstimmung der vortrainierten Modelle in OCI Generative AI vertraut.
Benutzerdefinierte Modelle akzeptieren nur eine Trainings-Dataset-Datei im Format JSONL (JSON Lines)
. Die Datei muss mindestens 32 Beispiele mit Prompt/Abschluss-Paaren pro Datei enthalten. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für Schulung und Validierung aufgeteilt. Es gibt keine maximale Anzahl von Sätzen für die Trainingsdatei, aber das Trainieren großer Datasets dauert länger.
JSONL
-
Eine
JSONL
-Datei enthält einen neuenJSON
-Wert oder ein neues Objekt in jeder Zeile. Die Datei wird nicht wie eine normaleJSON
-Datei als Ganzes ausgewertet. Stattdessen wird jede Zeile so behandelt, als wäre sie eine separateJSON
-Datei. Dieses Format ist ideal zum Speichern eines Eingabesets imJSON
-Format.Der OCI Generative AI-Service akzeptiert eine
JSONL
-Datei für die Optimierung benutzerdefinierter Modelle im folgenden Format.{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
JSONL
-Beispiel
Stellen Sie sicher, dass jede
JSONL
-Datensatzdatei, die Sie für generative KI erstellen, die folgende Eigenschaften aufweist: - Die Datei ist
UTF-8
-codiert. - Jede Position enthält ein gültiges
JSON
-Objekt. - Jedes
JSON
-Objekt verfügt über zwei Eigenschaften:"prompt"
und"completion"
. - Jedes
JSON
-Objekt wird in eine neue Zeile eingegeben, oder es folgt ein Zeilenvorschubzeichen (\n
).
Nachdem Sie die Datei JSONL erstellt haben, fügen Sie Ihr Dataset zu einem Objektspeicher-Bucket hinzu.