Trainingsdatenanforderungen in OCI Generative AI

Machen Sie sich mit den Richtlinien für die Erstellung von Trainingsdaten für die Feinabstimmung der vortrainierten Modelle in OCI Generative AI vertraut.

Benutzerdefinierte Modelle akzeptieren nur eine Trainings-Dataset-Datei im Format JSONL (JSON Lines). Die Datei muss mindestens 32 Beispiele mit Prompt/Abschluss-Paaren pro Datei enthalten. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für Schulung und Validierung aufgeteilt. Es gibt keine maximale Anzahl von Sätzen für die Trainingsdatei, aber das Trainieren großer Datasets dauert länger.

JSONL

Eine JSONL-Datei enthält einen neuen JSON-Wert oder ein neues Objekt in jeder Zeile. Die Datei wird nicht wie eine normale JSON-Datei als Ganzes ausgewertet. Stattdessen wird jede Zeile so behandelt, als wäre sie eine separate JSON-Datei. Dieses Format ist ideal zum Speichern eines Eingabesets im JSON-Format.

Der OCI Generative AI-Service akzeptiert eine JSONL-Datei für die Optimierung benutzerdefinierter Modelle im folgenden Format.

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL-Beispiel
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Hinweis

Stellen Sie sicher, dass jede JSONL-Datensatzdatei, die Sie für generative KI erstellen, die folgende Eigenschaften aufweist:
  • Die Datei ist UTF-8-codiert.
  • Jede Position enthält ein gültiges JSON-Objekt.
  • Jedes JSON-Objekt verfügt über zwei Eigenschaften: "prompt" und "completion".
  • Jedes JSON-Objekt wird in eine neue Zeile eingegeben, oder es folgt ein Zeilenvorschubzeichen (\n).

Nachdem Sie die Datei JSONL erstellt haben, fügen Sie Ihr Dataset zu einem Objektspeicher-Bucket hinzu.