Benutzerdefinierte Modelle - Datasets
Prüfen Sie die unterstützten Datasets für benutzerdefinierte Modelle und wie Sie Datasets in ein unterstütztes Format konvertieren.
Label Studio-Integration
Oracle Data Labeling Service ist veraltet. Optional empfehlen wir die Migration Ihrer beschrifteten Datasets zu Label Studio, einem Open-Source- und Marketplace-unterstützten Labelingtool.
Führen Sie diese Schritte aus, um Snapshot-Exporte von Data Labeling in Label Studio-Import- und Label Studio-Raw-JSON-Exportformate zu konvertieren. Verwenden Sie diese Formate für weitere Anmerkungen in Label Studio oder direktes Modelltraining.
Zulässige Datasets für benutzerdefinierte Textklassifizierung
Es gibt zwei Möglichkeiten, beschriftete Daten für benutzerdefinierte Textklassifizierungsmodelle bereitzustellen:
- Data Labeling-Projekte
- Dateien mit kommagetrennten Werten (
.csv)
- Anforderungen an CSV-Datei
-
-
Die erste Zeile muss ein Header mit den folgenden zwei Spaltennamen sein:
text: Erfasst den zu klassifizierenden Text.labels: Erfasst eine oder mehrere zugewiesene Klassen. Bei mehrstufigen Klassifizierungs-Datasets können mehrere Klassennamen angegeben werden, indem sie mit dem Symbol|verknüpft werden.
- Alle Positionen nach der Kopfzeile enthalten Schulungsdatensätze.
- Wenn die Datei mehr als zwei Spalten enthält, werden nur die Spalten
textundlabelszum Trainieren des Modells verwendet. -
Verwenden Sie für die CSV-Dateicodierung UTF-8. Wenn Sie Excel verwenden, speichern Sie die Datei als CSV-Datei (UTF-8 (durch Komma getrennt) (.csv).
- Verwenden Sie als Trennzeichen ein Komma (
,). - Verwenden Sie als Escapezeichen ein doppeltes Anführungszeichen (
"), das auch mit dem Unicode-ZeichenU+0022bekannt ist.Beispiel: Wenn Sie in Excel folgenden Text eingeben:
This is a "double quote" sentenceDer vorhergehende Satz wird in der CSV-Datei wie folgt gespeichert:
"This is a ""double quote"" sentence"
Beispiel für eine CSV-Datei für die Textklassifizierung mit einem Label:
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device FailureBeispiel-CSV-Datei für Textklassifizierung mit mehreren Labels:Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue -
Zulässige Datensetformate für benutzerdefinierte NER
Es gibt zwei Möglichkeiten, beschriftete Daten für benutzerdefinierte NER-Modelle bereitzustellen:
- Label Studio-Projekte
- JSON-Zeilenformat (
.jsonl).
- JSON-Dateianforderungen
-
Die JSON-Datei enthält keine Trainingsdaten. Stattdessen ist die JSON-Datei eine Manifestdatei, die Labels und Zeiger (relative Pfade) zu Dateien mit nicht beschrifteten Daten enthält.
Das JSON-Format ist ein JSON-Zeilenformat (JSONL), wobei jede Zeile ein einzelnes JSON-Objekt ist:
- Die erste Zeile im Objekt beschreibt die Gruppe von Labels oder Klassen und den Typ der Annotationsdatei.
- Alle späteren Zeilen beschreiben einen Weiterbildungsdatensatz.
-
Speichern Sie alle Textdateien im selben Verzeichnis wie die Manifestdatei
(.jsonl), und weisen Sie den Schulungsdatensätzen den Namen der Dateien zu.
- Definition des Schemas
-
- Die erste Position ist eine Kopfzeile. Es enthält ein JSON-Objekt, das den Dateityp beschreibt.
- Jede spätere Zeile enthält ein JSON-Objekt, das einen beschrifteten Datensatz darstellt.
- Headerpositionsformat
-
Feld Typ Beschreibung labelsSetArray von Objekten. Objekt mit einem Zeichenfolgenelement
"name", das die für Annotation unterstützte Gruppe von Entitys angibt. Listen Sie hier alle Entitys auf.annotationFormatString Verwenden Sie "ENTITY_EXTRACTION"für NER-Datasets.datasetFormatDetailsObjekt Objekt mit einem Zeichenfolgenelement "formatType", das den Typ der mit Anmerkungen versehenen Daten angibt. Setzen Sie den Wert vonformatTypefür Sprache auf"TEXT". - Beispiel für ein JSON-Schema:
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } } - Beschriftetes Datensatzformat
-
Field Typ Beschreibung sourceDetailsObjekt Objekt mit einem Zeichenfolgenelement,
path, das auf die mit Anmerkungen versehene Datei verweist.Der Dateipfad ist relativ zum Speicherort der Datei
json.annotationsObjekt Komplexes Objekt, das die Annotationen beschreibt. entitiesArray (Objekte) Eine Liste der im Datensatz angegebenen Entitäten. entityTypeString Der Typ der Entityannotation. Verwenden Sie für den Wert "TEXTSELECTION"als NER.labelsArray (Objekte) Jedes Objekt im Array enthält das Element "label_name", das den Typ der identifizierten Entity darstellt.textSpanObjekt Ein Objekt, das den Textbereich darstellt. Enthält zwei erforderliche numerische Elemente: "offset"und"length". - JSON-Schema für Format von beschrifteten Datensätzen – Beispiel:
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }