Benutzerdefinierte Modelle - Datasets
Prüfen Sie die unterstützten Datasets für benutzerdefinierte Modelle und wie Sie Datasets in ein unterstütztes Format konvertieren.
Zulässige Datasets für benutzerdefinierte Textklassifizierung
Es gibt zwei Möglichkeiten, beschriftete Daten für benutzerdefinierte Textklassifizierungsmodelle bereitzustellen:
- Data Labeling-Projekte
- Dateien mit kommagetrennten Werten (
.csv
)
- Anforderungen an CSV-Datei
-
-
Die erste Zeile muss ein Header mit den folgenden zwei Spaltennamen sein:
text
: Erfasst den zu klassifizierenden Text.labels
: Erfasst mindestens eine zugewiesene Klasse. Bei Datasets mit Mehrfachlabel-Klassifizierung können mehrere Klassennamen angegeben werden, indem sie mit dem Symbol|
verknüpft werden.
- Alle Positionen nach der Kopfzeile enthalten Schulungsdatensätze.
- Wenn die Datei mehr als zwei Spalten enthält, werden nur die Spalten
text
undlabels
zum Trainieren des Modells verwendet. -
Verwenden Sie für die CSV-Dateicodierung UTF-8. Wenn Sie Excel verwenden, speichern Sie die Datei als CSV-Datei (UTF-8 (durch Komma getrennt) (.csv).
- Verwenden Sie als Trennzeichen ein Komma (
,
). - Verwenden Sie als Escapezeichen ein doppeltes Anführungszeichen (
"
), das auch mit dem Unicode-ZeichenU+0022
bekannt ist.Beispiel: Wenn Sie in Excel folgenden Text eingeben:
This is a "double quote" sentence
Der vorhergehende Satz wird in der CSV-Datei wie folgt gespeichert:
"This is a ""double quote"" sentence"
Beispiel für eine CSV-Datei für die Textklassifizierung mit einem Label:
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device Failure
Beispiel-CSV-Datei für Textklassifizierung mit mehreren Labels:Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue
-
Zulässige Datensetformate für benutzerdefinierte NER
Es gibt zwei Möglichkeiten, beschriftete Daten für benutzerdefinierte NER-Modelle bereitzustellen:
- Data Labeling-Projekte
- JSON-Zeilenformat (
.jsonl
).
- JSON-Dateianforderungen
-
Die JSON-Datei enthält keine Trainingsdaten. Stattdessen ist die JSON-Datei eine Manifestdatei, die Labels und Zeiger (relative Pfade) zu Dateien mit nicht beschrifteten Daten enthält.
Das JSON-Format ist ein JSON-Zeilenformat (JSONL), wobei jede Zeile ein einzelnes JSON-Objekt ist:
- Die erste Zeile im Objekt beschreibt die Gruppe von Labels oder Klassen und den Typ der Annotationsdatei.
- Alle nachfolgenden Zeilen beschreiben einen Weiterbildungsdatensatz.
-
Speichern Sie alle Textdateien im selben Verzeichnis wie die Manifestdatei
(.jsonl)
, und weisen Sie den Schulungsdatensätzen den Namen der Dateien zu.
- Definition des Schemas
-
- Die erste Position ist eine Kopfzeile. Es enthält ein JSON-Objekt, das den Dateityp beschreibt.
- Jede nachfolgende Zeile enthält ein JSON-Objekt, das einen beschrifteten Datensatz darstellt.
- Headerpositionsformat
-
Feld Typ Beschreibung labelsSet
Array von Objekten. Objekt mit einem Zeichenfolgenelement
"name"
, das die für Annotation unterstützte Gruppe von Entitys angibt. Listen Sie hier alle Entitys auf.annotationFormat
String Verwenden Sie "ENTITY_EXTRACTION"
für NER-Datasets.datasetFormatDetails
Objekt Objekt mit einem Zeichenfolgenelement "formatType"
, das den Typ der mit Anmerkungen versehenen Daten angibt. Setzen Sie den Wert vonformatType
für Sprache auf"TEXT"
. - Beispiel für ein JSON-Schema:
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } }
- Beschriftetes Datensatzformat
-
Field Typ Beschreibung sourceDetails
Objekt Objekt mit einem Zeichenfolgenelement,
path
, das auf die mit Anmerkungen versehene Datei verweist.Der Dateipfad ist relativ zum Speicherort der Datei
json
.annotations
Objekt Komplexes Objekt, das die Annotationen beschreibt. entities
Array (Objekte) Eine Liste der im Datensatz angegebenen Entitäten. entityType
String Der Typ der Entityannotation. Verwenden Sie für den Wert "TEXTSELECTION"
als NER.labels
Array (Objekte) Jedes Objekt im Array enthält das Element "label_name"
, das den Typ der identifizierten Entity darstellt.textSpan
Objekt Ein Objekt, das den Textbereich darstellt. Enthält zwei erforderliche numerische Elemente: "offset"
und"length"
. - JSON-Schema für Format von beschrifteten Datensätzen – Beispiel:
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }
Datasets hochladen
Laden Sie Datasets in Object Storage-Buckets hoch.
Bucket erstellen
Wenn Sie einen Object Storage-Bucket für Datasets haben, überspringen Sie diesen Abschnitt.
- Öffnen Sie das Navigationsmenü, und klicken Sie auf Speicher. Klicken Sie unter Object Storage und Archive Storage auf Buckets.
- Klicken Sie unter Listengeltungsbereich in der Liste Compartment auf den Namen des Compartment, in dem Sie einen Bucket erstellen möchten. Sie müssen die Berechtigung zum Hinzufügen von Object Storage-Ressourcen zu diesem Compartment bereits besitzen.
- Klicken Sie auf Bucket erstellen.
- Geben Sie einen für die Region eindeutigen Namen für den Bucket ein.
- Klicken Sie für andere Felder auf die Links Weitere Informationen, und wählen Sie Optionen für die Daten aus.
-
Klicken Sie auf Erstellen. Standardmäßig weisen Buckets die private Sichtbarkeit auf, es sei denn, Sie ändern ihre Sichtbarkeit nach dem Erstellen.
Innerhalb eines Namespace müssen eindeutige Bucket-Namen vorhanden sein. Während der Namespace regionsspezifisch ist, ist der Namespace-Name selbst in allen Regionen identisch. Beispiel: Wenn dem Mandanten der Namespace-Name <your-namespace>
zugewiesen ist, ist dies der Namespace-Name in allen Regionen.
Sie können einen Bucket mit dem Namen MyBucket in US West (Phoenix) erstellen. Sie können keinen weiteren Bucket mit dem Namen MyBucket in US West (Phoenix) erstellen. Sie können jedoch einen Bucket mit dem Namen MyBucket in Germany Central (Frankfurt) erstellen. Da der Namespace-Name für einen Mandanten eindeutig ist, können andere Benutzer Buckets mit dem Namen MyBucket in ihren eigenen Namespaces erstellen.
Daten zu einem Bucket hinzufügen
Nachdem Sie einen Bucket erstellt haben, fügen Sie die Datasets im Bucket hinzu. Wenn sich Ihre Datasets bereits in einem Bucket befinden, überspringen Sie diesen Abschnitt.
Sie speichern Dateien als Objekte in Buckets. Ein Objekt besteht aus den Daten selbst und Metadaten zum Objekt.
- Öffnen Sie das Navigationsmenü, und klicken Sie auf Speicher. Klicken Sie unter Object Storage und Archive Storage auf Buckets.
- Klicken Sie unter Listengeltungsbereich in der Liste Compartment auf den Namen des Compartments, das den Bucket hostet.
- Klicken Sie auf den Namen des Buckets, dem Sie Daten hinzufügen möchten.
- Klicken Sie auf Hochladen.
- Laden Sie die Daten hoch.