Benutzerdefinierte Modelle - Datasets

Prüfen Sie die unterstützten Datasets für benutzerdefinierte Modelle und wie Sie Datasets in ein unterstütztes Format konvertieren.

Zulässige Datasets für benutzerdefinierte Textklassifizierung

Es gibt zwei Möglichkeiten, beschriftete Daten für benutzerdefinierte Textklassifizierungsmodelle bereitzustellen:

Data Labeling-Projekte
Dateien mit kommagetrennten Werten (.csv)

Anforderungen an CSV-Datei

Die erste Zeile muss ein Header mit den folgenden zwei Spaltennamen sein:
- text: Erfasst den zu klassifizierenden Text.
- labels: Erfasst mindestens eine zugewiesene Klasse. Bei Datasets mit Mehrfachlabel-Klassifizierung können mehrere Klassennamen angegeben werden, indem sie mit dem Symbol | verknüpft werden.
Alle Positionen nach der Kopfzeile enthalten Schulungsdatensätze.
Wenn die Datei mehr als zwei Spalten enthält, werden nur die Spalten text und labels zum Trainieren des Modells verwendet.
Verwenden Sie für die CSV-Dateicodierung UTF-8. Wenn Sie Excel verwenden, speichern Sie die Datei als CSV-Datei (UTF-8 (durch Komma getrennt) (.csv).
Verwenden Sie als Trennzeichen ein Komma (,).
Verwenden Sie als Escapezeichen ein doppeltes Anführungszeichen ("), das auch mit dem Unicode-Zeichen U+0022 bekannt ist.
Beispiel: Wenn Sie in Excel folgenden Text eingeben:
```
This is a "double quote" sentence
```
Der vorhergehende Satz wird in der CSV-Datei wie folgt gespeichert:
```
"This is a ""double quote"" sentence"
```

Beispiel für eine CSV-Datei für die Textklassifizierung mit einem Label:

text,labels
Windows OS -unable to print,Network Printer Failure
Citrix Account frequently locking,Account (Password reset)
Pull print queue not working ,Application Component Disconnect
wifi disable and lan is disconnected at the desktop,Hardware Device Failure

Beispiel-CSV-Datei für Textklassifizierung mit mehreren Labels:

Windows OS -unable to print,Network Printer Failure
Pull print queue not working ,Application Component Disconnect|Network Printer Failure
wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue

Zulässige Datensetformate für benutzerdefinierte NER

Es gibt zwei Möglichkeiten, beschriftete Daten für benutzerdefinierte NER-Modelle bereitzustellen:

Data Labeling-Projekte
JSON-Zeilenformat (.jsonl).

JSON-Dateianforderungen

Die JSON-Datei enthält keine Trainingsdaten. Stattdessen ist die JSON-Datei eine Manifestdatei, die Labels und Zeiger (relative Pfade) zu Dateien mit nicht beschrifteten Daten enthält.

Das JSON-Format ist ein JSON-Zeilenformat (JSONL), wobei jede Zeile ein einzelnes JSON-Objekt ist:

Die erste Zeile im Objekt beschreibt die Gruppe von Labels oder Klassen und den Typ der Annotationsdatei.
Alle nachfolgenden Zeilen beschreiben einen Weiterbildungsdatensatz.
Speichern Sie alle Textdateien im selben Verzeichnis wie die Manifestdatei (.jsonl), und weisen Sie den Schulungsdatensätzen den Namen der Dateien zu.

Definition des Schemas

Die erste Position ist eine Kopfzeile. Es enthält ein JSON-Objekt, das den Dateityp beschreibt.
Jede nachfolgende Zeile enthält ein JSON-Objekt, das einen beschrifteten Datensatz darstellt.

Headerpositionsformat


Feld	Typ	Beschreibung
`labelsSet`	Array von Objekten.	Objekt mit einem Zeichenfolgenelement `"name"`, das die für Annotation unterstützte Gruppe von Entitys angibt. Listen Sie hier alle Entitys auf.
`annotationFormat`	String	Verwenden Sie `"ENTITY_EXTRACTION"` für NER-Datasets.
`datasetFormatDetails`	Objekt	Objekt mit einem Zeichenfolgenelement `"formatType"`, das den Typ der mit Anmerkungen versehenen Daten angibt. Setzen Sie den Wert von `formatType` für Sprache auf `"TEXT"`.

Beispiel für ein JSON-Schema:

{
    "labelsSet": [
      {
        "name": "Label1"
      },
      {
        "name": "Label2"
      },
      {
        "name": "Label3"
      },
      {
        "name": "Label4"
      }
    ],
    "annotationFormat": "ENTITY_EXTRACTION",
    "datasetFormatDetails": {
      "formatType": "TEXT"
    }
  }

Beschriftetes Datensatzformat


Field	Typ	Beschreibung
`sourceDetails`	Objekt	Objekt mit einem Zeichenfolgenelement, `path`, das auf die mit Anmerkungen versehene Datei verweist. Der Dateipfad ist relativ zum Speicherort der Datei `json`.
`annotations`	Objekt	Komplexes Objekt, das die Annotationen beschreibt.
`entities`	Array (Objekte)	Eine Liste der im Datensatz angegebenen Entitäten.
`entityType`	String	Der Typ der Entityannotation. Verwenden Sie für den Wert `"TEXTSELECTION"` als NER.
`labels`	Array (Objekte)	Jedes Objekt im Array enthält das Element `"label_name"`, das den Typ der identifizierten Entity darstellt.
`textSpan`	Objekt	Ein Objekt, das den Textbereich darstellt. Enthält zwei erforderliche numerische Elemente: `"offset"` und `"length"`.

JSON-Schema für Format von beschrifteten Datensätzen – Beispiel:

{
    "sourceDetails": {
      "path": "Complaint3.txt"
    },
    "annotations": [
      {
        "entities": [
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              },
              {
                "label_name": "Label2"
              }
            ],
            "textSpan": {
              "offset": 0,
              "length": 28
            }
          },
          {
            "entityType": "TEXTSELECTION",
            "labels": [
              {
                "label_name": "Label1"
              }
            ],
            "textSpan": {
              "offset": 196,
              "length": 11
            }
          }
        ]
      }
    ]
  }

Datasets hochladen

Laden Sie Datasets in Object Storage-Buckets hoch.

Hinweis

Alternativ können Sie Datasets mit dem OCI Data Labeling-Service erstellen.

Bucket erstellen

Wenn Sie einen Object Storage-Bucket für Datasets haben, überspringen Sie diesen Abschnitt.

Öffnen Sie das Navigationsmenü, und klicken Sie auf Speicher. Klicken Sie unter Object Storage und Archive Storage auf Buckets.
Klicken Sie unter Listengeltungsbereich in der Liste Compartment auf den Namen des Compartment, in dem Sie einen Bucket erstellen möchten. Sie müssen die Berechtigung zum Hinzufügen von Object Storage-Ressourcen zu diesem Compartment bereits besitzen.
Klicken Sie auf Bucket erstellen.
Geben Sie einen für die Region eindeutigen Namen für den Bucket ein.
Klicken Sie für andere Felder auf die Links Weitere Informationen, und wählen Sie Optionen für die Daten aus.
Klicken Sie auf Erstellen. Standardmäßig weisen Buckets die private Sichtbarkeit auf, es sei denn, Sie ändern ihre Sichtbarkeit nach dem Erstellen.

Hinweis

Innerhalb eines Namespace müssen eindeutige Bucket-Namen vorhanden sein. Während der Namespace regionsspezifisch ist, ist der Namespace-Name selbst in allen Regionen identisch. Beispiel: Wenn dem Mandanten der Namespace-Name <your-namespace> zugewiesen ist, ist dies der Namespace-Name in allen Regionen.

Sie können einen Bucket mit dem Namen MyBucket in US West (Phoenix) erstellen. Sie können keinen weiteren Bucket mit dem Namen MyBucket in US West (Phoenix) erstellen. Sie können jedoch einen Bucket mit dem Namen MyBucket in Germany Central (Frankfurt) erstellen. Da der Namespace-Name für einen Mandanten eindeutig ist, können andere Benutzer Buckets mit dem Namen MyBucket in ihren eigenen Namespaces erstellen.

Daten zu einem Bucket hinzufügen

Nachdem Sie einen Bucket erstellt haben, fügen Sie die Datasets im Bucket hinzu. Wenn sich Ihre Datasets bereits in einem Bucket befinden, überspringen Sie diesen Abschnitt.

Sie speichern Dateien als Objekte in Buckets. Ein Objekt besteht aus den Daten selbst und Metadaten zum Objekt.

Öffnen Sie das Navigationsmenü, und klicken Sie auf Speicher. Klicken Sie unter Object Storage und Archive Storage auf Buckets.
Klicken Sie unter Listengeltungsbereich in der Liste Compartment auf den Namen des Compartments, das den Bucket hostet.
Klicken Sie auf den Namen des Buckets, dem Sie Daten hinzufügen möchten.
Klicken Sie auf Hochladen.
Laden Sie die Daten hoch.