Dataset erstellen
So erstellen Sie in Data Labeling ein Dataset:
- Öffnen Sie das Navigationsmenü, und klicken Sie auf Analysen und KI. Klicken Sie unter Maschinelles Lernen auf Data Labeling.
- Klicken Sie auf Datasets.
- Klicken Sie auf Dataset erstellen.
-
Füllen Sie die Felder auf der Seite Datensetdetails hinzufügen wie folgt aus:
- Name: Geben Sie dem Dataset einen geeigneten Namen.
- Beschreibung: (Optional) Geben Sie dem Dataset eine relevante Beschreibung, die Sie bei der Suche verwenden können.
- Labelanweisungen: (Optional) Geben Sie Anweisungen und Anweisungen für die Teamlabeling der Daten ein.
- Dataset-Format: Klicken Sie auf Bilder, Text oder Dokumente, je nachdem, ob Sie Bilder, Textteile oder Dokumente labeln möchten.
- Dateityp: Wenn Sie Text als Dataset-Format auswählen, wird dieses Feld angezeigt. Wählen Sie
TXT
oderCSV
aus, je nachdem, ob Sie eine Textdatei oder eine CSV-Datei beschriften möchten. - Anmerkungsklasse: Wählen Sie aus, wie Bilder, Text oder Dokumente mit Anmerkungen versehen werden sollen.
- Einzelne Labels: Kategorisiert Bilder, Text oder Dokumente in eine Klasse.
- Mehrere Labels: Kategorisiert Bilder, Text oder Dokumente in eine oder mehrere Klassen.
- Objekterkennung: Nur für Images. Zeichnet Begrenzungsrahmen um Objekt in den Bildern.
- Entityextraktion: Nur für Text. Markiert und labelt Text für eine oder mehrere Klassen.
- Schlüsselwert: Nur für Dokumente. Verwendet die Optical Character Recognition (OCR) von Document Understanding, um Informationen zu identifizieren und aus Dokumenten zu extrahieren.
- Tags: (Optional) Um Tags auf das Dataset anzuwenden, wählen Sie einen Tag-Namespace (für definierte Tags) aus, und geben Sie einen Tagschlüssel und einen Tagwert an. Fügen Sie bei Bedarf weitere Tags hinzu. Weitere Informationen zum Tagging finden Sie unter Überblick über Tagging.
Hinweis
Das System generiert beim Erstellen des Datasets zwei Tags: CreatedBy und CreatedOn. -
Klicken Sie auf Weiter.
Auf der Seite Dateien und Labels hinzufügen geben Sie an, ob Sie die Dateien für das Dataset in Object Storage hochladen (gehen Sie zu Schritt 6) oder Dateien verwenden möchten, die sich bereits in Object Storage befinden (gehen Sie zu Schritt 7).
-
Um die Dateien für das Dataset in den Objektspeicher hochzuladen, klicken Sie auf Lokale Dateien hochladen, und führen Sie die folgenden Schritte aus:
Hinweis
Sie können in der Konsole nicht mehr als 100 lokale Dateien gleichzeitig laden. Die Anzahl der ausgewählten Dateien wird angezeigt. To load more files at a time, either load them into Object Storage before creating the dataset, or use the CLI or SDK.- Geben Sie im Object Storage-Speicherort das Object Storage-Ziel (Bucket) an, in das Sie die lokalen Dateien laden:
- Object Storage-URL: Ein schreibgeschütztes Feld, das bereits ausgefüllt ist.
- Compartment: Wählen Sie das Compartment aus, das den Bucket enthält.
- Namespace: Wird basierend auf dem ausgewählten Compartment automatisch aufgefüllt.
- Bucket: Wählen Sie einen Bucket in der Liste aus. Wenn die Liste lang ist, können Sie alle Buckets anzeigen. Wenn Sie darauf klicken, wird ein Fensterbereich mit einer Liste aller verfügbaren Buckets geöffnet. Wenn Sie einen Bucket erstellen müssen, klicken Sie auf den Link in der QuickInfo neben dem Label Bucket. Dadurch gelangen Sie zur Listenseite Buckets im Object Storage-Service. Siehe Bucket erstellen.
- (Optional) Präfix: Geben Sie eine Präfixzeichenfolge ein, die den Namen oder Pfaden der Dateien hinzugefügt werden soll.
- Wenn es sich bei den zu ladenden Dateien um ein CSV-Format handelt, geben Sie unter Trennzeichen die folgenden Informationen an:
- Spaltentrennzeichen: Wählen Sie den Typ des Trennzeichens für Spalten aus. Komma ist die Standardeinstellung. Wenn Sie Benutzerdefiniert auswählen, geben Sie das Trennzeichen in Benutzerdefiniertes Spaltenbegrenzungszeichen ein.
- Positionsbegrenzungszeichen: (Optional) Aktivieren Sie dieses Kontrollkästchen im Positionsbegrenzungszeichen, und geben Sie unter Benutzerdefiniertes Positionsbegrenzungszeichen ein Positionsbegrenzungszeichen ein. Wenn Sie keinen Wert eingeben, wird das Trennzeichen aus der CSV-Datei erkannt.
- Escape-Zeichen: (Optional) Aktivieren Sie dieses Kontrollkästchen, und wählen Sie dann ein Escapezeichen aus. Wenn Sie Benutzerdefiniert auswählen, geben Sie das Zeichen unter Benutzerdefiniertes Escapezeichen ein. Wenn Sie keinen Wert eingeben, wird kein Text mit Escapezeichen versehen.
- Wählen Sie unter Ausgewählte Dateien die Dateien aus, die Sie in den Bucket laden möchten. Hinweis
Alle Dateien müssen UTF-8-codiert sein und dieselben Spaltenheader und -indizes aufweisen. Wenn nicht, geht das Dataset in den Status "Aktion erforderlich". Eine Liste der zulässigen Dateiformate finden Sie unter Unterstützte Dateiformate. - Wählen Sie eine Datei aus, um eine Vorschau des Inhalts anzuzeigen. Hinweis
Nur die ersten fünf Spalten und Zeilen von CSV-Dateien werden angezeigt. - (Für CSV-Dateien.) Wählen Sie für die Spalte, die Sie beschriften möchten, den zugehörigen Spaltennamen aus. Wenn die Spalte keinen Namen hat, wird stattdessen die Indexnummer angezeigt.
- Geben Sie unter Labels hinzufügen die Labels ein, die zum Annotieren des Datasets verwendet werden sollen. Drücken Sie nach der Eingabe jeder Beschriftung die Eingabetaste.
- Klicken Sie auf Weiter, und fahren Sie mit Schritt 8 fort.
- Geben Sie im Object Storage-Speicherort das Object Storage-Ziel (Bucket) an, in das Sie die lokalen Dateien laden:
-
Um Dateien zu laden, die bereits in einem Objektspeicher-Bucket vorhanden sind, klicken Sie auf Aus Objektspeicher auswählen, und führen Sie die folgenden Schritte aus:
- Geben Sie unter Object Storage-Speicherort an, dass das Object Storage-Ziel (Bucket) die Dateien auffüllt, die für das Dataset verwendet werden sollen:
- Object Storage-URL: Ein schreibgeschütztes Feld, das bereits ausgefüllt ist.
- Compartment: Wählen Sie das Compartment aus, das den Bucket enthält.
- Namespace: Wird basierend auf dem ausgewählten Compartment automatisch aufgefüllt.
- Bucket: Wählen Sie einen Bucket in der Liste aus. Wenn die Liste lang ist, können Sie alle Buckets anzeigen. Wenn Sie darauf klicken, wird ein Fensterbereich mit einer Liste aller verfügbaren Buckets geöffnet. Wenn Sie einen Bucket erstellen müssen, klicken Sie auf den Link in der QuickInfo neben dem Label Bucket. Dadurch gelangen Sie zur Listenseite Buckets im Object Storage-Service. Siehe Bucket erstellen.
- (Optional) Präfix: Geben Sie eine Präfixzeichenfolge ein, die den Namen oder Pfaden der Dateien hinzugefügt werden soll.
- (Optional) Wenn die Dateien im CSV-Format verwendet werden, geben Sie unter Trennzeichen die folgenden Informationen an:
- Wählen Sie das Spaltentrennzeichen aus: Wählen Sie den Typ des Trennzeichens für Spalten aus. Standardmäßig wird ein Komma verwendet. Wenn Sie Benutzerdefiniert wählen, geben Sie es in das Benutzerdefinierte Spaltentrennzeichen ein.
- Positionsbegrenzungszeichen: (Optional) Aktivieren Sie dieses Kontrollkästchen, und geben Sie dann ein Positionsbegrenzungszeichen in das benutzerdefinierte Positionsbegrenzungszeichen ein. Wenn Sie keinen Wert eingeben, wird das Trennzeichen aus der CSV-Datei erkannt.
- Escape-Zeichen: (Optional) Aktivieren Sie dieses Kontrollkästchen, und wählen Sie dann ein Escapezeichen aus. Wenn Sie Benutzerdefiniert wählen, geben Sie das Zeichen unter Benutzerdefiniertes Escapezeichen ein. Wenn Sie keinen Wert eingeben, wird kein Text mit Escapezeichen versehen.
- Wählen Sie unter Ausgewählte Dateien eine Datei aus, um eine Vorschau des Inhalts anzuzeigen.Hinweis
Für CSV-Dateien werden nur die ersten fünf Spalten und Zeilen angezeigt. - (Nur für CSV-Dateien) Wählen Sie für die Spalte, die Sie beschriften möchten, den zugehörigen Spaltennamen aus. Wenn die Spalte keinen Namen hat, wird stattdessen die Indexnummer angezeigt.Hinweis
Alle Dateien müssen UTF-8-codiert sein und dieselben Spaltenheader und -indizes aufweisen. Wenn nicht, geht das Dataset in den Status "Aktion erforderlich". Eine Liste der zulässigen Dateiformate finden Sie unter Unterstützte Dateiformate. - Geben Sie unter Labels hinzufügen die Labels ein, die zum Annotieren des Datasets verwendet werden sollen. Drücken Sie nach der Eingabe jeder Beschriftung die Eingabetaste.
- Klicken Sie Weiter.
- Geben Sie unter Object Storage-Speicherort an, dass das Object Storage-Ziel (Bucket) die Dateien auffüllt, die für das Dataset verwendet werden sollen:
- Prüfen Sie auf der Seite Prüfen die Informationen, die Sie eingegeben haben. Klicken Sie auf Bearbeiten, wenn die Dataset-Details bearbeitet werden müssen. Wenn Sie zurückgehen und Werte ändern müssen, klicken Sie auf Bearbeiten.
-
Um das Dataset jetzt zu erstellen, klicken Sie auf Erstellen.
Die Datensätze werden generiert, wenn das Dataset erstellt wird. Der Dataset-Status ändert sich in "Wird aktualisiert", während die Datensätze generiert werden. Erst nachdem die Datensätze erstellt wurden, werden die verwendeten Dateien auf der Seite mit den Datensetdetails angezeigt.
-
Um das Dataset später mit Resource Manager und Terraform zu erstellen, klicken Sie auf Als Stack speichern, um die Ressourcendefinition als Terraform-Konfiguration zu speichern.
Informationen zum Speichern von Stacks aus Ressourcendefinitionen finden Sie unter Stacks auf der Seite "Ressourcen erstellen" erstellen.
Zum Erstellen eines Datasets verwenden Sie den Befehl create und die erforderlichen Parameter: Eine vollständige Liste der Flaggen und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.oci data-labeling-service dataset create [OPTIONS]
Führen Sie den Vorgang CreateDataset aus, um ein Dataset zu erstellen.