Data Labeling

Erfahren Sie mehr über Data Labeling und dessen Verwendung.

Datenlabeling ist der Prozess, mit dem Eigenschaften (Labels) von Dokumenten, Texten und Bildern (Datensätze) identifiziert und diesen als Anmerkungen hinzugefügt (Labeling) werden. Das Thema eines Newsartikels, das Sentiment eines Tweets, die Beschriftung eines Bildes, wichtige Worte, die in einer Audioaufzeichnung gesprochen werden, und das Genre eines Videos sind Beispiele für Datenlabels.

Viele Techniken des maschinellen Lernens benötigen Daten mit Labels, damit sie dazu verwendet werden können, Maschinen für die Durchführung einer autonomen Aufgabe zu trainieren. Datenlabeling ist somit ein wesentlicher Bestandteil von Projekten für künstliche Intelligenz (KI) oder maschinelles Lernen (ML).

Mit Data Labeling können Sie Datasets erstellen und durchsuchen, Datensätze (Dokumente, Text und Bilder) anzeigen sowie Labels anwenden, um KI-/ML-Modelle zu erstellen. Datasets können im LDJSON-Format exportiert und dann bei der Entwicklung von Modellen für maschinelles Lernen verwendet werden. Datasets sind über andere Daten- und KI-Services hinweg zugänglich und interoperabel, um überwachtes Training zu unterstützen. Beispiel: Mit Oracle Cloud Infrastructure Language können spezialisierte Modelle erstellt werden, jedoch nur, wenn Daten mit Labels zum Trainieren des Modells verfügbar sind. Mit Data Labeling können Sie schnell mit dem Labeling von Raw-Datasets beginnen und müssen nur eine sehr geringe Anzahl von Konfigurationsschritten ausführen. Somit stellt es die Datenlabelingfunktion auch für Oracle Cloud Infrastructure-KI-Services bereit.

Informationen zu den unterstützten Dateitypen und Inhaltstypen für Dokumente, Text und Bilder finden Sie unter Unterstützte Dateiformate.

Datasets sind die in Data Labeling verfügbare Kernressource. Sie bestehen aus Datensätzen und den zugehörigen Labels. Datensätze stellen ein Dokument, ein einzelnes Bild oder einen Text dar. Labels sind Textzeichenfolgen, die zu Anmerkungen werden, wenn sie einem Datensatz zugeordnet werden. Anmerkungen haben andere zugeordnete Daten, z.B. mit Objekterkennung oder Begrenzungsrahmenkoordinaten. Datensätze können ohne Anmerkung existieren. Datasets können als JSON-Manifest exportiert und als Eingabe für die Entwicklung von Modellen für maschinelles Lernen verwendet werden.
Tipp

Sehen Sie sich ein Einführungsvideo zum Service an..
So verwenden Sie Data Labeling:
  1. Richten Sie es ein. Erstellen Sie hierbei auch Buckets in Object Storage, und richten Sie Ihre Benutzer-Policys an.
  2. Erstellen Sie ein Dataset.
  3. Generieren Sie Datensätze in Ihrem Dataset.
  4. Fügen Sie Labels zu Ihren Dokumenten, Bildern oder Textteilen hinzu.
  5. Exportieren Sie das Dataset in Object Storage zur Verwendung an anderer Stelle.