Label Studio
Verwenden Sie Label Studio für das Labeling von Datasets.
Der Data Labeling-Service von Oracle ist veraltet. Sie müssen beschriftete Datasets in Label Studio migrieren, ein Open Source- und Marketplace-unterstütztes Labelingtool. Mit der Einstellung von Data Labeling enthält dieser Abschnitt Details zum Konvertieren von Data Labeling-Snap-Shot-Exporten in Label Studio-Import- und Label Studio-JSON-Exportformate. Sie können diese Formate für weitere Anmerkungen in Label Studio oder direktes Modelltraining verwenden.
Um benutzerdefinierte Modelle zu trainieren, benötigen Sie die folgenden beiden Dateien:
- Manifestdatei
- Diese Datei enthält Metadaten zu den Annotationsdateien und hat in der Regel die Erweiterung
.jsonl
.
- Datensatzdatei
-
Dies ist das Dataset, das nach der Annotation aus Label Studio exportiert wurde. Die Datei hat die Erweiterung
.json
.-
Bei benutzerdefiniertem KV hat die Datensatzdatei das JSON-MIN-Format.
-
Bei benutzerdefiniertem DC hat die Datensatzdatei das Standard-JSON-Format.
-
1. Label Studio-Umgebung einrichten
1.1 Start Label Studio
2. Labelingworkflow für Extraktion von benutzerdefinierten Schlüsselwerten
Label Studio unterstützt keine PDF-Annotation für weitere Informationen. Weitere Informationen finden Sie unter Grundlegende Tools für PDF-Etikettierung in der Label Studio-Dokumentation.
Es gibt eine Workaround für paginiertes Labeling mit mehreren Bildern.
Führen Sie die folgenden Schritte aus, um PDFs zu beschriften:
2.1 Aufgabenliste generieren
Wenn die Schulungsdokumente im PDF-Format vorliegen, müssen Sie sie zuerst in Bilder konvertieren. Die Funktion pdf_to_images
führt diese Konvertierung aus und speichert die Bilder in einem Ordner output_images
(Images_input_root), der im Root-Verzeichnis des angegebenen Eingabeverzeichnisses erstellt wird. Für jede PDF-Datei wird ein separater Ordner (benannt nach der PDF-Datei) im Verzeichnis output_images
erstellt, um die entsprechenden Bilder zu speichern.
- Für Label Studio-Annotationen müssen Sie eine Aufgabenliste generieren. Jede Aufgabe entspricht der Anmerkung eines einzelnen Dokuments.
- Führen Sie über eine Befehlszeile die Datei generate_tasks.kv.pv aus, die in den in Schritt 6 der vorherigen Aufgabe heruntergeladenen Utilityskripten enthalten ist.
2.2 OCR-Integration für Preannotation einrichten
Um den Anmerkungsworkflow zu optimieren und den manuellen Aufwand zu minimieren, kann die interaktive Vorabnotation in Label Studio aktiviert werden. Dieses Setup ermöglicht die automatische Generierung von Begrenzungsfeldern mit dem OCR-Service. OCI OCR ist als ML-Backend integriert, um Begrenzungsfelder für Images für Schlüsselwertannotationen zu generieren. Klonen Sie das folgende Repository, und installieren Sie die erforderlichen Abhängigkeiten:
Weitere Informationen finden Sie unter Eigenes ML-Backend schreiben in der Label Studio-Dokumentation.
2.3 Projekterstellung und Konfiguration
2.4 Dataset-Annotation in Label Studio
3. Labelingworkflow für benutzerdefinierte Dokumentklassifizierung
Label Studio unterstützt keine PDF-Annotation für weitere Informationen. Weitere Informationen finden Sie unter Grundlegende Tools für PDF-Etikettierung in der Label Studio-Dokumentation.
Es gibt eine Workaround für paginiertes Labeling mit mehreren Bildern.
Führen Sie die folgenden Schritte aus, um PDFs zu beschriften:
3.1 Aufgabenliste generieren
Wenn die Schulungsdokumente im PDF-Format vorliegen, müssen Sie sie zuerst in Bilder konvertieren. Die Funktion pdf_to_images
führt diese Konvertierung aus und speichert die Bilder in einem Ordner output_images
(Images_input_root), der im Root-Verzeichnis des angegebenen Eingabeverzeichnisses erstellt wird. Für jede PDF-Datei wird ein separater Ordner (benannt nach der PDF-Datei) im Verzeichnis output_images
erstellt, um die entsprechenden Bilder zu speichern.
- Für Label Studio-Annotationen müssen Sie eine Aufgabenliste generieren. Jede Aufgabe entspricht der Anmerkung eines einzelnen Dokuments.
- Führen Sie in einer Befehlszeile die Datei generate_tasks_dc.pv aus, die in den Utilityskripten enthalten ist, die in Schritt 6 der vorherigen Aufgabe heruntergeladen wurden.