Label Studio
Utilisez Label Studio pour étiqueter les jeux de données.
Le service Data Labeling d'Oracle est en phase d'abandon. Vous devez migrer tous les jeux de données étiquetés vers Label Studio, un outil d'étiquetage open source et pris en charge par Marketplace. Avec l'abandon de Data Labeling, cette section fournit des détails sur la conversion des exports de clichés Data Labeling en formats d'import et d'export JSON Label Studio. Vous pouvez utiliser ces formats pour d'autres annotations dans Label Studio ou pour l'entraînement direct de modèles.
Pour entraîner des modèles personnalisés, vous avez besoin des deux fichiers suivants :
- Fichier manifeste
- Ce fichier contient des métadonnées sur les fichiers d'annotation et porte généralement l'extension
.jsonl.
- Fichier d'enregistrement
-
Il s'agit du jeu de données exporté à partir de Label Studio après l'annotation. Le fichier porte l'extension
.json.-
Pour le fichier KV personnalisé, le fichier d'enregistrement est au format JSON-MIN.
-
Pour le centre de données personnalisé, le fichier d'enregistrement est au format JSON standard.
-
1. Configurer l'environnement Label Studio
1.1 Démarrer Label Studio
2. Workflow d'étiquetage pour l'extraction de valeur-clé personnalisée
Label Studio ne prend pas en charge nativement l'annotation PDF pour plus d'informations. Pour plus d'informations, reportez-vous à Outils fondamentaux pour l'étiquetage PDF dans la documentation Label Studio.
Il existe une solution de contournement pour l'étiquetage multi-image paginée.
Pour étiqueter les PDF, procédez comme suit :
2.1 Générer la liste des tâches
Si les documents de formation sont au format PDF, vous devrez d'abord les convertir en images. La fonction pdf_to_images effectue cette conversion et enregistre les images dans un dossier output_images (Images_input_root), qui est créé à la racine du répertoire d'entrée fourni. Pour chaque PDF, un dossier distinct (nommé d'après le fichier PDF) est créé dans le répertoire output_images pour stocker les images correspondantes.
- Pour l'annotation Label Studio, vous devez générer une liste de tâches. Chaque tâche correspond à l'annotation d'un document unique.
- A partir d'une ligne de commande, exécutez le fichier generate_tasks.kv.pv contenu dans les scripts utilitaires téléchargés à l'étape 6 de la tâche précédente.
2.2 Configurer l'intégration OCR pour la préannotation
Pour rationaliser le flux de travail des annotations et minimiser les efforts manuels, la préannotation interactive peut être activée dans Label Studio. Cette configuration permet de générer automatiquement des boîtes englobantes à l'aide du service OCR. OCI OCR est intégré en tant que back-end de machine learning pour générer des boîtes de délimitation sur les images pour l'annotation clé-valeur. Clonez le référentiel suivant et installez les dépendances requises :
Pour plus d'informations, reportez-vous à Ecriture de votre propre back-end ML dans la documentation Label Studio.
2.3 Création et Configuration de Projet
2.4 Annotation de jeu de données dans Label Studio
3. Workflow d'étiquetage pour la classification de document personnalisée
Label Studio ne prend pas en charge nativement l'annotation PDF pour plus d'informations. Pour plus d'informations, reportez-vous à Outils fondamentaux pour l'étiquetage PDF dans la documentation Label Studio.
Il existe une solution de contournement pour l'étiquetage multi-image paginée.
Pour étiqueter les PDF, procédez comme suit :
3.1 Générer une liste de tâches
Si les documents de formation sont au format PDF, vous devrez d'abord les convertir en images. La fonction pdf_to_images effectue cette conversion et enregistre les images dans un dossier output_images (Images_input_root), qui est créé à la racine du répertoire d'entrée fourni. Pour chaque PDF, un dossier distinct (nommé d'après le fichier PDF) est créé dans le répertoire output_images pour stocker les images correspondantes.
- Pour l'annotation Label Studio, vous devez générer une liste de tâches. Chaque tâche correspond à l'annotation d'un document unique.
- A partir d'une ligne de commande, exécutez le fichier generate_tasks_dc.pv contenu dans les scripts utilitaires téléchargés à l'étape 6 de la tâche précédente.