Studio d'étiquettes
Utilisez Label Studio pour étiqueter les jeux de données.
Le service d'étiquetage de données d'Oracle est en cours d'abandon. Vous devez migrer tous les jeux de données étiquetés vers Label Studio, un outil d'étiquetage à source ouverte et pris en charge par le marché des applications. Avec l'abandon du service d'étiquetage de données, cette section fournit des détails sur la conversion des exportations d'instantané du service d'étiquetage de données aux formats d'importation et d'exportation JSON Label Studio. Vous pouvez utiliser ces formats pour d'autres annotations dans Label Studio ou pour l'entraînement direct de modèles.
Pour entraîner des modèles personnalisés, vous avez besoin des deux fichiers suivants :
- Fichier manifeste
- Ce fichier contient des métadonnées sur les fichiers d'annotation et a généralement une extension
.jsonl
.
- Fichier d'enregistrement
-
Il s'agit du jeu de données exporté à partir de Label Studio après annotation. Le fichier a une extension
.json
.-
Pour Custom KV, le fichier d'enregistrement est au format JSON-MIN.
-
Pour CD personnalisé, le fichier d'enregistrement est au format JSON standard.
-
1. Configuration de l'environnement Label Studio
1.1 Démarrer Label Studio
2. Flux de travail d'étiquetage pour l'extraction de valeurs de clé personnalisée
Label Studio ne prend pas en charge l'annotation PDF de manière native pour plus d'informations. Voir Outils fondamentaux pour l'étiquetage PDF dans la documentation Label Studio.
Il existe une solution de rechange pour l'étiquetage paginé à images multiples.
Suivez ces étapes pour étiqueter les PDF :
2.1 Générer une liste de tâches
Si les documents de formation sont au format PDF, vous devrez d'abord les convertir en images. La fonction pdf_to_images
effectue cette conversion et enregistre les images dans un dossier output_images
(Images_input_root), créé à la racine du répertoire d'entrée fourni. Pour chaque PDF, un dossier distinct (nommé d'après le fichier PDF) est créé dans le répertoire output_images
pour stocker les images correspondantes.
- Pour l'annotation Label Studio, vous devez générer une liste de tâches. Chaque tâche correspond à l'annotation d'un seul document.
- À partir d'une ligne de commande, exécutez le fichier generate_tasks.kv.pv contenu dans les scripts utilitaires téléchargés à l'étape 6 de la tâche précédente.
2.2 Configurer l'intégration du registre OCR pour la préannotation
Pour rationaliser le flux de travail d'annotation et réduire les tâches manuelles, la préannotation interactive peut être activée dans Label Studio. Cette configuration permet de générer automatiquement des zones englobantes à l'aide du service ROC. OCI OCR est intégré en tant que serveur dorsal d'apprentissage automatique pour générer des zones englobantes sur les images pour l'annotation clé-valeur. Clonez le référentiel suivant et installez les dépendances requises :
Pour plus d'informations, voir Écrire votre propre serveur dorsal d'apprentissage automatique dans la documentation Label Studio.
2.3 Création et configuration de projets
2.4 Annotation de jeu de données dans Label Studio
3. Flux de travail d'étiquetage pour la classification de documents personnalisée
Label Studio ne prend pas en charge l'annotation PDF de manière native pour plus d'informations. Voir Outils fondamentaux pour l'étiquetage PDF dans la documentation Label Studio.
Il existe une solution de rechange pour l'étiquetage paginé à images multiples.
Suivez ces étapes pour étiqueter les PDF :
3.1 Générer une liste de tâches
Si les documents de formation sont au format PDF, vous devrez d'abord les convertir en images. La fonction pdf_to_images
effectue cette conversion et enregistre les images dans un dossier output_images
(Images_input_root), créé à la racine du répertoire d'entrée fourni. Pour chaque PDF, un dossier distinct (nommé d'après le fichier PDF) est créé dans le répertoire output_images
pour stocker les images correspondantes.
- Pour l'annotation Label Studio, vous devez générer une liste de tâches. Chaque tâche correspond à l'annotation d'un seul document.
- À partir d'une ligne de commande, exécutez le fichier generate_tasks_dc.pv contenu dans les scripts d'utilitaire téléchargés à l'étape 6 de la tâche précédente.