Label Studio
Use Label Studio para etiquetar conjuntos de datos.
El servicio Data Labeling de Oracle está en desuso. Debe migrar todos los conjuntos de datos etiquetados a Label Studio, una herramienta de etiquetado de código abierto y compatible con el mercado. Con el desuso de Data Labeling, esta sección proporciona detalles sobre la conversión de exportaciones de instantáneas de Data Labeling a los formatos de importación y exportación de JSON de Label Studio. Puede utilizar estos formatos para realizar más anotaciones en Label Studio o en el entrenamiento directo del modelo.
Para entrenar modelos personalizados, necesita los dos archivos siguientes:
- Archivo de manifiesto
- Este archivo contiene metadatos sobre los archivos de anotación y, normalmente, tiene una extensión
.jsonl
.
- Archivo de registro
-
Este es el conjunto de datos exportado desde Label Studio después de la anotación. El archivo tiene una extensión
.json
.-
Para el KV personalizado, el archivo de registro está en formato JSON-MIN.
-
Para Custom DC, el archivo de registro está en formato JSON estándar.
-
1. Configuración del entorno de Label Studio
1.1 Iniciar Label Studio
2. Flujo de trabajo de etiquetado para la extracción de valores clave personalizados
Label Studio no admite de forma nativa la anotación PDF para obtener más información, consulte Herramientas fundamentales para el etiquetado PDF en la documentación de Label Studio.
Existe una solución alternativa para el etiquetado de varias imágenes paginadas.
Siga estos pasos para etiquetar PDF:
2.1 Generar lista de tareas
Si los documentos de formación están en formato PDF, primero tendrá que convertirlos en imágenes. La función pdf_to_images
realiza esta conversión y guarda las imágenes en una carpeta output_images
(Images_input_root), que se crea en la raíz del directorio de entrada proporcionado. Para cada PDF, se crea una carpeta independiente (que lleva el nombre del archivo PDF) dentro del directorio output_images
para almacenar las imágenes correspondientes.
- Para la anotación de Label Studio, debe generar una lista de tareas. Cada tarea corresponde a la anotación de un único documento.
- Desde una línea de comandos, ejecute el archivo generate_tasks.kv.pv incluido en los scripts de utilidades descargados en el paso 6 de la tarea anterior.
2.2 Configuración de integración de reconocimiento óptico de caracteres para preannotación
Para agilizar el flujo de trabajo de anotación y minimizar el esfuerzo manual, se puede habilitar la preannotación interactiva en Label Studio. Esta configuración proporciona la generación automática de cuadros delimitadores mediante el servicio OCR. OCI OCR se integra como backend de aprendizaje automático para generar cuadros de límite en imágenes para la anotación de clave-valor. Clone el siguiente repositorio e instale las dependencias necesarias:
Para obtener más información, consulte Escritura de su propio backend de aprendizaje automático en la documentación de Label Studio.
2.3 Creación y configuración de proyectos
2.4 Anotación de conjunto de datos en Label Studio
3. Flujo de trabajo de etiquetado para clasificación de documentos personalizados
Label Studio no admite de forma nativa la anotación PDF para obtener más información, consulte Herramientas fundamentales para el etiquetado PDF en la documentación de Label Studio.
Existe una solución alternativa para el etiquetado de varias imágenes paginadas.
Siga estos pasos para etiquetar PDF:
3.1 Generar lista de tareas
Si los documentos de formación están en formato PDF, primero tendrá que convertirlos en imágenes. La función pdf_to_images
realiza esta conversión y guarda las imágenes en una carpeta output_images
(Images_input_root), que se crea en la raíz del directorio de entrada proporcionado. Para cada PDF, se crea una carpeta independiente (que lleva el nombre del archivo PDF) dentro del directorio output_images
para almacenar las imágenes correspondientes.
- Para la anotación de Label Studio, debe generar una lista de tareas. Cada tarea corresponde a la anotación de un único documento.
- Desde una línea de comandos, ejecute el archivo generate_tasks_dc.pv contenido en los scripts de utilidad descargados en el paso 6 de la tarea anterior.