Creación de un juego de datos
Los modelos personalizados de documentos están pensados para usuarios de Document Understanding sin experiencia en ciencia de datos.
Descripción
Al crear un conjunto de datos y al indicar a Document Understanding que entrene un modelo basado en el conjunto de datos, puede tener un modelo personalizado listo para su escenario. Para la extracción personalizada de clave-valor, implica tener un juego de documentos etiquetados con los campos que está intentando extraer en el modelo entrenado, por ejemplo, código de compañía, fecha o total. Para la clasificación de documentos personalizados, implica tener un juego de documentos con la clase de documento anotada para cada documento, por ejemplo, aplicación para puesto, carta de recomendación o informe de comprobación de antecedentes.
Herramientas para crear el juego de datos
La clave para crear un modelo personalizado útil es prepararlo y entrenarlo con un buen conjunto de datos. Recomendamos que cree y etiquete el juego de datos mediante OCI Data Labeling. A continuación se muestra un resumen de los pasos a seguir:
- Recopile suficientes documentos que coincidan con la distribución de la aplicación prevista.
- Seleccione el formato de anotación correcto para el modelo personalizado que desee. Todos los modelos de Document Understanding están soportados en el formato de anotación
Document, utilizando anotaciones de clave-valor para la extracción personalizada de clave-valor o clasificación de una sola etiqueta para la clasificación personalizada de documentos. - Etiquete todas las instancias de los campos o clases de documentos que se producen en el juego de datos de origen.
Para obtener más información, consulte la guía de etiquetado de datos y los pasos de Creación de un juego de datos. Consulte también el tutorial de video para crear y anotar un conjunto de datos de clave-valor.
Directrices para la recopilación de datos
- Incluir variaciones esperadas en el conjunto de datos de entrenamiento
- Si espera variación, tenga al menos un ejemplo de cada variación en el conjunto de datos de entrenamiento. Por ejemplo, si espera que en los formularios de solicitud de empleado no todas las solicitudes hayan completado el campo de número de teléfono de referencia, incluya un ejemplo en el que todos los campos se rellenen además de uno en el que se rellenen todos los campos, excepto el campo de número de teléfono de referencia.
- Aumentar el tamaño del juego de datos por encima del mínimo
- La extracción de valores clave personalizados requiere un mínimo de cinco documentos, y la clasificación de documentos personalizados requiere un mínimo de 10 documentos. El aumento del conjunto de datos aumenta el rendimiento del modelo. En la siguiente tabla, se muestran los números mínimos recomendados de documentos en función de la precisión objetivo, la variación de los documentos y los tipos de documentos:
Número recomendado de documentos por tipo y precisión para la extracción de clave-valor personalizada Tipo de Documento Precisión mínima objetivo (precisión de nivel de campo estimada) Variación en documentos de formación Número mínimo recomendado de documentos Más detalles Digital 90% Todas las etiquetas están presentes. 15 Los campos de interés están presentes en todos los documentos. Digital 95 % Todas las etiquetas están presentes. 30 Los campos de interés están presentes en todos los documentos. Digital 85 % No todas las etiquetas están presentes. 15 En algunos documentos pueden faltar campos de interés. Digital 90% No todas las etiquetas están presentes. 30 En algunos documentos pueden faltar campos de interés. Digital 95 % No todas las etiquetas están presentes. 50 Si los documentos pueden tener una resolución no estándar y DPI. Explorar 85 % Todas las etiquetas están presentes. Texto mínimo o no escrito a mano.
15 Los campos de interés están presentes en todos los documentos con alta legibilidad en los documentos. Explorar 95 % Todas las etiquetas están presentes. 30 Imágenes con elementos gráficos y de rotación (sellos o marcas de selección). Móvil 80 % Todas las etiquetas están presentes. Texto mínimo o no escrito a mano.
15 Los campos de interés están presentes en todos los documentos con alta legibilidad en los documentos. Móvil 85 % Todas las etiquetas están presentes o no. Texto mínimo o no escrito a mano
.30 Si los documentos tienen alta rotación, resolución no estándar y DPI. Móvil 90% Todas las etiquetas están presentes o no. Texto mínimo o no escrito a mano
.50 Imágenes con elementos gráficos y de rotación (sellos o marcas de selección). Número recomendado de documentos por tipo y precisión para la clasificación de documentos Tipo de Documento Precisión mínima objetivo (precisión de nivel de campo estimada) Variación en documentos de formación Número mínimo recomendado de documentos Más detalles Digital/Escanear/Móvil 90% Todos los documentos de una clase tienen la misma plantilla; por ejemplo, la clase de factura puede contener documentos de una tienda u organización
15 Todos los documentos están etiquetados. El número de documentos mencionados es para una sola clase.
Por ejemplo, si un juego de datos tiene 5 clases para clasificar y si el número recomendado de documentos es 15, el número total de documentos es 75 (15*5).Digital/Escanear/Móvil 75% Los documentos de una clase tienen varias plantillas. Por ejemplo, la clase de factura puede contener documentos de varias tiendas u organizaciones. 20 Todos los documentos están etiquetados. El número de documentos mencionados es para una sola clase.
Por ejemplo, si un juego de datos tiene 5 clases para clasificar y si el número recomendado de documentos es 15, el número total de documentos es 75 (15*5).Digital/Escanear/Móvil 80 % Los documentos de una clase tienen varias plantillas. Por ejemplo, la clase de factura puede contener documentos de varias tiendas u organizaciones. 25 Todos los documentos están etiquetados. El número de documentos mencionados es para una sola clase.
Por ejemplo, si un juego de datos tiene 5 clases para clasificar y si el número recomendado de documentos es 15, el número total de documentos es 75 (15*5).Digital/Escanear/Móvil 90% Los documentos de una clase tienen varias plantillas. Por ejemplo, la clase de factura puede contener documentos de varias tiendas u organizaciones. 35 Todos los documentos están etiquetados. El número de documentos mencionados es para una sola clase.
Por ejemplo, si un juego de datos tiene 5 clases para clasificar y si el número recomendado de documentos es 15, el número total de documentos es 75 (15*5).
Directrices para la anotación de datos
- Anotar los documentos de forma coherente y correcta
- Imagine que está creando un modelo personalizado para una aplicación de empleado y desea extraer el nombre del solicitante con el modelo personalizado. Si espera que se extraigan el nombre y los apellidos, anote todas las palabras relacionadas con el nombre completo, por ejemplo, Mary Joe Smith, como nombre de solicitante en los documentos de formación. Si el campo de nombre de solicitante está presente en todos los documentos, anótelo en todos los documentos. Omitir anotaciones en documentos de entrenamiento o anotar parcialmente un campo afecta negativamente a la calidad del modelo.
- Anotar nombres de campo y valores de campo
- Para permitir que el modelo aprenda mejor, anote los nombres de claves y valores asociados. Por ejemplo, para extraer el nombre de solicitante de un documento, cree dos etiquetas, por ejemplo,
applicant name fieldyapplicant name value. En el documento de formación, anote el nombre del campo comoapplicant name fieldy la respuesta, por ejemplo, Mary Joe Smith, comoapplicant name value.