Création d'un ensemble de données
Les modèles personnalisés de document sont destinés aux utilisateurs de Document Understanding sans formation en science des données.
Aperçu
En créant un ensemble de données et en demandant à Document Understanding d'entraîner un modèle basé sur l'ensemble de données, vous pouvez préparer un modèle personnalisé pour votre scénario. Pour l'extraction clé-valeur personnalisée, il faut disposer d'un ensemble de documents étiquetés avec les champs que vous essayez d'extraire dans le modèle entraîné, par exemple, le code de la société, la date ou le total. Pour une classification de document personnalisée, il faut disposer d'un ensemble de documents avec la classe de document annotée pour chaque document, par exemple une candidature, une lettre de recommandation ou un rapport de vérification des antécédents.
Outils de création de l'ensemble de données
La clé pour créer un modèle personnalisé utile est de le préparer et de l'entraîner avec un bon ensemble de données. Nous vous recommandons de créer et d'étiqueter l'ensemble de données à l'aide d'OCI Data Labeling. Voici un aperçu des étapes à suivre :
- Collectez suffisamment de documents correspondant à la distribution de l'application prévue.
- Sélectionnez le format d'annotation correct pour le modèle personnalisé de votre choix. Tous les modèles Document Understanding sont pris en charge sous le format d'annotation
Document, à l'aide d'annotations clé-valeur pour l'extraction de clé-valeur personnalisée ou d'une classification à étiquette unique pour la classification de document personnalisée. - Intitulez toutes les instances des champs ou classes de document qui se produisent dans le jeu de données source.
Pour plus d'informations, reportez-vous au guide d'étiquetage des données et aux étapes de création d'un ensemble de données. Reportez-vous également au tutoriel vidéo pour créer et annoter un jeu de données clé-valeur.
Lignes directrices pour la collecte des données
- Inclure les variations attendues dans l'ensemble de données d'entraînement
- Si vous attendez une variation, ayez au moins un exemple de chaque variation dans l'ensemble de données d'entraînement. Par exemple, si vous pensez que dans les formulaires de candidature des employés, le champ Numéro de téléphone de référence n'est pas renseigné dans toutes les demandes, incluez un exemple où tous les champs sont renseignés en plus d'un champ où tous les champs, à l'exception du champ Numéro de téléphone de référence, sont renseignés.
- Rendre la taille de l'ensemble de données supérieure au minimum
- L'extraction clé-valeur personnalisée nécessite au moins cinq documents et la classification des documents personnalisés requiert au moins 10 documents. L'augmentation du jeu de données augmente les performances du modèle. Le tableau suivant indique le nombre minimum recommandé de documents en fonction de la précision ciblée, de la variation des documents et des types de documents :
Nombre recommandé de documents par type et précision pour l'extraction de valeur-clé personnalisée Type de document Précision ciblée minimale (exactitude estimée au niveau du terrain) Variation des documents de formation Nombre minimum recommandé de documents Plus de détails Digital 90 % Toutes les étiquettes sont présentes. 15 Les champs d'intérêt sont présents dans tous les documents. Digital 95 % Toutes les étiquettes sont présentes. 30 Les champs d'intérêt sont présents dans tous les documents. Digital 85 % Toutes les étiquettes ne sont pas présentes. 15 Certains documents peuvent ne pas contenir de champs d'intérêt. Digital 90 % Toutes les étiquettes ne sont pas présentes. 30 Certains documents peuvent ne pas contenir de champs d'intérêt. Digital 95 % Toutes les étiquettes ne sont pas présentes. 50 Si les documents peuvent avoir une résolution non standard et un DPI. Scanner 85 % Toutes les étiquettes sont présentes. Texte manuscrit minimal ou nul.
15 Les domaines d'intérêt sont présents dans tous les documents avec une grande lisibilité dans les documents. Scanner 95 % Toutes les étiquettes sont présentes. 30 Images avec rotation et éléments graphiques (estampilles ou marques de sélection). Mobile 80 % Toutes les étiquettes sont présentes. Texte manuscrit minimal ou nul.
15 Les domaines d'intérêt sont présents dans tous les documents avec une grande lisibilité dans les documents. Mobile 85 % Toutes les étiquettes sont présentes ou toutes les étiquettes ne sont pas présentes. Texte manuscrit minimal ou inexistant
.30 Si les documents ont une rotation élevée, une résolution non standard et un DPI. Mobile 90 % Toutes les étiquettes sont présentes ou toutes les étiquettes ne sont pas présentes. Texte manuscrit minimal ou inexistant
.50 Images avec rotation et éléments graphiques (estampilles ou marques de sélection). Nombre recommandé de documents par type et précision pour la classification de documents Type de document Précision ciblée minimale (exactitude estimée au niveau du terrain) Variation des documents de formation Nombre minimum recommandé de documents Plus de détails Numérique/scan/mobile 90 % Tous les documents d'une classe ont le même modèle. Par exemple, la classe Facture peut contenir des documents d'une boutique ou d'une organisation
15 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est de 15, le nombre total de documents est de 75 (15*5).Numérique/scan/mobile 75% Les documents d'une classe ont différents modèles. Par exemple, la classe de facture peut contenir des documents provenant de différents magasins ou organisations. 20 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est de 15, le nombre total de documents est de 75 (15*5).Numérique/scan/mobile 80 % Les documents d'une classe ont différents modèles. Par exemple, la classe de facture peut contenir des documents provenant de différents magasins ou organisations. 25 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est de 15, le nombre total de documents est de 75 (15*5).Numérique/scan/mobile 90 % Les documents d'une classe ont différents modèles. Par exemple, la classe de facture peut contenir des documents provenant de différents magasins ou organisations. 35 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est de 15, le nombre total de documents est de 75 (15*5).
Instructions pour l'annotation des données
- Annoter les documents de manière cohérente et correcte
- Imaginez que vous créez un modèle personnalisé pour une demande d'employé et que vous souhaitez extraire le nom du postulant avec le modèle personnalisé. Si vous prévoyez d'extraire le prénom et le nom, annotez tous les mots associés au nom complet, par exemple Mary Joe Smith, en tant que nom du postulant dans les documents de formation. Si le nom du postulant figure dans tous les documents, annotez-le sur tous les documents. Ignorer les annotations sur les documents d'entraînement ou annoter partiellement un champ affecte négativement la qualité du modèle.
- Annoter les noms de champ et les valeurs de champ
- Pour améliorer l'apprentissage du modèle, annotez les noms de clé et de valeur associés. Par exemple, pour extraire le nom du demandeur d'un document, créez deux libellés, par exemple
applicant name fieldetapplicant name value. Dans le document de formation, annotez le nom du champ en tant queapplicant name fieldet la réponse, par exemple, Mary Joe Smith, en tant queapplicant name value.