Créer un jeu de données
Les modèles personnalisés de document sont destinés aux utilisateurs du service de compréhension de documents sans formation en science des données.
Aperçu
En créant un jeu de données et en demandant au service de compréhension de documents d'entraîner un modèle basé sur le jeu de données, vous pouvez avoir un modèle personnalisé prêt pour votre scénario. Pour l'extraction de valeur de clé personnalisée, il s'agit d'avoir un jeu de documents étiquetés avec les champs que vous essayez d'extraire dans le modèle entraîné, par exemple, le code de société, la date ou le total. Pour la classification de documents personnalisée, il s'agit d'avoir un jeu de documents avec la classe de documents annotée pour chaque document, par exemple, une demande d'emploi, une lettre de recommandation ou un rapport de vérification des antécédents.
Outils pour créer le jeu de données
La clé pour créer un modèle personnalisé utile est de le préparer et de l'entraîner avec un bon jeu de données. Nous vous recommandons de créer et d'étiqueter le jeu de données à l'aide du service d'étiquetage de données OCI. Voici un aperçu des étapes à suivre :
- Collecter un nombre suffisant de documents correspondant à la distribution de l'application visée.
- Sélectionnez le format d'annotation approprié pour le modèle personnalisé souhaité. Tous les modèles de compréhension de documents sont pris en charge sous le format d'annotation
Document
, à l'aide d'annotations clé-valeur pour l'extraction de valeur de clé personnalisée ou d'une classification à étiquette unique pour la classification de document personnalisée. - Étiqueter toutes les instances des champs ou des classes de document qui se trouvent dans le jeu de données source.
Pour plus d'informations, voir le guide d'étiquetage de données et les étapes de la création d'un jeu de données. Voir aussi le tutoriel vidéo pour créer et annoter un jeu de données clé-valeur.
Directives pour la collecte des données
- Inclure les variations prévues dans le jeu de données d'entraînement
- Si vous attendez une variation, donnez au moins un exemple de chaque variation du jeu de données d'entraînement. Par exemple, si vous prévoyez que dans les formulaires de candidature des employés, toutes les applications n'ont pas rempli le champ du numéro de téléphone de référence, incluez un exemple où tous les champs sont remplis en plus d'un champ où tous les champs, à l'exception du champ du numéro de téléphone de référence, sont remplis.
- Augmenter la taille du jeu de données au-delà du minimum
- L'extraction de la valeur de clé personnalisée nécessite au moins cinq documents, et la classification de documents personnalisés nécessite au moins 10 documents. L'augmentation du jeu de données augmente la performance du modèle. Le tableau suivant montre le nombre minimal de documents recommandé en fonction de la précision ciblée, de la variation des documents et des types de documents :
Nombre recommandé de documents par type et précision pour l'extraction des valeurs de clé personnalisée Type de document Précision ciblée minimale (exactitude estimative au niveau du champ) Variation des documents de formation Nombre minimal de documents recommandé Plus de détails Numérique 90 % Toutes les étiquettes sont présentes. 15 Les champs d'intérêt sont présents dans tous les documents. Numérique 95 % Toutes les étiquettes sont présentes. 30 Les champs d'intérêt sont présents dans tous les documents. Numérique 85 % Toutes les étiquettes sont absentes. 15 Des champs d'intérêt peuvent être manquants dans certains documents. Numérique 90 % Toutes les étiquettes sont absentes. 30 Des champs d'intérêt peuvent être manquants dans certains documents. Numérique 95 % Toutes les étiquettes sont absentes. 50 Si les documents peuvent avoir une résolution non standard et un DPI. Rechercher 85 % Toutes les étiquettes sont présentes. Texte manuscrit minimal ou non.
15 Les champs d'intérêt sont présents dans tous les documents avec une grande lisibilité dans les documents. Rechercher 95 % Toutes les étiquettes sont présentes. 30 Images avec rotation et éléments graphiques (estampilles ou repères de sélection). Téléphone cellulaire 80 % Toutes les étiquettes sont présentes. Texte manuscrit minimal ou non.
15 Les champs d'intérêt sont présents dans tous les documents avec une grande lisibilité dans les documents. Téléphone cellulaire 85 % Toutes les étiquettes sont présentes ou toutes les étiquettes sont absentes. Texte manuscrit minimal ou non
.30 Si les documents ont une rotation élevée, une résolution non standard et un DPI. Téléphone cellulaire 90 % Toutes les étiquettes sont présentes ou toutes les étiquettes sont absentes. Texte manuscrit minimal ou non
.50 Images avec rotation et éléments graphiques (estampilles ou repères de sélection). Nombre recommandé de documents par type et précision pour la classification des documents Type de document Précision ciblée minimale (exactitude estimative au niveau du champ) Variation des documents de formation Nombre minimal de documents recommandé Plus de détails Numérique/Balayage/Mobile 90 % Tous les documents d'une classe ont le même modèle, par exemple, la classe Facture peut contenir des documents d'un atelier ou d'une organisation
15 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est 15, le nombre total de documents est de 75 (15*5).Numérique/Balayage/Mobile 75 % Les documents d'une classe ont différents modèles. Par exemple, la classe de facture peut contenir des documents provenant de divers magasins ou organisations. 20 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est 15, le nombre total de documents est de 75 (15*5).Numérique/Balayage/Mobile 80 % Les documents d'une classe ont différents modèles. Par exemple, la classe de facture peut contenir des documents provenant de divers magasins ou organisations. 25 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est 15, le nombre total de documents est de 75 (15*5).Numérique/Balayage/Mobile 90 % Les documents d'une classe ont différents modèles. Par exemple, la classe de facture peut contenir des documents provenant de divers magasins ou organisations. 35 Tous les documents sont étiquetés. Le nombre de documents mentionnés est pour une seule classe.
Par exemple, si un jeu de données comporte 5 classes à classer et que le nombre recommandé de documents est 15, le nombre total de documents est de 75 (15*5).
Directives pour l'annotation des données
- Annoter les documents de manière cohérente et correcte
- Imaginez que vous créez un modèle personnalisé pour une candidature d'employé et que vous souhaitez extraire le nom du postulant avec le modèle personnalisé. Si vous attendez que le prénom et le nom de famille soient extraits, annotez tous les mots liés au nom complet, par exemple, Mary Joe Smith, comme nom du candidat dans les documents de formation. Si le champ Nom du postulant est présent dans tous les documents, annotez-le sur tous les documents. Ignorer les annotations sur les documents de formation ou annoter partiellement un champ nuit à la qualité du modèle.
- Annoter à la fois les noms de champ et les valeurs de champ
- Pour améliorer l'apprentissage du modèle, annotez les noms de clé et de valeur associés. Par exemple, pour extraire le nom du demandeur d'un document, créez deux étiquettes, par exemple
applicant name field
etapplicant name value
. Dans le document de formation, annotez le nom du champapplicant name field
et la réponse, par exemple, Mary Joe Smith,applicant name value
.