Criando um Conjunto de Dados

Os modelos personalizados de documentos são destinados a usuários do Document Understanding sem um histórico de ciência de dados.

Visão Geral

Ao criar um conjunto de dados e instruir o Document Understanding a treinar um modelo com base no conjunto de dados, você pode ter um modelo personalizado pronto para seu cenário. Para a extração de chave/valor personalizada, envolve ter um conjunto de documentos rotulados com os campos que você está tentando extrair no modelo treinado, por exemplo, código da empresa, data ou total. Para classificação de documento personalizada, envolve ter um conjunto de documentos com a classe de documento anotada para cada documento, por exemplo, candidatura, carta de recomendação ou relatório de verificação de antecedentes.

Ferramentas para criar o conjunto de dados

A chave para construir um modelo personalizado útil é prepará-lo e treiná-lo com um bom conjunto de dados. Recomendamos que você crie e rotule o conjunto de dados usando o OCI Data Labeling. Aqui está um resumo das etapas a serem seguidas:

  1. Colete documentos suficientes que correspondam à distribuição do aplicativo pretendido.
  2. Selecione o formato de anotação correto para o modelo personalizado desejado. Todos os modelos do Document Understanding são suportados no formato de anotação Document, usando anotações de chave/valor para extração de chave/valor personalizada ou classificação de rótulo único para classificação de documento personalizada.
  3. Identifique todas as instâncias dos campos ou classes de documentos que ocorrem no conjunto de dados de origem.

Para obter mais informações, consulte o guia de rotulagem de dados e as etapas em Criando um Conjunto de Dados. Consulte também o tutorial em vídeo para criar e anotar um conjunto de dados de valor-chave.

Diretrizes para a Coleta de Dados

Incluir variações esperadas no conjunto de dados de treinamento
Se você espera variação, tem pelo menos um exemplo de cada variação no conjunto de dados de treinamento. Por exemplo, se você espera que, em formulários de inscrição de funcionário, nem todas as inscrições tenham preenchido o campo de número de telefone de referência, inclua um exemplo em que todos os campos sejam preenchidos, além de um em que todos os campos, exceto o campo de número de telefone de referência, sejam preenchidos.
Tornar o tamanho do conjunto de dados maior que o mínimo
A extração de chave/valor personalizada requer um mínimo de cinco documentos, e a classificação de documento personalizada requer um mínimo de 10 documentos. O aumento do conjunto de dados aumenta o desempenho do modelo. A tabela a seguir mostra os números mínimos recomendados de documentos com base na precisão direcionada, na variação de documentos e nos tipos de documentos:
Número Recomendado de Documentos por Tipo e Precisão para Extração de Chave-Valor Personalizada
Tipo de Documento Precisão Mínima Direcionada (exatidão estimada no nível de campo) Variação em Documentos de Treinamento Número Mínimo de Documentos Recomendado Mais Detalhes
Digital 90% Todos os labels estão presentes. 15 Campos de interesse estão presentes em todos os documentos.
Digital 95% Todos os labels estão presentes. 30 Campos de interesse estão presentes em todos os documentos.
Digital 85% Todos os rótulos não estão presentes. 15 Campos de interesse podem estar ausentes em alguns documentos.
Digital 90% Todos os rótulos não estão presentes. 30 Campos de interesse podem estar ausentes em alguns documentos.
Digital 95% Todos os rótulos não estão presentes. 50 Se os documentos puderem ter uma resolução não padrão e DPI.
Varredura 85% Todos os labels estão presentes.

Mínimo ou nenhum texto manuscrito.

15 Campos de interesse estão presentes em todos os documentos com alta legibilidade nos documentos.
Varredura 95% Todos os labels estão presentes. 30 Imagens com rotação e elementos gráficos (marcações ou marcas de seleção).
Celular 80% Todos os labels estão presentes.

Mínimo ou nenhum texto manuscrito.

15 Campos de interesse estão presentes em todos os documentos com alta legibilidade nos documentos.
Celular 85% Todos os labels estão presentes ou todos os labels não estão presentes.

Mínimo ou nenhum texto manuscrito

.
30 Se os documentos tiverem alta rotação, resolução não padrão e DPI.
Celular 90% Todos os labels estão presentes ou todos os labels não estão presentes.

Mínimo ou nenhum texto manuscrito

.
50 Imagens com rotação e elementos gráficos (marcações ou marcas de seleção).

Número Recomendado de Documentos por Tipo e Precisão para Classificação de Documento
Tipo de Documento Precisão Mínima Direcionada (exatidão estimada no nível de campo) Variação em Documentos de Treinamento Número Mínimo de Documentos Recomendado Mais Detalhes
Digital/Scan/Móvel 90%

Todos os documentos de uma classe têm o mesmo modelo, por exemplo, a classe Fatura pode conter documentos de uma loja ou organização

15 Todos os documentos são rotulados.

O número de documentos mencionados é para uma única classe.
Por exemplo, se um conjunto de dados tiver 5 classes a serem classificadas e o número recomendado de documentos for 15, o número total de documentos será 75 (15*5).

Digital/Scan/Móvel 75% Os documentos de uma classe têm vários modelos. Por exemplo, a classe da fatura pode conter documentos de várias lojas ou organizações. 20 Todos os documentos são rotulados.

O número de documentos mencionados é para uma única classe.
Por exemplo, se um conjunto de dados tiver 5 classes a serem classificadas e o número recomendado de documentos for 15, o número total de documentos será 75 (15*5).

Digital/Scan/Móvel 80% Os documentos de uma classe têm vários modelos. Por exemplo, a classe da fatura pode conter documentos de várias lojas ou organizações. 25 Todos os documentos são rotulados.

O número de documentos mencionados é para uma única classe.
Por exemplo, se um conjunto de dados tiver 5 classes a serem classificadas e o número recomendado de documentos for 15, o número total de documentos será 75 (15*5).

Digital/Scan/Móvel 90% Os documentos de uma classe têm vários modelos. Por exemplo, a classe da fatura pode conter documentos de várias lojas ou organizações. 35 Todos os documentos são rotulados.

O número de documentos mencionados é para uma única classe.
Por exemplo, se um conjunto de dados tiver 5 classes a serem classificadas e o número recomendado de documentos for 15, o número total de documentos será 75 (15*5).

Diretrizes para Anotar Dados

Um modelo personalizado é tão bom quanto a qualidade dos documentos e anotações de treinamento usados para treiná-lo. Veja a seguir diretrizes para criar um modelo personalizado útil:
Anotar os documentos de forma consistente e correta
Imagine que você esteja criando um modelo personalizado para uma inscrição de funcionário e deseja extrair o nome do candidato com o modelo personalizado. Se você espera que o nome e o sobrenome sejam extraídos, anote todas as palavras relacionadas ao nome completo, por exemplo, Mary Joe Smith, como o nome do candidato nos documentos de treinamento. Se o campo de nome do candidato estiver presente em todos os documentos, anote-o em todos os documentos. Ignorar anotações em documentos de treinamento ou anotar parcialmente um campo afeta negativamente a qualidade do modelo.
Anotar nomes de campo e valores de campo
Para permitir que o modelo aprenda melhor, anote os nomes de chaves e valores associados. Por exemplo, para extrair o nome do candidato de um documento, crie dois labels, por exemplo, applicant name field e applicant name value. No documento de treinamento, anote o nome do campo como applicant name field e a resposta, por exemplo, Mary Joe Smith, como applicant name value.