Reconhecimento óptico de caracteres (OCR)

O Document Understanding pode detectar e reconhecer texto em um documento. O OCR desenha caixas delimitadoras em torno do texto impresso ou escrito à mão que encontra em um documento e digitaliza o texto.

Se você tiver um PDF com texto, o Document Understanding localizará o texto nesse documento e extrairá o texto. Em seguida, ele fornece caixas delimitadoras para o texto identificado. A Detecção de Texto pode ser usada com modelos de IA de Documento ou Análise de Imagem.

O Document Understanding fornece uma pontuação de confiança para cada agrupamento de texto. A pontuação de confiança é um número decimal. Pontuações mais próximas de 1 indicam maior confiança no texto extraído, enquanto pontuações mais baixas indicam menor pontuação de confiança. O intervalo da pontuação de confiança para cada rótulo é de 0 a 1.

Os recursos suportados são:
  • Extração do Word
  • Extração de linha de texto
  • Pontuação de segurança
  • Polígonos de contorno
  • Solicitação única
  • Solicitação em lote
As limitações são:
  • O OCR é limitado ao inglês.

Exemplo de OCR

Um exemplo de uso do OCR no Document Understanding.

Documento de entrada
Entrada OCR Recebimento de um café fictício, incluindo dois itens de linha, imposto, subtotal e valores totais.
{ "analyzeDocumentDetails":
                { "compartmentId": "",
                "document": { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
                "features":
                [ { "featureType": "TEXT_DETECTION" },
                { "featureType": "LANGUAGE_CLASSIFICATION",
                "maxResults": 5 } ]
                } 
                }
.
Saída:
Resposta da API O recibo com todos os campos identificados de Saída do OCR:
{ "documentMetadata":
              { "pageCount": 1,
              "mimeType": "image/jpeg" },
              "pages":
              [ { "pageNumber": 1,
              "dimensions":
              { "width": 361, 
              "height": 600,
              "unit": "PIXEL" },
              "detectedLanguages":
              [ { "languageCode": "ENG",
              "confidence": 0.9999994 },
              { "languageCode": "ARA", 
              "confidence": 4.7619238e-7 },
              { "languageCode": "NLD",
              "confidence": 7.2325456e-8 },
              { "languageCode": "CHI_SIM",
              "confidence": 3.0645523e-8 },
              { "languageCode": "ITA",
              "confidence": 8.6900076e-10 } ],
              "words":
              [ { "text": "Example",
              "confidence": 0.99908227,
              "boundingPolygon":
              { "normalizedVertices": 
              [ { "x": 0.0664819944598338, 
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.035 },
              { "x": 0.0664819944598338,
              "y": 0.035 } ]
              } ... "detectedLanguages":
              [ { "languageCode": "ENG", 
              "confidence": 0.9999994 } ], ...