Reconnaissance optique de caractères (OCR)

Document Understanding peut détecter et reconnaître du texte dans un document. OCR dessine des zones englobantes autour du texte imprimé ou manuscrit qu'il trouve dans un document, et numérise le texte.

Si vous disposez d'un PDF avec du texte, Document Understanding recherche le texte dans ce document et extrait le texte. Il fournit ensuite des zones englobantes pour le texte identifié. La détection de texte peut être utilisée avec des modèles d'IA de documents ou d'analyse d'images.

Document Understanding fournit un score de confiance pour chaque regroupement de texte. Le score de confiance est un nombre décimal. Les scores plus proches de 1 indiquent une confiance plus élevée dans le texte extrait, tandis que les scores inférieurs indiquent un score de confiance inférieur. La plage du score de confiance pour chaque étiquette est comprise entre 0 et 1.

Les fonctionnalités prises en charge sont les suivantes :
  • Extraction de mots
  • Extraction de ligne de texte
  • Score de confiance
  • Polygone limitant
  • Demande unique
  • Demande par lots
Les limites sont les suivantes :
  • L'OCR est limité à l'anglais.

Exemple de registre OCR

Exemple d'utilisation du registre OCR dans Document Understanding.

Document d'entrée
Saisie OCR Reçu d'un café fictif, comprenant deux lignes, la taxe, le sous-total et les montants totaux.
{ "analyzeDocumentDetails":
                { "compartmentId": "",
                "document": { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
                "features":
                [ { "featureType": "TEXT_DETECTION" },
                { "featureType": "LANGUAGE_CLASSIFICATION",
                "maxResults": 5 } ]
                } 
                }
.
Sortie :
Réponse d'API de sortie OCR Encaissement avec tous les champs identifiés :
{ "documentMetadata":
              { "pageCount": 1,
              "mimeType": "image/jpeg" },
              "pages":
              [ { "pageNumber": 1,
              "dimensions":
              { "width": 361, 
              "height": 600,
              "unit": "PIXEL" },
              "detectedLanguages":
              [ { "languageCode": "ENG",
              "confidence": 0.9999994 },
              { "languageCode": "ARA", 
              "confidence": 4.7619238e-7 },
              { "languageCode": "NLD",
              "confidence": 7.2325456e-8 },
              { "languageCode": "CHI_SIM",
              "confidence": 3.0645523e-8 },
              { "languageCode": "ITA",
              "confidence": 8.6900076e-10 } ],
              "words":
              [ { "text": "Example",
              "confidence": 0.99908227,
              "boundingPolygon":
              { "normalizedVertices": 
              [ { "x": 0.0664819944598338, 
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.035 },
              { "x": 0.0664819944598338,
              "y": 0.035 } ]
              } ... "detectedLanguages":
              [ { "languageCode": "ENG", 
              "confidence": 0.9999994 } ], ...