Reconnaissance optique des caractères (ROC)

Le service de compréhension de documents peut détecter et reconnaître du texte dans un document. La reconnaissance optique de caractères trace des zones englobantes autour du texte imprimé ou écrit à la main qu'elle trouve dans un document et numérise le texte.

Si vous avez un PDF avec du texte, le service de compréhension de documents trouve le texte dans ce document et extrait le texte. Il fournit ensuite des zones englobantes pour le texte identifié. La détection de texte peut être utilisée avec des modèles d'intelligence artificielle de documents ou d'analyse d'images.

Le service de compréhension de documents fournit une note de confiance pour chaque groupe de texte. La note de confiance est un nombre décimal. Les notes plus proches de 1 indiquent un niveau de confiance élevé dans le texte extrait, tandis que les notes inférieures indiquent un niveau de confiance inférieur. L'intervalle de la note de confiance pour chaque étiquette est compris entre 0 et 1.

Les fonctions prises en charge sont les suivantes :
  • Extraction de mots
  • Extraction de ligne de texte
  • Note de fiabilité
  • Polygones de liaison
  • Demande unique
  • Demande de traitement par lots
Les limites sont les suivantes :
  • La ROC est limitée à l'anglais.

Exemple de reconnaissance optique de caractères

Exemple d'utilisation du registre OCR dans le service de compréhension de documents.

Document d'entrée
Entrée ROC Réception d'un café fictif, comprenant deux lignes d'article, la taxe, le sous-total et les montants totaux.
{ "analyzeDocumentDetails":
                { "compartmentId": "",
                "document": { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
                "features":
                [ { "featureType": "TEXT_DETECTION" },
                { "featureType": "LANGUAGE_CLASSIFICATION",
                "maxResults": 5 } ]
                } 
                }
.
Sortie :
Réponse de l'API Réception avec tous les champs identifiés de sortie ROC :
{ "documentMetadata":
              { "pageCount": 1,
              "mimeType": "image/jpeg" },
              "pages":
              [ { "pageNumber": 1,
              "dimensions":
              { "width": 361, 
              "height": 600,
              "unit": "PIXEL" },
              "detectedLanguages":
              [ { "languageCode": "ENG",
              "confidence": 0.9999994 },
              { "languageCode": "ARA", 
              "confidence": 4.7619238e-7 },
              { "languageCode": "NLD",
              "confidence": 7.2325456e-8 },
              { "languageCode": "CHI_SIM",
              "confidence": 3.0645523e-8 },
              { "languageCode": "ITA",
              "confidence": 8.6900076e-10 } ],
              "words":
              [ { "text": "Example",
              "confidence": 0.99908227,
              "boundingPolygon":
              { "normalizedVertices": 
              [ { "x": 0.0664819944598338, 
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.035 },
              { "x": 0.0664819944598338,
              "y": 0.035 } ]
              } ... "detectedLanguages":
              [ { "languageCode": "ENG", 
              "confidence": 0.9999994 } ], ...