Optische Zeichenerkennung (OCR)

Document Understanding kann Text in einem Dokument erkennen. OCR zeichnet Begrenzungsfelder um den gedruckten oder handgeschriebenen Text, den es in einem Dokument findet, und digitalisiert den Text.

Wenn Sie eine PDF-Datei mit Text haben, sucht Document Understanding den Text in diesem Dokument und extrahiert den Text. Es stellt dann Begrenzungsfelder für den identifizierten Text bereit. Texterkennung kann mit Dokumenten-KI- oder Bildanalysemodellen verwendet werden.

Document Understanding bietet einen Konfidenzscore für jede Textgruppierung. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1.

Folgende Features werden unterstützt:
  • Word-Extraktion
  • Extraktion von Textzeilen
  • Sicherheitsscore
  • Grenzpolygone
  • Einzelne Anforderung
  • Batchanforderung
Einschränkungen sind:
  • OCR ist auf Englisch beschränkt.

OCR-Beispiel

Ein Beispiel für die Verwendung von OCR in Document Understanding.

Eingabedokument
OCR-Eingabe Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.
{ "analyzeDocumentDetails":
                { "compartmentId": "",
                "document": { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
                "features":
                [ { "featureType": "TEXT_DETECTION" },
                { "featureType": "LANGUAGE_CLASSIFICATION",
                "maxResults": 5 } ]
                } 
                }
.
Ausgabe:
OCR-Ausgabe Zahlung mit allen identifizierten Feldern-API-Antwort:
{ "documentMetadata":
              { "pageCount": 1,
              "mimeType": "image/jpeg" },
              "pages":
              [ { "pageNumber": 1,
              "dimensions":
              { "width": 361, 
              "height": 600,
              "unit": "PIXEL" },
              "detectedLanguages":
              [ { "languageCode": "ENG",
              "confidence": 0.9999994 },
              { "languageCode": "ARA", 
              "confidence": 4.7619238e-7 },
              { "languageCode": "NLD",
              "confidence": 7.2325456e-8 },
              { "languageCode": "CHI_SIM",
              "confidence": 3.0645523e-8 },
              { "languageCode": "ITA",
              "confidence": 8.6900076e-10 } ],
              "words":
              [ { "text": "Example",
              "confidence": 0.99908227,
              "boundingPolygon":
              { "normalizedVertices": 
              [ { "x": 0.0664819944598338, 
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.035 },
              { "x": 0.0664819944598338,
              "y": 0.035 } ]
              } ... "detectedLanguages":
              [ { "languageCode": "ENG", 
              "confidence": 0.9999994 } ], ...