Optische Zeichenerkennung (OCR)
Document Understanding kann Text in einem Dokument erkennen. OCR zeichnet Begrenzungsfelder um den gedruckten oder handgeschriebenen Text, den es in einem Dokument findet, und digitalisiert den Text.
Wenn Sie eine PDF-Datei mit Text haben, sucht Document Understanding den Text in diesem Dokument und extrahiert den Text. Es stellt dann Begrenzungsfelder für den identifizierten Text bereit. Texterkennung kann mit Dokumenten-KI- oder Bildanalysemodellen verwendet werden.
Document Understanding bietet einen Konfidenzscore für jede Textgruppierung. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1.
- Word-Extraktion
- Extraktion von Textzeilen
- Sicherheitsscore
- Grenzpolygone
- Einzelne Anforderung
- Batchanforderung
- OCR ist auf Englisch beschränkt.
OCR-Beispiel
Ein Beispiel für die Verwendung von OCR in Document Understanding.
- Eingabedokument
-
OCR-Eingabe
.{ "analyzeDocumentDetails": { "compartmentId": "", "document": { "namespaceName": "", "bucketName": "", "objectName": "", "source": "OBJECT_STORAGE" }, "features": [ { "featureType": "TEXT_DETECTION" }, { "featureType": "LANGUAGE_CLASSIFICATION", "maxResults": 5 } ] } }
- Ausgabe:
-
OCR-Ausgabe
-API-Antwort:
{ "documentMetadata": { "pageCount": 1, "mimeType": "image/jpeg" }, "pages": [ { "pageNumber": 1, "dimensions": { "width": 361, "height": 600, "unit": "PIXEL" }, "detectedLanguages": [ { "languageCode": "ENG", "confidence": 0.9999994 }, { "languageCode": "ARA", "confidence": 4.7619238e-7 }, { "languageCode": "NLD", "confidence": 7.2325456e-8 }, { "languageCode": "CHI_SIM", "confidence": 3.0645523e-8 }, { "languageCode": "ITA", "confidence": 8.6900076e-10 } ], "words": [ { "text": "Example", "confidence": 0.99908227, "boundingPolygon": { "normalizedVertices": [ { "x": 0.0664819944598338, "y": 0.011666666666666667 }, { "x": 0.22160664819944598, "y": 0.011666666666666667 }, { "x": 0.22160664819944598, "y": 0.035 }, { "x": 0.0664819944598338, "y": 0.035 } ] } ... "detectedLanguages": [ { "languageCode": "ENG", "confidence": 0.9999994 } ], ...