光学文字認識(OCR)

ドキュメント理解では、ドキュメント内のテキストを検出して認識できます。OCRでは、ドキュメント内で検出された印刷テキストまたは手書きテキストの周囲に境界ボックスを描画し、テキストをデジタル化します。

テキストを含むPDFがある場合、Document Understandingはそのドキュメント内のテキストを検索し、テキストを抽出します。次に、識別されたテキストの境界ボックスを提供します。テキスト検出は、ドキュメントAIまたはイメージ分析モデルで使用できます。

Document Understandingは、テキスト・グループごとに信頼度スコアを提供します。信頼度スコアは10進数です。スコアが1に近いと、抽出されたテキストの信頼性が高いことを示しますが、スコアが小さいと信頼度スコアが低くなります。各ラベルの信頼度スコアの範囲は0から1です。

サポートされている機能は次のとおりです。
  • 単語抽出
  • テキスト行の抽出
  • 信頼度スコア
  • 境界ポリゴン
  • 単一リクエスト
  • バッチ要求
制限は次のとおりです。
  • OCRは英語に制限されています。

OCRの例

Document UnderstandingでのOCRの使用例。

入力ドキュメント
OCR入力 税金、小計および合計金額の2つの明細品目を含む架空カフェからの受入。
{ "analyzeDocumentDetails":
                { "compartmentId": "",
                "document": { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
                "features":
                [ { "featureType": "TEXT_DETECTION" },
                { "featureType": "LANGUAGE_CLASSIFICATION",
                "maxResults": 5 } ]
                } 
                }
.
出力:
OCR出力すべてのフィールドが識別された受入 APIレスポンス:
{ "documentMetadata":
              { "pageCount": 1,
              "mimeType": "image/jpeg" },
              "pages":
              [ { "pageNumber": 1,
              "dimensions":
              { "width": 361, 
              "height": 600,
              "unit": "PIXEL" },
              "detectedLanguages":
              [ { "languageCode": "ENG",
              "confidence": 0.9999994 },
              { "languageCode": "ARA", 
              "confidence": 4.7619238e-7 },
              { "languageCode": "NLD",
              "confidence": 7.2325456e-8 },
              { "languageCode": "CHI_SIM",
              "confidence": 3.0645523e-8 },
              { "languageCode": "ITA",
              "confidence": 8.6900076e-10 } ],
              "words":
              [ { "text": "Example",
              "confidence": 0.99908227,
              "boundingPolygon":
              { "normalizedVertices": 
              [ { "x": 0.0664819944598338, 
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.011666666666666667 },
              { "x": 0.22160664819944598,
              "y": 0.035 },
              { "x": 0.0664819944598338,
              "y": 0.035 } ]
              } ... "detectedLanguages":
              [ { "languageCode": "ENG", 
              "confidence": 0.9999994 } ], ...