光学文字認識(OCR) PDF

OCR PDFは、検索可能なPDFファイルをオブジェクト・ストレージに生成します。たとえば、ドキュメント理解では、テキストとイメージを含むPDFファイルを取得し、PDFでテキストを検索できるPDFファイルを返すことができます。

サポートされる機能:
  • 検索可能PDFの生成
  • 単一リクエスト
  • バッチ要求

OCR PDFの例

Document UnderstandingでのOCR PDFの使用例。

入力
OCR PDF入力PDFドキュメントからのページ APIリクエスト:
{ 
            "processorConfig": {  
            "processorType": "GENERAL",  
            "features": [   
            {    
            "featureType": "TEXT_EXTRACTION",    
            "generateSearchablePdf": true   
            }  
            ] 
            }, 
            "inputLocation": {  
            "sourceType": "OBJECT_STORAGE_LOCATIONS",  
            "objectLocations": [   
            {    
            "source": "OBJECT_STORAGE",    
            "namespaceName": "",    
            "bucketName": "",    
            "objectName": ""   
            }  
            ] 
            }, 
            "compartmentId": "", 
            "outputLocation": {  
            "namespaceName": "",  
            "bucketName": "",  
            "prefix": "" 
            }
            }
出力:
検索可能なPDF