Extração de Tabela

A extração de tabelas pode ser usada para identificar tabelas em um documento e extrair seu conteúdo. Por exemplo, se um recebimento em PDF contiver uma tabela que inclua os impostos e o valor total, o Document Understanding identificará a tabela e extrairá a estrutura da tabela.

O Document Understanding fornece o número de linhas e colunas para a tabela e o conteúdo de cada célula da tabela. Cada célula tem uma pontuação de confiança. A pontuação de confiança é um número decimal. Pontuações mais próximas de 1 indicam maior confiança no texto extraído, enquanto pontuações mais baixas indicam menor pontuação de confiança. O intervalo da pontuação de confiança para cada rótulo é de 0 a 1.

Os recursos suportados são:
  • Extração de tabelas para tabelas com e sem bordas
  • Polígonos de contorno
  • Pontuação de segurança
  • Solicitação única
  • Solicitação em lote
As limitações são:
  • Somente no idioma inglês

Exemplo de Extração de Tabela

Um exemplo de uso de extração de tabela no Document Understanding.

Documento de entrada
Solicitação de API Balanço fictício para oito trimestres de Entrada de Extração de Tabela:
{ 
                  "processorConfig": {  
                  "processorType": "GENERAL",  
                  "features": [   
                  {    
                  "featureType": "TABLE_EXTRACTION"   
                  }  
                  ] 
                  }, 
                  "inputLocation": {  
                  "sourceType": "OBJECT_STORAGE_LOCATIONS",  
                  "objectLocations": [   
                  {    
                  "source": "OBJECT_STORAGE",    
                  "namespaceName": "",    
                  "bucketName": "",    
                  "objectName": ""   
                  }  
                  ] 
                  }, 
                  "compartmentId": "", 
                  "outputLocation": {  
                  "namespaceName": "",  
                  "bucketName": "",  
                  "prefix": "" 
                  }
                  }
Saída:
Resposta da API O balanço patrimonial com célula, cabeçalho de coluna e identificador de linha destacados de Saída de Extração de Tabela:
{ "documentMetadata":
                  { "pageCount": 1,
                  "mimeType": "application/pdf" },
                  "pages":
                  [ { "pageNumber": 1,
                  "dimensions": 
                  { "width": 2575, 
                  "height": 1013,
                  "unit": "PIXEL" },
                  ... 
                  "tables":
                  [ { "rowCount": 15,
                  "columnCount": 9,
                  "bodyRows":
                  [ { "cells":
                  [ { "text": "Qtr1-12",
                  "rowIndex": 0,
                  "columnIndex": 1,
                  "confidence": 0.92011595,
                  "boundingPolygon":
                  { "normalizedVertices": 
                  [ { "x": 0.2532038834951456,
                  "y": 0.022704837117472853 },
                  { "x": 0.3005825242718447,
                  "y": 0.022704837117472853 },
                  { "x": 0.3005825242718447,
                  "y": 0.05330700888450148 },
                  { "x": 0.2532038834951456,
                  "y": 0.05330700888450148 } ]
                  },
                  "wordIndexes": [ 0 ] },
                  { "text": "Qtr2-12",
                  "rowIndex": 0,
                  "columnIndex": 2,
                  "confidence": 0.919653,
                  "boundingPolygon":
                  { "normalizedVertices":
                  [ { "x": 0.33048543689320387,
                  "y": 0.022704837117472853 },
                  { "x": 0.3724271844660194,
                  "y": 0.022704837117472853 },
                  { "x": 0.3724271844660194,
                  "y": 0.05330700888450148 },
                  { "x": 0.33048543689320387,
                  "y": 0.05330700888450148 } ]
                  }, "wordIndexes": [ 1 ] },
                  ...