Extração de Tabela
A extração de tabelas pode ser usada para identificar tabelas em um documento e extrair seu conteúdo. Por exemplo, se um recebimento em PDF contiver uma tabela que inclua os impostos e o valor total, o Document Understanding identificará a tabela e extrairá a estrutura da tabela.
O Document Understanding fornece o número de linhas e colunas para a tabela e o conteúdo de cada célula da tabela. Cada célula tem uma pontuação de confiança. A pontuação de confiança é um número decimal. Pontuações mais próximas de 1 indicam maior confiança no texto extraído, enquanto pontuações mais baixas indicam menor pontuação de confiança. O intervalo da pontuação de confiança para cada rótulo é de 0 a 1.
Os recursos suportados são:
- Extração de tabelas para tabelas com e sem bordas
- Polígonos de contorno
- Pontuação de segurança
- Solicitação única
- Solicitação em lote
- Somente no idioma inglês
Exemplo de Extração de Tabela
Um exemplo de uso de extração de tabela no Document Understanding.
- Documento de entrada
-
Solicitação de API
de Entrada de Extração de Tabela:{ "processorConfig": { "processorType": "GENERAL", "features": [ { "featureType": "TABLE_EXTRACTION" } ] }, "inputLocation": { "sourceType": "OBJECT_STORAGE_LOCATIONS", "objectLocations": [ { "source": "OBJECT_STORAGE", "namespaceName": "", "bucketName": "", "objectName": "" } ] }, "compartmentId": "", "outputLocation": { "namespaceName": "", "bucketName": "", "prefix": "" } } - Saída:
-
Resposta da API
de Saída de Extração de Tabela:{ "documentMetadata": { "pageCount": 1, "mimeType": "application/pdf" }, "pages": [ { "pageNumber": 1, "dimensions": { "width": 2575, "height": 1013, "unit": "PIXEL" }, ... "tables": [ { "rowCount": 15, "columnCount": 9, "bodyRows": [ { "cells": [ { "text": "Qtr1-12", "rowIndex": 0, "columnIndex": 1, "confidence": 0.92011595, "boundingPolygon": { "normalizedVertices": [ { "x": 0.2532038834951456, "y": 0.022704837117472853 }, { "x": 0.3005825242718447, "y": 0.022704837117472853 }, { "x": 0.3005825242718447, "y": 0.05330700888450148 }, { "x": 0.2532038834951456, "y": 0.05330700888450148 } ] }, "wordIndexes": [ 0 ] }, { "text": "Qtr2-12", "rowIndex": 0, "columnIndex": 2, "confidence": 0.919653, "boundingPolygon": { "normalizedVertices": [ { "x": 0.33048543689320387, "y": 0.022704837117472853 }, { "x": 0.3724271844660194, "y": 0.022704837117472853 }, { "x": 0.3724271844660194, "y": 0.05330700888450148 }, { "x": 0.33048543689320387, "y": 0.05330700888450148 } ] }, "wordIndexes": [ 1 ] }, ...