Extracción de tabla

La extracción de tablas se puede utilizar para identificar tablas en un documento y extraer su contenido. Por ejemplo, si un recibo PDF contiene una tabla que incluye los impuestos y el importe total, Document Understanding identifica la tabla y extrae la estructura de la tabla.

Document Understanding proporciona el número de filas y columnas de la tabla y el contenido de cada celda de la tabla. Cada celda tiene una puntuación de confianza. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Las funciones admitidas son:
  • Extracción de tablas con y sin bordes
  • Polígonos encuadernados
  • Puntuación de confianza
  • Solicitud única
  • Solicitud de lote
Las limitaciones son:
  • Solo idioma inglés

Ejemplo de extracción de tabla

Ejemplo de uso de extracción de tablas en Document Understanding.

Documento de Entrada
Solicitud de API de entrada de extracción de tabla Balance ficticio de ocho trimestres:
{ 
                  "processorConfig": {  
                  "processorType": "GENERAL",  
                  "features": [   
                  {    
                  "featureType": "TABLE_EXTRACTION"   
                  }  
                  ] 
                  }, 
                  "inputLocation": {  
                  "sourceType": "OBJECT_STORAGE_LOCATIONS",  
                  "objectLocations": [   
                  {    
                  "source": "OBJECT_STORAGE",    
                  "namespaceName": "",    
                  "bucketName": "",    
                  "objectName": ""   
                  }  
                  ] 
                  }, 
                  "compartmentId": "", 
                  "outputLocation": {  
                  "namespaceName": "",  
                  "bucketName": "",  
                  "prefix": "" 
                  }
                  }
Salida:
Respuesta de API de salida de extracción de tabla El balance general con la celda, la cabecera de columna y el identificador de fila resaltados:
{ "documentMetadata":
                  { "pageCount": 1,
                  "mimeType": "application/pdf" },
                  "pages":
                  [ { "pageNumber": 1,
                  "dimensions": 
                  { "width": 2575, 
                  "height": 1013,
                  "unit": "PIXEL" },
                  ... 
                  "tables":
                  [ { "rowCount": 15,
                  "columnCount": 9,
                  "bodyRows":
                  [ { "cells":
                  [ { "text": "Qtr1-12",
                  "rowIndex": 0,
                  "columnIndex": 1,
                  "confidence": 0.92011595,
                  "boundingPolygon":
                  { "normalizedVertices": 
                  [ { "x": 0.2532038834951456,
                  "y": 0.022704837117472853 },
                  { "x": 0.3005825242718447,
                  "y": 0.022704837117472853 },
                  { "x": 0.3005825242718447,
                  "y": 0.05330700888450148 },
                  { "x": 0.2532038834951456,
                  "y": 0.05330700888450148 } ]
                  },
                  "wordIndexes": [ 0 ] },
                  { "text": "Qtr2-12",
                  "rowIndex": 0,
                  "columnIndex": 2,
                  "confidence": 0.919653,
                  "boundingPolygon":
                  { "normalizedVertices":
                  [ { "x": 0.33048543689320387,
                  "y": 0.022704837117472853 },
                  { "x": 0.3724271844660194,
                  "y": 0.022704837117472853 },
                  { "x": 0.3724271844660194,
                  "y": 0.05330700888450148 },
                  { "x": 0.33048543689320387,
                  "y": 0.05330700888450148 } ]
                  }, "wordIndexes": [ 1 ] },
                  ...