Extraction de table

L'extraction de table permet d'identifier les tables d'un document et d'en extraire le contenu. Par exemple, si un reçu PDF contient une table qui inclut les taxes et le montant total, Document Understanding identifie la table et extrait la structure de la table.

Document Understanding fournit le nombre de lignes et de colonnes pour la table et le contenu de chaque cellule de la table. Chaque cellule a un score de confiance. Le score de confiance est un nombre décimal. Les scores plus proches de 1 indiquent une confiance plus élevée dans le texte extrait, tandis que les scores inférieurs indiquent un score de confiance inférieur. La plage du score de confiance pour chaque étiquette est comprise entre 0 et 1.

Les fonctionnalités prises en charge sont les suivantes :
  • Extraction de table pour tables avec et sans bordures
  • Polygone limitant
  • Score de confiance
  • Demande unique
  • Demande par lots
Les limites sont les suivantes :
  • Langue anglaise uniquement

Exemple d'extraction de table

Exemple d'utilisation de l'extraction de table dans Document Understanding.

Document d'entrée
Demande d'API d'entrée d'extraction de table Bilan fictif pour huit trimestres :
{ 
                  "processorConfig": {  
                  "processorType": "GENERAL",  
                  "features": [   
                  {    
                  "featureType": "TABLE_EXTRACTION"   
                  }  
                  ] 
                  }, 
                  "inputLocation": {  
                  "sourceType": "OBJECT_STORAGE_LOCATIONS",  
                  "objectLocations": [   
                  {    
                  "source": "OBJECT_STORAGE",    
                  "namespaceName": "",    
                  "bucketName": "",    
                  "objectName": ""   
                  }  
                  ] 
                  }, 
                  "compartmentId": "", 
                  "outputLocation": {  
                  "namespaceName": "",  
                  "bucketName": "",  
                  "prefix": "" 
                  }
                  }
Sortie :
Réponse d'API de sortie d'extraction de table Bilan avec cellule, en-tête de colonne et identificateur de ligne mis en surbrillance :
{ "documentMetadata":
                  { "pageCount": 1,
                  "mimeType": "application/pdf" },
                  "pages":
                  [ { "pageNumber": 1,
                  "dimensions": 
                  { "width": 2575, 
                  "height": 1013,
                  "unit": "PIXEL" },
                  ... 
                  "tables":
                  [ { "rowCount": 15,
                  "columnCount": 9,
                  "bodyRows":
                  [ { "cells":
                  [ { "text": "Qtr1-12",
                  "rowIndex": 0,
                  "columnIndex": 1,
                  "confidence": 0.92011595,
                  "boundingPolygon":
                  { "normalizedVertices": 
                  [ { "x": 0.2532038834951456,
                  "y": 0.022704837117472853 },
                  { "x": 0.3005825242718447,
                  "y": 0.022704837117472853 },
                  { "x": 0.3005825242718447,
                  "y": 0.05330700888450148 },
                  { "x": 0.2532038834951456,
                  "y": 0.05330700888450148 } ]
                  },
                  "wordIndexes": [ 0 ] },
                  { "text": "Qtr2-12",
                  "rowIndex": 0,
                  "columnIndex": 2,
                  "confidence": 0.919653,
                  "boundingPolygon":
                  { "normalizedVertices":
                  [ { "x": 0.33048543689320387,
                  "y": 0.022704837117472853 },
                  { "x": 0.3724271844660194,
                  "y": 0.022704837117472853 },
                  { "x": 0.3724271844660194,
                  "y": 0.05330700888450148 },
                  { "x": 0.33048543689320387,
                  "y": 0.05330700888450148 } ]
                  }, "wordIndexes": [ 1 ] },
                  ...