Vortrainierte Dokument-KI-Modelle

Vision bietet vortrainierte KI-Modelle für Dokumente, mit denen Sie Text und Struktur aus Geschäftsdokumenten organisieren und extrahieren können.

Mit vortrainierten Modellen können Sie KI ohne Data Science-Erfahrung verwenden. Stellen Sie dem Vision-Service ein bildbasiertes Dokument bereit, und rufen Sie Informationen zu Ihrem Dokument zurück, ohne ein eigenes Modell erstellen zu müssen.

Wichtig

Die Funktionen AnalyzeDocument und DocumentJob in Vision wechseln zu einem neuen Service, Document Understanding. Die folgenden Features sind betroffen:

Tabellenerkennung
Dokumentklassifikation
Zahlungsschlüssel/Wert-Extraktion
Dokument-OCR

Diese Funktionen sind in Vision bis zum 1. Januar 2024 verfügbar. Danach sind sie nur noch in Document Understanding verfügbar.

Anwendungsfälle

Mit vortrainierten Dokumenten-KI-Modellen können Sie Backoffice-Vorgänge automatisieren und Wareneingänge genauer verarbeiten.

Intelligente Suche: Erweitern Sie bildbasierte Dateien mit Metadaten, einschließlich Dokumenttyp und Schlüsselfeldern, um den Abruf zu erleichtern.
Aufwandsreporting: Extrahieren Sie die erforderlichen Informationen aus Quittungen, um Geschäftsworkflows zu automatisieren. Beispiel: Spesenabrechnung für Mitarbeiter, Ausgabencompliance und Erstattung.
Nachgelagerte natürliche Sprachverarbeitung (NLP): Extrahieren Sie Text aus PDF-Dateien und organisieren Sie ihn als Eingabe für NLP, entweder in Tabellen oder in Wörtern und Zeilen.
Erfassung von Treuepunkten: Automatisieren Sie Treuepunkteberechnungen aus Wareneingängen basierend auf der Anzahl der Artikel oder dem bezahlten Gesamtbetrag.

Unterstützte Formate

Vision unterstützt mehrere Dokumentformate.

Dokumente können entweder aus einer lokalen Datei oder aus Oracle Cloud Infrastructure Object Storage hochgeladen werden. Sie können folgende Formate haben:

JPEG
PDF
PNG
TIFF

Vortrainierte Modelle

Vision hat fünf Arten von vortrainierten Modellen.

Die vortrainierten Modelle sind:

OCR (Optical Character Recognition)

Vision kann Text in einem Dokument erkennen und erkennen. Die Sprachklassifizierung identifiziert die Sprache eines Dokuments, dann zeichnet OCR Begrenzungsfelder um den gedruckten oder handgeschriebenen Text, den es in einem Bild findet, und digitalisiert den Text.

Wenn Sie eine PDF-Datei mit Text haben, sucht Vision den Text in diesem Dokument und extrahiert den Text. Es stellt dann Begrenzungsfelder für den identifizierten Text bereit. Texterkennung kann mit Dokumenten-KI- oder Bildanalysemodellen verwendet werden.

Vision bietet einen Konfidenzscore für jede Textgruppierung. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1.

Hinweis

Die OCR-Unterstützung ist auf Englisch beschränkt. Wenn Sie wissen, dass der Text in den Bildern auf Englisch ist, setzen Sie die Sprache auf Eng.

Folgende Features werden unterstützt:

Word-Extraktion
Extraktion von Textzeilen
Sicherheitsscore
Gebundene Polygone
Eine einzelne Anforderung
Batchanforderung

Einschränkungen sind:

Obwohl die Sprachklassifizierung mehrere Sprachen identifiziert, ist die OCR auf Englisch beschränkt.

OCR-Beispiel

Ein Beispiel für die Verwendung von OCR in Vision.

Eingabedokument

OCR-Eingabe Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.

{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document": { "namespaceName": "",
   "bucketName": "",
   "objectName": "",
   "source": "OBJECT_STORAGE" },
  "features":
             [ { "featureType": "TEXT_DETECTION" },
               { "featureType": "LANGUAGE_CLASSIFICATION",
                 "maxResults": 5 } ]
 } 
}

Ausgabe:

OCR-Ausgabe Die Zahlung mit allen angegebenen Feldern

API-Antwort:

{ "documentMetadata":
 { "pageCount": 1,
   "mimeType": "image/jpeg" },
   "pages":
           [ { "pageNumber": 1,
               "dimensions":
                            { "width": 361, 
                              "height": 600,
                              "unit": "PIXEL" },
                              "detectedLanguages":
                                                  [ { "languageCode": "ENG",
                                                      "confidence": 0.9999994 },
                                                    { "languageCode": "ARA", 
                                                      "confidence": 4.7619238e-7 },
                                                    { "languageCode": "NLD",
                                                      "confidence": 7.2325456e-8 },
                                                    { "languageCode": "CHI_SIM",
                                                      "confidence": 3.0645523e-8 },
                                                    { "languageCode": "ITA",
                                                      "confidence": 8.6900076e-10 } ],
                              "words":
                                                  [ { "text": "Example",
                                                      "confidence": 0.99908227,
                                                      "boundingPolygon":
                                                                        { "normalizedVertices": 
                                                                                               [ { "x": 0.0664819944598338, 
                                                                                                   "y": 0.011666666666666667 },
                                                                                                 { "x": 0.22160664819944598,
                                                                                                   "y": 0.011666666666666667 },
                                                                                                 { "x": 0.22160664819944598,
                                                                                                   "y": 0.035 },
                                                                                                 { "x": 0.0664819944598338,
                                                                                                   "y": 0.035 } ]
                                                                        } ... "detectedLanguages":
                                                                                                [ { "languageCode": "ENG", 
                                                                                                     "confidence": 0.9999994 } ], ...

Dokumentklassifizierung

Die Dokumentklassifizierung kann zur Klassifizierung eines Dokuments verwendet werden.

Vision bietet eine Liste der möglichen Dokumenttypen für das analysierte Dokument. Jeder Dokumenttyp hat einen Konfidenzscore. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Konfidenzscore hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1. Die Liste der möglichen Dokumenttypen lautet:

Rechnung
Zahlung
Lebenslauf
Steuerformular
Führerschein
Reise
Kontoauszug
Check
Verdienstnachweis
Weitere

Folgende Features werden unterstützt:

Dokument klassifizieren
Sicherheitsscore
Eine einzelne Anforderung
Batchanforderung

Beispiel für eine Dokumentklassifizierung

Ein Beispiel für die Verwendung der Dokumentklassifizierung in Vision.

Eingabedokument

Dokumentklassifizierungseingabe Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.

API-Anforderung:

{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document":
              { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
   "features": 
              [ { "featureType":
                  "DOCUMENT_CLASSIFICATION",
                  "maxResults": 5 } ]
 } 
}

Ausgabe:

API-Antwort:

{ "documentMetadata":
 { "pageCount": 1,
   "mimeType": "image/jpeg" },
  "pages":
          [ { "pageNumber": 1,
              "dimensions": 
                           { "width": 361,
                             "height": 600,
                             "unit": "PIXEL" },
              "detectedDocumentTypes":
                                      [ { "documentType": "RECEIPT",
                                          "confidence": 1 },
                                        { "documentType": "TAX_FORM",
                                          "confidence": 6.465067e-9 },
                                        { "documentType": "CHECK",
                                          "confidence": 6.031838e-9 },
                                        { "documentType": "BANK_STATEMENT",
                                          "confidence": 5.413888e-9 },
                                        { "documentType": "PASSPORT",
                                          "confidence": 1.5554872e-9 } ],
 ...
               detectedDocumentTypes":
                                      [ { "documentType": "RECEIPT",
                                          "confidence": 1 } ], ...

Tabellenextraktion

Mit der Tabellenextraktion können Sie Tabellen in einem Dokument identifizieren und deren Inhalt extrahieren. Beispiel: Wenn eine PDF-Zahlung eine Tabelle enthält, die Steuern und den Gesamtbetrag enthält, identifiziert Vision die Tabelle und extrahiert die Tabellenstruktur.

Vision stellt die Anzahl der Zeilen und Spalten für die Tabelle und den Inhalt in jeder Tabellenzelle bereit. Jede Zelle hat einen Konfidenzscore. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1.

Folgende Features werden unterstützt:

Tabellenextraktion für Tabellen mit und ohne Rahmen
Gebundene Polygone
Sicherheitsscore
Eine einzelne Anforderung
Batchanforderung

Einschränkungen sind:

Nur in englischer Sprache

Beispiel für eine Tabellenextraktion

Beispiel für die Verwendung der Tabellenextraktion in Vision.

Eingabedokument

Tabellenextraktionseingabe Fiktive Bilanz für acht Quartale

API-Anforderung:

{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document": 
              { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
   "features": 
              [ { "featureType": "TABLE_DETECTION" } ]
 } 
}

Ausgabe:

Tabellenextraktionsausgabe Die Bilanz mit hervorgehobener Zelle, Spaltenüberschrift und Zeilen-ID

API-Antwort:

{ "documentMetadata":
 { "pageCount": 1,
   "mimeType": "application/pdf" },
  "pages":
          [ { "pageNumber": 1,
              "dimensions": 
                           { "width": 2575, 
                             "height": 1013,
                             "unit": "PIXEL" },
 ... 
  "tables":
           [ { "rowCount": 15,
               "columnCount": 9,
               "bodyRows":
                          [ { "cells":
                                      [ { "text": "Qtr1-12",
                                          "rowIndex": 0,
                                          "columnIndex": 1,
                                          "confidence": 0.92011595,
                                          "boundingPolygon":
                                                            { "normalizedVertices": 
                                                                                   [ { "x": 0.2532038834951456,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3005825242718447,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3005825242718447,
                                                                                       "y": 0.05330700888450148 },
                                                                                     { "x": 0.2532038834951456,
                                                                                       "y": 0.05330700888450148 } ]
                                                             },
                                                               "wordIndexes": [ 0 ] },
                                        { "text": "Qtr2-12",
                                          "rowIndex": 0,
                                          "columnIndex": 2,
                                          "confidence": 0.919653,
                                          "boundingPolygon":
                                                           { "normalizedVertices":
                                                                                   [ { "x": 0.33048543689320387,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3724271844660194,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3724271844660194,
                                                                                       "y": 0.05330700888450148 },
                                                                                     { "x": 0.33048543689320387,
                                                                                       "y": 0.05330700888450148 } ]
                                                          }, "wordIndexes": [ 1 ] },
 ...

Schlüssel/Wert-Export (Quittungen)

Mit der Schlüsselwertextraktion können Sie Werte für vordefinierte Schlüssel in einer Zahlung identifizieren. Beispiel: Wenn eine Quittung einen Händlernamen, eine Händleradresse oder eine Händlertelefonnummer enthält, kann Vision diese Werte identifizieren und als Schlüssel/Wert-Paar zurückgeben.

Folgende Features werden unterstützt:

Extrahieren Sie Werte für vordefinierte Schlüsselwertpaare
Gebundene Polygone
Eine einzelne Anforderung
Batchanforderung

Einschränkungen:

Unterstützt Quittungen nur auf Englisch.

Folgende Felder werden unterstützt:

MerchantName: Der Name des Händlers, der die Quittung ausstellt.
MerchantPhoneNumber: Die Telefonnummer des Händlers.
MerchantAddress: Die Adresse des Händlers.
TransactionDate: Das Datum, an dem die Zahlung ausgestellt wurde.

TransactionTime: Die Zeit, zu der die Quittung ausgestellt wurde.
Gesamtsumme: Der Gesamtbetrag der Zahlung, nachdem alle Gebühren und Steuern zugeordnet wurden.
Summe: Zwischensumme vor Steuern.
Tax: Alle Umsatzsteuern.
Tipp: Der vom Käufer angegebene Trinkgeldbetrag.

Folgende Positionsinformationen werden unterstützt:

ItemName: Name des Objekts.
ItemPrice: Stückpreis des Artikels.
ItemQuantity: Die Anzahl der gekauften Artikel.
ItemTotalPrice: Der Gesamtpreis der Position.

Schlüssel/Wert-Export (Quittungen) - Beispiel

Beispiel für die Verwendung der Schlüsselwertextraktion in Vision.

Eingabedokument

Eingabe für Schlüssel/Wert-Extraktion (Quittungen) Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.

API-Anforderung:

{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document":
              { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
   "features":
              [ { "featureType": "KEY_VALUE_DETECTION" } ]
 } 
}

Ausgabe:

Ausgabe für die Schlüssel/Wert-Extraktion (Quittungen) Der fiktive Wareneingang mit nur bestimmten Zeilen und Feldern

API-Antwort:

{ "documentMetadata":
                     { "pageCount": 1,
                       "mimeType": "image/jpeg" },
                       "pages":
                               [ { "pageNumber": 1, 
                                   "dimensions":
                                                { "width": 361,
                                                  "height": 600,
                                                  "unit": "PIXEL" },
 ...
                                   "documentFields":
                                                     [ { "fieldType": "KEY_VALUE",
                                                         "fieldLabel":
                                                                      { "name": "MerchantName" },
                                                         "fieldValue":
                                                                      { "valueType": "STRING",
                                                                        "boundingPolygon":
                                                                                          { "normalizedVertices":
                                                                                                                 [ { "x": 0.0664819944598338,
                                                                                                                     "y": 0.011666666666666667 },
                                                                                                                   { "x": 0.3157894736842105,
                                                                                                                     "y": 0.011666666666666667 },
                                                                                                                   { "x": 0.3157894736842105,
                                                                                                                     "y": 0.035 },
                                                                                                                   { "x": 0.0664819944598338,
                                                                                                                     "y": 0.035 } ]
                                                                                           },
                                                                        "wordIndexes":
                                                                                      [ 0, 1 ],
                                                                        "value": "Example cafe" } },
 ...

OCR-PDF

OCR PDF generiert eine durchsuchbare PDF-Datei in Ihrem Object Storage. Beispiel: Vision kann eine PDF-Datei mit Text und Bildern erstellen und eine PDF-Datei zurückgeben, in der Sie nach dem Text in der PDF-Datei suchen können.

Unterstützte Features:

Durchsuchbare PDFs generieren
Eine einzelne Anforderung
Batchanforderung

Beispiel für OCR-PDF

Ein Beispiel für die Verwendung von OCR PDF in Vision.

Eingabe

OCR ODF-Eingabe-API-Anforderung Seite aus einem PDF-Dokument

{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document":
              { "source": "INLINE",
                "data": "......" },
   "features":
              [ { "featureType": "TEXT_DETECTION",
                  "generateSearchablePdf": true } ]
 } 
}

Ausgabe:

Durchsuchbare PDFs.

Vorgeschulte Dokument-KI-Modelle verwenden

Vision bietet vortrainierte Modelle für Kunden, um Erkenntnisse über ihre Dokumente zu gewinnen, ohne Data Scientists zu benötigen.

Sie benötigen Folgendes, bevor Sie ein vortrainiertes Modell verwenden:

Ein kostenpflichtiger Mandantenaccount in Oracle Cloud Infrastructure.
Vertrautheit mit Oracle Cloud Infrastructure Object Storage.

Sie können die vortrainierten Dokument-AI-Modelle als Batchanforderung mit Rest-APIs, SDK oder CLI aufrufen. Sie können die vortrainierten Dokument-AI-Modelle mit der Konsole, den Rest-APIs, dem SDK oder der CLI als einzelne Anforderung aufrufen.

Informationen dazu, was in Batchanforderungen zulässig ist, finden Sie im Abschnitt Limits.

Oracle Cloud Infrastructure-Dokumentation

Vortrainierte Dokument-KI-Modelle

Anwendungsfälle

Unterstützte Formate

Vortrainierte Modelle

OCR (Optical Character Recognition)

Dokumentklassifizierung

Tabellenextraktion

Schlüssel/Wert-Export (Quittungen)

OCR-PDF

Vorgeschulte Dokument-KI-Modelle verwenden