Vortrainierte Modelle

Es gibt fünf Arten von vortrainierten Modellen mit Vision.

Optische Zeichenerkennung (OCR)

Vision kann Text in einem Dokument erkennen und erkennen. Die Sprachklassifizierung identifiziert die Sprache eines Dokuments, dann zeichnet OCR Begrenzungsfelder um den gedruckten oder handgeschriebenen Text, den es in einem Bild findet, und digitalisiert den Text.

Wenn Sie eine PDF-Datei mit Text haben, sucht Vision den Text in diesem Dokument und extrahiert den Text. Es stellt dann Begrenzungsfelder für den identifizierten Text bereit. Texterkennung kann mit Dokumenten-KI- oder Bildanalysemodellen verwendet werden.

Vision bietet einen Konfidenzscore für jede Textgruppierung. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1.

Hinweis

Die OCR-Unterstützung ist auf Englisch beschränkt. Wenn Sie wissen, dass der Text in den Bildern auf Englisch ist, setzen Sie die Sprache auf Eng.
Folgende Features werden unterstützt:
  • Word-Extraktion
  • Extraktion von Textzeilen
  • Konfidenzscore
  • Gebundene Polygone
  • Einzelne Anforderung
  • Batchanforderung
Einschränkungen sind:
  • Obwohl die Sprachklassifizierung mehrere Sprachen identifiziert, ist die OCR auf Englisch beschränkt.
OCR-Beispiel

Ein Beispiel für die Verwendung von OCR in Vision.

Dokument eingeben
Abbildung 1 OCR-Eingabe
Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.
API-Anforderung:
{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document": { "namespaceName": "",
   "bucketName": "",
   "objectName": "",
   "source": "OBJECT_STORAGE" },
  "features":
             [ { "featureType": "TEXT_DETECTION" },
               { "featureType": "LANGUAGE_CLASSIFICATION",
                 "maxResults": 5 } ]
 } 
}
.
Ausgabe:
Abbildung 2 OCR-Ausgabe
Zahlung mit allen identifizierten Feldern
API-Antwort:
{ "documentMetadata":
 { "pageCount": 1,
   "mimeType": "image/jpeg" },
   "pages":
           [ { "pageNumber": 1,
               "dimensions":
                            { "width": 361, 
                              "height": 600,
                              "unit": "PIXEL" },
                              "detectedLanguages":
                                                  [ { "languageCode": "ENG",
                                                      "confidence": 0.9999994 },
                                                    { "languageCode": "ARA", 
                                                      "confidence": 4.7619238e-7 },
                                                    { "languageCode": "NLD",
                                                      "confidence": 7.2325456e-8 },
                                                    { "languageCode": "CHI_SIM",
                                                      "confidence": 3.0645523e-8 },
                                                    { "languageCode": "ITA",
                                                      "confidence": 8.6900076e-10 } ],
                              "words":
                                                  [ { "text": "Example",
                                                      "confidence": 0.99908227,
                                                      "boundingPolygon":
                                                                        { "normalizedVertices": 
                                                                                               [ { "x": 0.0664819944598338, 
                                                                                                   "y": 0.011666666666666667 },
                                                                                                 { "x": 0.22160664819944598,
                                                                                                   "y": 0.011666666666666667 },
                                                                                                 { "x": 0.22160664819944598,
                                                                                                   "y": 0.035 },
                                                                                                 { "x": 0.0664819944598338,
                                                                                                   "y": 0.035 } ]
                                                                        } ... "detectedLanguages":
                                                                                                [ { "languageCode": "ENG", 
                                                                                                     "confidence": 0.9999994 } ], ...

Dokumentklassifizierung

Die Dokumentklassifizierung kann zur Klassifizierung eines Dokuments verwendet werden.

Vision bietet eine Liste der möglichen Dokumenttypen für das analysierte Dokument. Jeder Dokumenttyp hat einen Konfidenzscore. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1. Die Liste der möglichen Dokumenttypen lautet:
  • Rechnung
  • Zahlung
  • Lebenslauf
  • Steuerformular
  • Führerschein
  • Passport
  • Kontoauszug
  • Auswählen
  • Verdienstnachweis
  • Weitere
Folgende Features werden unterstützt:
  • Dokument klassifizieren
  • Konfidenzscore
  • Einzelne Anforderung
  • Batchanforderung
Dokumentklassifizierungsbeispiel

Ein Beispiel für die Verwendung der Dokumentklassifizierung in Vision.

Dokument eingeben
Abbildung 3 Dokumentklassifizierungseingabe
Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.
API-Anforderung:
{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document":
              { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
   "features": 
              [ { "featureType":
                  "DOCUMENT_CLASSIFICATION",
                  "maxResults": 5 } ]
 } 
}
Ausgabe:
API-Antwort:
{ "documentMetadata":
 { "pageCount": 1,
   "mimeType": "image/jpeg" },
  "pages":
          [ { "pageNumber": 1,
              "dimensions": 
                           { "width": 361,
                             "height": 600,
                             "unit": "PIXEL" },
              "detectedDocumentTypes":
                                      [ { "documentType": "RECEIPT",
                                          "confidence": 1 },
                                        { "documentType": "TAX_FORM",
                                          "confidence": 6.465067e-9 },
                                        { "documentType": "CHECK",
                                          "confidence": 6.031838e-9 },
                                        { "documentType": "BANK_STATEMENT",
                                          "confidence": 5.413888e-9 },
                                        { "documentType": "PASSPORT",
                                          "confidence": 1.5554872e-9 } ],
 ...
               detectedDocumentTypes":
                                      [ { "documentType": "RECEIPT",
                                          "confidence": 1 } ], ...

Tabellenextraktion

Mit der Tabellenextraktion können Sie Tabellen in einem Dokument identifizieren und deren Inhalt extrahieren. Beispiel: Wenn eine PDF-Zahlung eine Tabelle enthält, die Steuern und den Gesamtbetrag enthält, identifiziert Vision die Tabelle und extrahiert die Tabellenstruktur.

Vision stellt die Anzahl der Zeilen und Spalten für die Tabelle und den Inhalt in jeder Tabellenzelle bereit. Jede Zelle hat einen Konfidenzscore. Der Konfidenzscore ist eine Dezimalzahl. Punkte, die näher an 1 liegen, weisen auf eine höhere Sicherheit im extrahierten Text hin, während niedrigere Scores auf einen niedrigeren Vertrauenswert hinweisen. Der Bereich des Konfidenzscores für jedes Label liegt zwischen 0 und 1.

Folgende Features werden unterstützt:
  • Tabellenextraktion für Tabellen mit und ohne Rahmen
  • Gebundene Polygone
  • Konfidenzscore
  • Einzelne Anforderung
  • Batchanforderung
Einschränkungen sind:
  • Nur in englischer Sprache
Beispiel für die Tabellenextraktion

Beispiel für die Verwendung der Tabellenextraktion in Vision.

Dokument eingeben
Abbildung 4 Tabellenextraktionseingabe
Fiktive Bilanz für acht Quartale
API-Anforderung:
{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document": 
              { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
   "features": 
              [ { "featureType": "TABLE_DETECTION" } ]
 } 
}
Ausgabe:
Abbildung 5 Tabellenextraktionsausgabe
Bilanz mit hervorgehobener Zelle, Spaltenüberschrift und Zeilenkennung
API-Antwort:
{ "documentMetadata":
 { "pageCount": 1,
   "mimeType": "application/pdf" },
  "pages":
          [ { "pageNumber": 1,
              "dimensions": 
                           { "width": 2575, 
                             "height": 1013,
                             "unit": "PIXEL" },
 ... 
  "tables":
           [ { "rowCount": 15,
               "columnCount": 9,
               "bodyRows":
                          [ { "cells":
                                      [ { "text": "Qtr1-12",
                                          "rowIndex": 0,
                                          "columnIndex": 1,
                                          "confidence": 0.92011595,
                                          "boundingPolygon":
                                                            { "normalizedVertices": 
                                                                                   [ { "x": 0.2532038834951456,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3005825242718447,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3005825242718447,
                                                                                       "y": 0.05330700888450148 },
                                                                                     { "x": 0.2532038834951456,
                                                                                       "y": 0.05330700888450148 } ]
                                                             },
                                                               "wordIndexes": [ 0 ] },
                                        { "text": "Qtr2-12",
                                          "rowIndex": 0,
                                          "columnIndex": 2,
                                          "confidence": 0.919653,
                                          "boundingPolygon":
                                                           { "normalizedVertices":
                                                                                   [ { "x": 0.33048543689320387,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3724271844660194,
                                                                                       "y": 0.022704837117472853 },
                                                                                     { "x": 0.3724271844660194,
                                                                                       "y": 0.05330700888450148 },
                                                                                     { "x": 0.33048543689320387,
                                                                                       "y": 0.05330700888450148 } ]
                                                          }, "wordIndexes": [ 1 ] },
 ...

Schlüssel/Wert-Extraktion (Quittungen)

Mit der Schlüsselwertextraktion können Sie Werte für vordefinierte Schlüssel in einer Zahlung identifizieren. Beispiel: Wenn eine Quittung einen Händlernamen, eine Händleradresse oder eine Händlertelefonnummer enthält, kann Vision diese Werte identifizieren und als Schlüssel/Wert-Paar zurückgeben.

Folgende Features werden unterstützt:
  • Werte für vordefinierte Schlüsselwertpaare extrahieren
  • Gebundene Polygone
  • Einzelne Anforderung
  • Batchanforderung
Einschränkungen:
  • Unterstützt Quittungen nur in englischer Sprache.
Folgende Felder werden unterstützt:
MerchantName
Der Name des Händlers, der die Zahlung ausstellt.
MerchantPhoneNumber
Telefonnummer des Händlers.
MerchantAddress
Die Adresse des Händlers.
TransactionDate
Das Datum, an dem die Zahlung ausgestellt wurde.
TransactionTime
Die Zeit, zu der die Quittung ausgestellt wurde.
gesamt
Der Gesamtbetrag der Quittung, nachdem alle Gebühren und Steuern zugeordnet wurden.
Summe
Die Zwischensumme vor Steuern.
Tax
Alle Umsatzsteuern.
Tipp
Der vom Käufer angegebene Trinkgeldbetrag.
Folgende Positionsinformationen werden unterstützt:
ItemName
Name des Objekts.
ItemPrice
Stückpreis des Artikels.
ItemQuantity
Die Anzahl der gekauften Artikel.
ItemTotalPrice
Der Gesamtpreis der Position.
Beispiel für die Schlüsselwertextrahierung (Quittungen)

Beispiel für die Verwendung der Schlüsselwertextraktion in Vision.

Dokument eingeben
Abbildung 6 Schlüssel/Wert-Extraktion (Quittungen) - Eingabe
Quittung aus einem fiktiven Café, einschließlich zwei Positionen, Steuer, Zwischensumme und Gesamtbeträge.
API-Anforderung:
{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document":
              { "namespaceName": "",
                "bucketName": "",
                "objectName": "",
                "source": "OBJECT_STORAGE" },
   "features":
              [ { "featureType": "KEY_VALUE_DETECTION" } ]
 } 
}
Ausgabe:
Abbildung 7 Ausgabe für die Schlüssel/Wert-Extraktion (Quittungen)
Der fiktive Wareneingang mit nur bestimmten Zeilen und Feldern
API-Antwort:
{ "documentMetadata":
                     { "pageCount": 1,
                       "mimeType": "image/jpeg" },
                       "pages":
                               [ { "pageNumber": 1, 
                                   "dimensions":
                                                { "width": 361,
                                                  "height": 600,
                                                  "unit": "PIXEL" },
 ...
                                   "documentFields":
                                                     [ { "fieldType": "KEY_VALUE",
                                                         "fieldLabel":
                                                                      { "name": "MerchantName" },
                                                         "fieldValue":
                                                                      { "valueType": "STRING",
                                                                        "boundingPolygon":
                                                                                          { "normalizedVertices":
                                                                                                                 [ { "x": 0.0664819944598338,
                                                                                                                     "y": 0.011666666666666667 },
                                                                                                                   { "x": 0.3157894736842105,
                                                                                                                     "y": 0.011666666666666667 },
                                                                                                                   { "x": 0.3157894736842105,
                                                                                                                     "y": 0.035 },
                                                                                                                   { "x": 0.0664819944598338,
                                                                                                                     "y": 0.035 } ]
                                                                                           },
                                                                        "wordIndexes":
                                                                                      [ 0, 1 ],
                                                                        "value": "Example cafe" } },
 ...

OCR-PDF (optische Zeichenerkennung)

OCR PDF generiert eine durchsuchbare PDF-Datei in Ihrem Object Storage. Beispiel: Vision kann eine PDF-Datei mit Text und Bildern erstellen und eine PDF-Datei zurückgeben, in der Sie nach dem Text in der PDF-Datei suchen können.

Unterstützte Features:
  • Durchsuchbare PDFs generieren
  • Einzelne Anforderung
  • Batchanforderung
OCR PDF Beispiel

Ein Beispiel für die Verwendung von OCR PDF in Vision.

Eingabe
Abbildung 8 OCR ODF-Eingabe
Seite aus einem PDF-Dokument
API-Anforderung:
{ "analyzeDocumentDetails":
 { "compartmentId": "",
   "document":
              { "source": "INLINE",
                "data": "......" },
   "features":
              [ { "featureType": "TEXT_DETECTION",
                  "generateSearchablePdf": true } ]
 } 
}
Ausgabe:
Durchsuchbare PDF.

Vortrainierte Dokument-KI-Modelle verwenden

Vision bietet vortrainierte Modelle für Kunden, um Erkenntnisse über ihre Dokumente zu gewinnen, ohne Data Scientists zu benötigen.

Sie benötigen Folgendes, bevor Sie ein vortrainiertes Modell verwenden:

  • Ein kostenpflichtiger Mandantenaccount in Oracle Cloud Infrastructure.

  • Vertrautheit mit Oracle Cloud Infrastructure Object Storage.

Sie können die vortrainierten Dokument-KI-Modelle mit Rest-APIs, SDK oder CLI als Batchanforderung aufrufen. Sie können die vortrainierten Dokument-AI-Modelle mit der Konsole, Rest-APIs, dem SDK oder der CLI als einzelne Anforderung aufrufen.

Informationen dazu, was in Batchanforderungen zulässig ist, finden Sie im Abschnitt Limits.