Unstrukturierte Dokumente intelligent verarbeiten

Die Verarbeitung unstrukturierter Dokumente kann ohne intelligente Automatisierung eine zeitaufwendige Aufgabe sein. Nehmen wir als Beispiel Rechnungs-PDFs: Möglicherweise müssen Sie Schlüsselheaderinformationen wie Firmenname, Datum, Rechnungsnummer, Adresse usw. extrahieren. Sie müssen wahrscheinlich auch jede Position mit verschiedenen Artikelnummern, Beschreibungen, Mengen, Stückpreisen und Summen extrahieren. Nach der Extraktion müssen diese Informationen in einem Quellsystem wie einer Datenbank, einer Zielanwendung wie Oracle E-Business Suite, Oracle Fusion Cloud Financials oder Oracle Fusion Cloud SCM gepostet werden, um nur einige zu nennen. Schließlich können Ihre Endbenutzer Aktionen für die neu veröffentlichten Informationen ausführen, unabhängig davon, ob es sich um das Erstellen von Berichten oder sogar um eine benutzerdefinierte Anwendung handelt.

Dieses Szenario kann einfach mit Oracle Integration Cloud Service erreicht werden, um verschiedene Oracle Cloud Infrastructure-(OCI-)Services zu orchestrieren. Mit Oracle Integration Cloud Service können Sie ganz einfach eine Verbindung zu Ihren Aufzeichnungssystemen herstellen und diese integrieren, unabhängig davon, ob sie in OCI oder anderswo ausgeführt werden. Die KI-Services von OCI, wie OCI Document Understanding, können einfach mit Oracle Integration Cloud Service kombiniert werden, um eine Vielzahl von Anwendungsfällen zu erreichen.

Sie können diesen Ansatz ganz einfach auf eine Reihe anderer Anwendungsfälle anwenden, mit denen die Verarbeitung unstrukturierter Dokumente mithilfe vordefinierter Modelle wie Reisepässe, Führerscheine und Belege automatisiert wird. Andere Dokumenttypen können auch verarbeitet werden, indem ein benutzerdefiniertes Modell im OCI Document Understanding-Service trainiert wird.

Architektur

Diese Architektur beschreibt, wie Sie mit Oracle Integration Cloud Service OCI-Services orchestrieren können, um die intelligente unstrukturierte Dokumentenverarbeitung zu automatisieren.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.



oic-process-documents-arch.zip

Der Workflow dieser Architektur ähnelt:

  1. Eine Integration wird von Oracle Integration Cloud Service gestartet, um neue E-Mail-Anhänge (PDFs, PNGs, JPGs usw.) aus Microsoft Outlook oder Gmail mithilfe vordefinierter Adapter abzurufen.
  2. Anhänge können im eingebetteten Dateiserver von Oracle Integration Cloud Service oder in OCI Object Storage für eine kurz- bis langfristige Aufbewahrung gespeichert werden.
  3. OCI Document Understanding wird aufgerufen, um die neu hochgeladenen Dateien aufzunehmen und zu verarbeiten und strukturierte JSON der extrahierten Schlüsselfelder zurück an Oracle Integration Cloud Service zurückzugeben.
  4. Wenn der von OCI Document Understanding zurückgegebene Konfidenzscore einen akzeptablen Schwellenwert erreicht, transformiert und validiert die Integration das extrahierte Ergebnis, indem zusätzliche Aufrufe an verschiedene Systeme oder Anwendungen mit einem der über 100 vordefinierten Adapter durchgeführt werden. Andernfalls startet die Integration einen Prozess innerhalb der Oracle Integration Cloud Service-Prozessautomatisierung, um die Human-in-the-Loop-Ausnahmebehandlung sicherzustellen. Im Rahmen dieses Prozesses erhält ein Entwickler oder Analyst eine E-Mail-Benachrichtigung, um das Dokument zu prüfen und entweder vor der erneuten Weiterleitung zu korrigieren oder die erforderlichen Schlüssel/Wert-Paare manuell zu identifizieren, damit die Integration fortgesetzt werden kann.
  5. The extracted data is inserted into a system of record such as on-premises Oracle E-Business Suite through the use of OCI FastConnect and a connectivity agent, Oracle Fusion Cloud Financials over the Oracle backbone, an Oracle Autonomous Transaction Processing Database via a private endpoint, or other applications like Salesforce, SAP, and Workday.
  6. Wenn die extrahierten und validierten Daten im Rahmen des Integrationsablaufs in eine private Oracle Autonomous Transaction Processing-Datenbank eingefügt werden, können Sie jetzt zusätzliche OCI-Funktionen nutzen, um Ihren Endbenutzern verschiedene Möglichkeiten zur Interaktion mit den Daten zu bieten. Beispiel: Sie können ganz einfach ein benutzerdefiniertes Portal mit Oracle APEX (einer Low-Code-Plattform, die in Oracle Database enthalten ist) erstellen. Dieses Portal bietet Geschäftsbenutzern die Möglichkeit, die extrahierten Daten über eine benutzerdefinierte Benutzeroberfläche abzufragen und zu aktualisieren.
  7. Optional können Sie die Oracle Autonomous Transaction Processing-Datenbank mit einer Oracle Analytics Cloud-Instanz verbinden, in der Geschäftsbenutzer benutzerdefinierte Berichte erstellen können, mit denen die wichtigsten verarbeiteten Dokumenttrends aufgedeckt werden.

Die Architektur umfasst die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Availability-Domains

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Daher sollte ein Fehler in einer Availability-Domain sich nicht auf die anderen Availability-Domains in der Region auswirken.

  • Faultdomains

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain umfasst drei Faultdomains mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • On-Premise-Netzwerk

    Dieses Netzwerk ist das lokale Netzwerk, das von Ihrer Organisation verwendet wird. Es ist einer der Speichen der Topologie.

  • Dynamisches Routinggateway (DRG)

    Das DRG ist ein virtueller Router, der einen Pfad für privaten Netzwerktraffic zwischen VCNs in derselben Region zwischen einem VCN und einem Netzwerk außerhalb der Region bereitstellt, z.B. ein VCN in einer anderen Oracle Cloud Infrastructure-Region, ein On-Premise-Netzwerk oder ein Netzwerk in einem anderen Cloud-Provider.

  • Servicegateway

    Das Servicegateway bietet Zugriff von einem VCN auf andere Services, wie Oracle Cloud Infrastructure Object Storage. Der Traffic vom VCN zum Oracle-Service wird über die Oracle-Netzwerkstruktur geleitet und durchläuft nicht das Internet.

  • FastConnect

    Mit Oracle Cloud Infrastructure FastConnect können Sie ganz einfach eine dedizierte, private Verbindung zwischen Ihrem Data Center und Oracle Cloud Infrastructure herstellen. FastConnect bietet Optionen mit höherer Bandbreite und ein zuverlässigeres Netzwerkerlebnis im Vergleich zu internetbasierten Verbindungen.

  • Routentabelle

    Virtuelle Routentabellen enthalten Regeln zum Weiterleiten von Traffic von Subnetzen an Ziele außerhalb eines VCN, in der Regel über Gateways.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Typ des Traffics angeben, der im Subnetz und aus dem Subnetz zugelassen werden muss.

  • Object Storage

    Mit Object Storage können Sie schnell auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps zugreifen, einschließlich Datenbankbackups, analytischen Daten und umfangreichen Inhalten wie Bildern und Videos. Sie können Daten sicher und geschützt speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "guten" Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "Cold Storage", den Sie über lange Zeiträume beibehalten und auf den Sie nur selten zugreifen.

  • Oracle Services Network

    Das Oracle Services Network (OSN) ist ein konzeptionelles Netzwerk in Oracle Cloud Infrastructure, das für Oracle-Services reserviert ist. Diese Services verfügen über öffentliche IP-Adressen, die Sie über das Internet erreichen können. Hosts außerhalb von Oracle Cloud können mit Oracle Cloud Infrastructure FastConnect oder VPN Connect privat auf das OSN zugreifen. Hosts in Ihren VCNs können über ein Servicegateway privat auf den OSN zugreifen.

  • Integration

    Oracle Integration ist ein vollständig verwalteter Service, mit dem Sie Ihre Anwendungen integrieren, Prozesse automatisieren, Einblicke in Ihre Geschäftsprozesse erlangen und visuelle Anwendungen erstellen können.

  • Dokumentanalyse

    Oracle Cloud Infrastructure Document Understanding ist ein KI-Service für die Durchführung von Dokumentenanalysen auf Basis von Deep Learning in großem Maßstab. Mit vorgefertigten Modellen, die out-of-the-box verfügbar sind, können Entwickler ganz einfach intelligente Dokumentenverarbeitung in ihre Anwendungen ohne maschinelles Lernen (ML) erstellen.

  • Analyse

    Oracle Analytics Cloud ist ein skalierbarer und sicherer Public Cloud-Service, mit dem Business Analysts moderne, KI-gesteuerte Selfservice-Analysefunktionen für Datenvorbereitung, Visualisierung, Unternehmensberichte, erweiterte Analysen sowie natürliche Sprachverarbeitung und -generierung erhalten. Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Serviceverwaltungsfunktionen, darunter schnelles Setup, einfache Skalierung und Patches sowie automatisiertes Lebenszyklusmanagement.

  • APEX-Service

    Oracle APEX ist eine Low-Code-Entwicklungsplattform, mit der Sie skalierbare, funktionsreiche, sichere Unternehmensanwendungen entwickeln und überall dort bereitstellen können, wo Oracle Database installiert ist. Sie müssen kein Experte für eine Vielzahl von Technologien sein, um anspruchsvolle Lösungen bereitzustellen. Oracle APEX umfasst integrierte Features, wie Benutzeroberflächen-Themes, Navigationskontrollen, Formularbearbeitung und flexible Berichte, die den Anwendungsentwicklungsprozess beschleunigen.

  • Autonomous Transaction Processing

    Oracle Autonomous Transaction Processing ist ein selbststeuernder, selbstsichernder und selbstreparierender Datenbankservice, der für Transaktionsverarbeitungs-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten oder Software installieren. Oracle Cloud Infrastructure übernimmt das Erstellen der Datenbank sowie Backup, Patching, Upgrade und Optimierung der Datenbank.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) ist die Zugriffskontrollebene für Oracle Cloud Infrastructure (OCI) und Oracle Cloud Applications. Mit der IAM-API und der Benutzeroberfläche können Sie Identitätsdomains und die Ressourcen innerhalb der Identitätsdomain verwalten. Jede OCI-IAM-Identitätsdomain stellt eine eigenständige Identity and Access Management-Lösung oder eine andere Benutzerpopulation dar.

  • Logging
    Logging ist ein hoch skalierbarer und vollständig verwalteter Service, der Zugriff auf die folgenden Logtypen von Ihren Ressourcen in der Cloud ermöglicht:
    • Auditlogs: Logs zu Ereignissen, die vom Audit-Service ausgegeben werden.
    • Servicelogs:: Logs, die von einzelnen Services wie API Gateway, Events, Functions, Load Balancing, Object Storage und VCN-Flowlogs ausgegeben werden.
    • Benutzerdefinierte Logs: Logs, die Diagnoseinformationen von benutzerdefinierten Anwendungen, anderen Cloud-Providern oder einer On-Premise-Umgebung enthalten.
  • Audit

    Der Oracle Cloud Infrastructure Audit-Service zeichnet Aufrufe aller unterstützten öffentlichen API-Endpunkte von Oracle Cloud Infrastructure automatisch als Logereignisse auf. Derzeit unterstützen alle Services das Logging mit Oracle Cloud Infrastructure Audit.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt, um die intelligente Dokumentverarbeitung mit Oracle Integration Cloud Service zu implementieren. Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.
  • Zugriff auf eine Oracle Integration Cloud Service-Instanz einschränken

    Begrenzen Sie die Netzwerke, die Zugriff auf Ihre Oracle Integration Cloud Service-Instanz haben, indem Sie eine Ausnahmeliste (früher eine Ausnahmeliste) konfigurieren. Nur Benutzer mit den spezifischen IP-Adressen, klassenlosen CIDR-Blöcken (Interdomain Routing) und virtuellen Cloud-Netzwerken, die Sie angeben, können auf die Instanz zugreifen.

  • Konnektivität

    Wenn Sie Ressourcen in OCI bereitstellen, können Sie mit einer einzigen Verbindung zu Ihrem On-Premise-Netzwerk klein anfangen. Diese einzelne Verbindung kann über FastConnect oder über das VPN IPSec erfolgen. Um die Redundanz zu planen, berücksichtigen Sie alle Komponenten (Hardwaregeräte, Einrichtungen, Schaltungen und Stromversorgung) zwischen Ihrem On-Premise-Netzwerk und OCI. Berücksichtigen Sie auch Vielfalt, um sicherzustellen, dass Einrichtungen nicht zwischen den Pfaden geteilt werden.

  • Connectivity Agent in High Availability-Umgebungen verwenden

    Sie können den Konnektivitäts-Agent in High Availability-Umgebungen mit Oracle Integration Cloud Service verwenden, indem Sie den Konnektivitäts-Agent zweimal auf verschiedenen Hosts installieren. Die Konnektivitäts-Agents können horizontal skaliert werden und bieten somit alle Vorteile, wenn mehrere Agents für eine Agent-Gruppe ausgeführt werden. Dies führt zu einer höheren Performance und erweitert die Failover-Vorteile.

  • Private Endpunkte verwenden

    Mit einem privaten Endpunkt können Ihre Integrationen eine Verbindung zu privaten Ressourcen in Ihrem virtuellen Cloud-Netzwerk (VCN) herstellen. Der gesamte Traffic wird über einen privaten Kanal geleitet, der in OCI eingerichtet ist. Sie können einen privaten Endpunkt pro Instanz konfigurieren. Damit kann Ihre Oracle Integration Cloud Service-Instanz auf private Ressourcen zugreifen, ohne einen Konnektivitäts-Agent durchlaufen zu müssen.

Danksagungen

  • Autoren: Nolan Trouvé, Jerry Mbamo
  • Beitragender: Daryl Eicher