Dokumentlebenszyklus automatisieren

Branchenübergreifend sind Unternehmen mit PDFs, Scans und unstrukturierten Datensätzen wie Verträgen, Rechnungen, medizinischen Formularen und Ansprüchen überlastet. Das Extrahieren von Wert aus diesen Dokumenten ist oft manuell, langsam und teuer. Diese Referenzarchitektur zeigt, wie Sie Oracle Cloud Infrastructure Generative AI-Services anwenden, um den Dokumentlebenszyklus zu automatisieren.

KI verbessert den Lebenszyklus mit:

  • Informationen nach der Archivierung
  • Digitalisierung
  • Transaktionsanalyse

Die Vielfalt der möglichen Pipelines umfasst:

  • Document Understanding (DU) plus Text-LLM für skalierbare OCR und Argumentation
  • Multimodales LLM für visuelle/komplexe Layouts
  • Vergleichs-/Konsensmodus für höhere Sicherheit

Dieses Design ist branchenübergreifend generisch und bietet Scheinwerfer für Gesundheits- und Finanzdienstleistungen.

Architektur

Diese Architektur veranschaulicht den logischen Ablauf der Dokumentverarbeitung, von der Aufnahme und Speicherung bis hin zur Extraktion und nachgelagerten Integration. Es zeigt, wie mehrere Oracle Cloud Infrastructure-(OCI-)Komponenten, einschließlich OCI Document Understanding- und OCI Generative AI-Services (Text- und Vision-LLMs), in einer einheitlichen Orchestrierung zusammenarbeiten.

Das folgende Diagramm veranschaulicht den logischen Ablauf.



Im logischen Ablauf werden folgende konzeptionelle Komponenten angezeigt:

  • Remote-Datenspeicher
    • Stellt die ursprüngliche Quelle von Dokumenten dar, bei der es sich um ein externes Repository, ein Unternehmensdateisystem oder Shared Storage wie Netzwerklaufwerke, DMS oder Cloud-Buckets handeln kann.
    • Dokumente können in regelmäßigen Abständen oder beim Auslösen zur Verarbeitung abgerufen werden.
  • Eingabe-UI
    • Ein einfacher benutzerorientierter Einstiegspunkt für das Hochladen oder Weiterleiten von Dokumenten.
    • Dies kann ein Webformular, ein internes Portal oder ein Anwendungs-Frontend sein, das mit Oracle Digital Assistant oder ähnlichen Tools erstellt wurde.
  • Chatbot (optional)
    • Bietet dialogorientierten Zugriff auf die Pipeline.
    • Ermöglicht Benutzern das Hochladen oder Abfragen von Dokumenten in natürlicher Sprache (z.B. "Alle Rechnungen über $50 K anzeigen").
    • Leitet intern zu derselben Aufnahmeebene wie die Eingabe-UI weiter.
  • Integrationen
    • fungiert als Orchestrierungs- und Routinglayer.
    • Verantwortlich für das Auslösen der richtigen Pipeline je nach Dokumenttyp oder Geschäftslogik. Beispiel: OCI Document Understanding plus ein LLM für strukturierte Dokumente, Vision LLM für bildlastige Eingaben.
    • Verarbeitet Fehlerwiederherstellung, Wiederholungen, Metadatenverwaltung und nachgelagerte API-Aufrufe an ERP-, CRM- oder Datenplattformen.
  • Datenspeicherung
    • Speichert sowohl Rohdaten als auch verarbeitete Daten.
    • Wird in der Regel mit OCI Object Storage für Binärdateien und Oracle Autonomous AI Database für strukturierte JSON-Ausgaben und Auditlogs implementiert.
    • Ermöglicht Rückverfolgbarkeit, erneute Verarbeitung und Analysen über den gesamten Dokumentlebenszyklus hinweg.
  • Optische Zeichenerkennung (OCR)
    • Führt die optische Zeichenerkennung, Layouterkennung und Extraktion von Schlüssel/Wert-Paaren, Tabellen und Freitext durch.
    • Erstellt bereinigten Text, der als Eingabe für textbasierte LLM-Begründung dient.
    • OCI Document Understanding ist deterministisch und schemabasiert und gewährleistet eine vorhersehbare Extraktionsqualität.
  • Textuelles LLM (Cohere Command-A)
    • Verwendet die OCI Document Understanding-Ausgabe und wendet Argumentation, Normalisierung und Formatierung an.
    • Verarbeitet Zusammenfassungen, Klassifizierungen und kontextbezogene Extraktionen, die über das feste Schema von OCI Document Understanding hinausgehen.
    • Kann verrauschte OCR-Ausgaben bereinigen, die Feldbenennung vereinheitlichen und fehlende Werte basierend auf Kontext inferenzieren.
  • Multimodales LLM (Lama 4 Maverick)
    • Verarbeitet visuellen Inhalt und komplexe Layouts, die OCI Document Understanding und Nur-Text-Modelle nicht vollständig interpretieren können.
    • Behandelt Diagramme, Handschriften, Stempel, als Bilder eingebettete Tabellen und mehrseitige Kontinuität.
    • In kombinierten Abläufen wird die Ausgabe mit OCI Document Understanding und textuellen LLM-Ergebnissen abgestimmt, um die Vollständigkeit und Genauigkeit zu verbessern.
  • Einbettung und Dataload-Logik
    • Konvertiert extrahierten Text und Bilder in Vektoreinbettungen für semantische Suche und Dokumentabruf.
    • Unterstützt nachgelagerte RAG-Workflows, sodass LLMs Antworten in tatsächlichen, dokumentenspezifischen Daten festhalten können.
    • Kann mit OCI Functions oder benutzerdefinierten ETL-Pipelines implementiert werden.
  • Vektoren
    • Speichert Einbettungen für Text und Bilder.
    • Ermöglicht den schnellen Abruf kontextbezogener ähnlicher Inhalte und unterstützt generative Fragen und Antworten über Unternehmensdokumentsets.
    • Zu den gängigen Implementierungen gehören Qdrant, AI Vector Search in Autonomous AI Database oder andere OCI-kompatible Speicher.

Dies ist der End-to-End-Fluss, der im logischen Flussdiagramm dargestellt ist:

  1. Dokumentaufnahme
    • Dokumente werden entweder über die Eingabe-UI hochgeladen oder aus dem Remote-Datenspeicher abgerufen.
    • Die Integrationsschicht protokolliert Metadaten, validiert Dateiformate und löst die entsprechende Verarbeitungspipeline aus.
    • Chatbot-Weiterleitungen verwenden dieselben API-Routen wie manuelle Uploads.
  2. Lagerung und Vorbereitung
    • Dateien werden in OCI Object Storage dauerhaft gespeichert.
    • Metadaten- und Statuseinträge werden zur Prüfung und Kontrolle in Oracle Autonomous AI Database geschrieben.
    • Ein Workflowtrigger (mit OCI Functions oder Oracle Integration) initiiert die OCR/LLM-Sequenz.
  3. Datenextraktion und -anreicherung
    • OCI Document Understanding führt OCR- und Layoutanalysen durch und gibt strukturierten Text zurück.
    • Das Text-LLM (z.B. Command-A) interpretiert diesen Text, bereinigt ihn und erzeugt normalisierte Ausgaben (JSON oder Markdown).
    • Wenn das Dokument komplexe visuelle Elemente enthält, analysiert ein Text- und Bildverständnis-KI wie Llama 4 Maverick die Bilder, um Extraktionsergebnisse anzureichern oder zu validieren.
    • Beide Ausgaben können über Orchestrierungslogik (konfidenzbasierte Abstimmung) verglichen oder zusammengeführt werden.
  4. Integration und Knowledge Loading
    • Die endgültigen strukturierten und kontextualisierten Daten durchlaufen einen Einbettungsschritt und transformieren Text oder visuelle Einblicke in Vektoren.
    • Die Komponente "Einbettungs- und Dataload-Logik" speichert diese Vektoren in einem Vektorspeicher und schließt die RAG-Integrationsphase ab.
    • Downstream-Anwendungen wie Analyse-Dashboards, Suchportale oder GenAI-Chatbots können jetzt auf die verarbeiteten Daten für den semantischen Abruf und die Fragenbeantwortung zugreifen.

Optional können Sie einen Human-in-the-Loop-(HITL-)Schritt zwischen den Schritten 3 und 4 hinzufügen.

  • In dieser Phase kann ein HITL basierend auf einer Vielzahl von Kriterien wie Vertrauen in Antworten, zusätzliche Prüfungen nach Datentyp, Format usw. in den Ablauf integriert werden. Dadurch kann ein Benutzer aufgefordert werden, die Ergebnisse nach Bedarf zu genehmigen oder zu bearbeiten.
  • Innerhalb jeder gewählten Route kann ein HITL hinzugefügt werden, um eine zusätzliche Ebene des kontinuierlichen Lernens bereitzustellen, die es der Lösung ermöglicht, sich anzupassen und mit der Nutzung zu wachsen und die Wirksamkeit zu verbessern.
  • HITL auslösen bei: geringe Konfidenz, Schemaverstöße, nicht erfolgreiche Abstimmungen, unsichtbare Hersteller/Layout- oder regulatorkritische Felder.
  • Verwenden Sie eine "Graduierungsregel", d.h. entfernen Sie HITL, nachdem N aufeinanderfolgende Reinigungsdurchläufe für ein bestimmtes Hersteller/Layout durchgeführt wurden.
  • Beibehalten von Korrekturen; Verfeinerungen und Validatoren von Eingabeaufforderungen; Verfolgen von Lieferanten-/Layout-Fingerabdrücken.

Das folgende Diagramm zeigt eine Beispielimplementierung:



Die Architektur umfasst folgende Komponenten:

  • OCI-region

    Eine OCI-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Centre enthält, das Availability-Domains hostet. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können über Länder oder Kontinente voneinander getrennt werden.

  • Compartment

    Compartments sind regionsübergreifende logische Partitionen innerhalb eines OCI-Mandanten. Mit Compartments können Sie den Zugriff organisieren, kontrollieren und Nutzungsquoten für Ihre Oracle Cloud-Ressourcen festlegen. In einem bestimmten Compartment definieren Sie Policys, die den Zugriff kontrollieren und Berechtigungen für Ressourcen festlegen.

  • Availability-Domain

    Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Ein Fehler in einer Availability-Domain sollte sich also nicht auf die anderen Availability-Domains in der Region auswirken.

  • Faultdomain

    Eine Faultdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain verfügt über drei Faultdomains mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen über mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverausfälle, Systemwartungen und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Virtuelles OCI-Cloud-Netzwerk und Subnetz

    Ein virtuelles Cloud-Netzwerk (VCN) ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer OCI-Region einrichten. Wie herkömmliche Data Center-Netzwerke erhalten Sie über VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Dynamisches Routinggateway (DRG)

    Das DRG ist ein virtueller Router, der einen Pfad für den privaten Netzwerktraffic zwischen VCNs in derselben Region zwischen einem VCN und einem Netzwerk außerhalb der Region bereitstellt, z.B. ein VCN in einer anderen OCI-Region, ein On-Premise-Netzwerk oder ein Netzwerk in einem anderen Cloud-Provider.

  • Servicegateway

    Ein Servicegateway ermöglicht den Zugriff von einem VCN auf andere Services, wie Oracle Cloud Infrastructure Object Storage. Der Datenverkehr vom VCN zum Oracle-Service wird über die Oracle-Netzwerkstruktur geleitet und durchläuft nicht das Internet.

  • Oracle Services Network

    Das Oracle Services Network (OSN) ist ein konzeptionelles Netzwerk auf OCI, das für Oracle-Services reserviert ist. Diese Services haben öffentliche IP-Adressen, die Sie sonst über das Internet erreichen können. Hosts außerhalb von Oracle Cloud können über Oracle Cloud Infrastructure FastConnect oder VPN Connect privat auf das OSN zugreifen. Hosts in Ihren VCNs können über ein Servicegateway privat auf das OSN zugreifen.

  • Oracle Autonomous AI Database

    Oracle Autonomous AI Database bietet eine benutzerfreundliche, vollständig autonome (selbstverwaltete) Datenbank, die sich elastisch skalieren läßt und schnelle Abfrageperformance bietet. Als Service ist keine Datenbankadministration erforderlich. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Es verarbeitet automatisch Provisioning, Backup, Patching und Upgrade sowie das Erweitern oder Verkleinern der Datenbank und ist ein elastischer Service. Entwickeln Sie skalierbare KI-gestützte Apps mit beliebigen Daten mithilfe integrierter KI-Funktionen. Nutzen Sie das große Sprachmodell (LLM) Ihrer Wahl und stellen Sie es in der Cloud oder in Ihrem Data Center bereit.

  • Oracle AI Database 26ai

    Mit Oracle AI Database 26ai mit AI Vector Search können Sie Daten nach Bedeutung und nicht nach Schlüsselwörtern abfragen. Vektor-Darstellungen (Einbettungen) erfassen die Semantik von Text, Bildern, Audio und mehr, damit Sie ähnliche Inhalte effizient finden können. Integrierte SQL-Distanzfunktionen ermöglichen Ähnlichkeitssuchen mit Vektoren. Sie können semantische Ähnlichkeit und andere Suchkriterien kombinieren, um große Sprachmodelle (RAG) für genauere und relevantere Antworten zu erstellen.

  • OCI Document Understanding

    Oracle Cloud Infrastructure Document Understanding ist ein KI-Service, mit dem Sie umfassende Dokumentanalysen in großem Maßstab durchführen können. Mit den bereitgestellten vorgefertigten Modellen können Entwickler auf einfache Weise intelligente Dokumentenverarbeitung in ihre Anwendungen ohne Machine Learning-Kenntnisse integrieren.

  • Oracle Digital Assistant

    Oracle Digital Assistant ist eine Plattform, mit der Sie digitale Assistenten für Ihre Benutzer erstellen und bereitstellen können. Mit Oracle Digital Assistant können Sie KI-gesteuerte Schnittstellen (oder Chatbots) für Geschäftsanwendungen über Text-, Chat- und Sprachschnittstellen erstellen. Jeder digitale Assistent verfügt über eine Sammlung von einem oder mehreren spezialisierten Skills, mit denen Benutzer eine Vielzahl von Aufgaben in Unterhaltungen in natürlicher Sprache ausführen können. Beispiel: Ein einzelner digitaler Assistent verfügt über Skills, die sich auf bestimmte Aufgabentypen konzentrieren, wie das Verfolgen von Bestand, das Weiterleiten von Stundennachweisen und das Erstellen von Spesenabrechnungen.

  • Oracle AI Data Platform

    Oracle AI Data Platform ist eine einheitliche Plattform, die das Katalogisieren, Vorbereiten und Analysieren von Daten über Ihren gesamten Datenbestand hinweg vereinfacht. Es vereint Daten, KI, Analysen und Governance in einer zusammenhängenden Benutzererfahrung, mit der Sie sichere, skalierbare KI-gestützte Anwendungen erstellen können. Oracle AI Data Platform vereinheitlicht Autonomous AI Lakehouse, Oracle Analytics Cloud, OCI Object Storage, OCI Generative AI und Fusion Data Intelligence.

    Innerhalb dieser Plattform stellt Oracle AI Data Platform Workbench eine dedizierte Entwicklungsumgebung bereit, in der Sie Datenpipelines und -modelle entwerfen, orchestrieren und bereitstellen, RBAC-Policys festlegen und Open-Source-Technologien wie Spark verwenden können, um Ihre Daten vorzubereiten, zu analysieren und anzureichern.

  • OCI Generative AI

    Oracle Cloud Infrastructure Generative AI ist ein vollständig verwalteter OCI-Service, der eine Reihe hochmoderner, anpassbarer großer Sprachmodelle (LLMs) bereitstellt, die eine breite Palette an Anwendungsfällen für die Textgenerierung, -zusammenfassung, semantische Suche und mehr abdecken. Verwenden Sie den Playground, um die einsatzbereiten vortrainierten Modelle sofort zu nutzen oder eigene optimierten benutzerdefinierte Modelle basierend auf Ihren eigenen Daten auf dedizierten KI-Clustern zu erstellen und zu hosten.

  • Oracle Integration

    Oracle Integration ist eine vollständig verwaltete, vorkonfigurierte Umgebung, in der Sie Cloud- und On-Premise-Anwendungen integrieren, Geschäftsprozesse automatisieren und visuelle Anwendungen entwickeln können. Es verwendet einen SFTP-konformen Dateiserver zum Speichern und Abrufen von Dateien und ermöglicht den Austausch von Dokumenten mit Geschäftspartnern zwischen Unternehmen, indem Sie ein Portfolio von Hunderten von Adaptern und Rezepten für die Verbindung mit Oracle- und Drittanbieteranwendungen verwenden.

  • OCI Object Storage

    Mit OCI Object Storage können Sie auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps zugreifen, darunter Datenbankbackups, Analysedaten und umfangreiche Inhalte, wie Bilder und Videos. Sie können Daten sicher und sicher direkt aus Anwendungen oder aus der Cloud-Plattform speichern. Sie können den Storage skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird.

    Verwenden Sie den Standardspeicher für "Hot Storage", auf die Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicherung für "Cold Storage", die Sie über lange Zeiträume beibehalten und nur selten darauf zugreifen.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt für die Implementierung der Architektur. Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.
  • VCN

    Wenn Sie ein VCN erstellen, bestimmen Sie die Anzahl der erforderlichen CIDR-Blöcke und die Größe jedes Blocks basierend auf der Anzahl der Ressourcen, die Sie an Subnetze im VCN anhängen möchten. Verwenden Sie CIDR-Blöcke, die sich innerhalb des standardmäßigen privaten IP-Adressraums befinden.

    Wählen Sie CIDR-Blöcke aus, die sich mit keinem anderen Netzwerk (in Oracle Cloud Infrastructure, Ihrem On-Premise-Data Center oder einem anderen Cloud-Provider) überschneiden, zu dem Sie private Verbindungen einrichten möchten.

    Nachdem Sie ein VCN erstellt haben, können Sie die zugehörigen CIDR-Blöcke ändern, hinzufügen und entfernen.

    Berücksichtigen Sie beim Entwerfen der Subnetze den Verkehrsfluss und die Sicherheitsanforderungen. Hängen Sie alle Ressourcen innerhalb einer bestimmten Tier oder Rolle an dasselbe Subnetz an, das als Sicherheitsgrenze dienen kann.

  • Netzwerksicherheitsgruppen (NSGs)

    Mit NSGs können Sie ein Set von Ingress- und Egress-Regeln definieren, die für bestimmte VNICs gelten. Es wird empfohlen, NSGs anstelle von Sicherheitslisten zu verwenden, da Sie mit NSGs die Subnetzarchitektur des VCN von den Sicherheitsanforderungen Ihrer Anwendung trennen können.

  • Cloud Guard

    Klonen und passen Sie die von Oracle bereitgestellten Standardrezepte an, um benutzerdefinierte Detektor- und Responder-Rezepte zu erstellen. Mit diesen Rezepten können Sie angeben, welche Art von Sicherheitsverletzungen eine Warnung generieren und welche Aktionen für sie ausgeführt werden dürfen. Beispiel: Sie möchten OCI Object Storage-Buckets ermitteln, deren Sichtbarkeit auf "Öffentlich" gesetzt ist.

    Wenden Sie Oracle Cloud Guard auf Mandantenebene an, um den größten Umfang abzudecken und den Verwaltungsaufwand für die Verwaltung mehrerer Konfigurationen zu reduzieren.

    Sie können auch das Feature "Verwaltete Liste" verwenden, um bestimmte Konfigurationen auf Detektoren anzuwenden.

  • Sicherheitszonen

    Für Ressourcen, die maximale Sicherheit erfordern, empfiehlt Oracle die Verwendung von Sicherheitszonen. Eine Sicherheitszone ist ein Compartment, das mit einem von Oracle definierten Rezept für Sicherheits-Policys verknüpft ist, die auf Best Practices basieren. Beispiel: Ressourcen in einer Sicherheitszone dürfen nicht über das öffentliche Internet zugänglich sein und müssen über vom Kunden verwaltete Schlüssel verschlüsselt werden. Wenn Sie Ressourcen in einer Sicherheitszone erstellen und aktualisieren, validiert OCI die Vorgänge anhand der Policys im Rezept und verhindert Vorgänge, die gegen eine der Policys verstoßen.

Hinweise

Beachten Sie die folgenden Implementierungen der Architektur für verschiedene Phasen im Dokumentlebenszyklus:

Intelligence nach der Archivierung:

  1. Erfassen Sie historische PDFs/Bilder im Batch in OCI Object Storage.
  2. OCI Document Understanding wird zur Zusammenfassung, Klassifizierung und Entityextraktion an Text-LLM (Standard) weitergeleitet.
    • Die Ausgabe wird an die HITL-Überprüfung weitergeleitet, wenn die Modellkonfidenz unter einen definierten Schwellenwert fällt (z.B. niedrige Extraktions-/Klassifizierungskonfidenz).
  3. Optionales Vision-LLM für Diagramme oder visuelle Hinweise.
  4. Speichern Sie strukturierte Ergebnisse (Autonomous AI Database/Parquet), die an Analysen und Abrufe weitergeleitet werden.

Beschleunigung der Digitalisierung:

  1. Scans werden an OCR und Layout von OCI Document Understanding weitergeleitet.
  2. Text-LLM normalisiert Felder, wendet Taxonomie an und taggt Metadaten.
  3. Optionaler Vergleich mit Vision LLM für Tabellen oder Handschrift.
    • Die Ausgabe wird an die HITL-Überprüfung weitergeleitet, wenn die Modellkonfidenz unter einen definierten Schwellenwert fällt (z.B. niedrige Extraktions-/Klassifizierungskonfidenz).
  4. Beibehalten und indexieren; Such- und Downstream-Automatisierung aktivieren.

Transaktionsanalyse (Echtzeit):

  1. Die neue Weiterleitung wird über eine API oder ein Portal in OCI Object Storage gelandet.
  2. OCI Document Understanding wird innerhalb von Latenz-SLOs an ein Text-LLM weitergeleitet. Dazu gehören Betrugs-/Anomalie- und Vollständigkeitsprüfungen.
  3. Prüfungen mit Oracle Integration mit ERP/OTM; Gate-Genehmigungen.
  4. HITL nur auf Ausnahmen; der Rest fließt direkt durch.

Berücksichtigen Sie die folgenden verschiedenen Grundlagen für Ansätze, die bei der Lösung dieser Probleme angewendet werden können, und zusätzliche Pipeline-Strategien, die eingesetzt werden müssen:

  • Standard: OCI Document Understanding als Text für LLM (wie Command-A) zum Bereinigen und Extrahieren.
  • Vision Route: Llama 4 Maverick für eine visuell schwere oder niedrige OCI Document Understanding-Konfidenz.
  • Vergleich/Konsens (optional): Führen Sie OCI Document Understanding mit einem LLM und OCI Vision aus. Stimmen Sie Konflikte ab (Prioritätsregeln und Business Validators).
  • Mehrseitige/Mehrbild-Policy:
    • Bis zu 10 Seiten/Bilder pro Maverick-Aufruf, um Kontinuität zu bewahren.
    • Verwenden Sie ein gleitendes Fenster (1–10, 6–15, …) mit einer Eingabeaufforderung für rollierende Zusammenfassungen, um Token zu reduzieren und den Kontext beizubehalten.
  • Sprachverarbeitung: Weiterleitung basierend auf Sprachprävalenz und Unterstützung für OCI Document Understanding. Kleine Minderheitensprachen, die an die OCI Vision-Route oder den Fallback mit reinem Text weitergeleitet werden.

Mehr erfahren

Erfahren Sie mehr über die Automatisierung des Dokumentprozesses mit GenAI, OCI und den Start Ihrer Cloud-Reise mit Oracle.

Prüfen Sie die folgenden zusätzlichen Ressourcen:

Bestätigungen

  • Autor: Ali Ottoman
  • Mitwirkender: Joshua Stanley