Automatizza il ciclo di vita dei documenti
L'intelligenza artificiale migliora il ciclo di vita con:
- Intelligence post-archiviazione
- Digitalizzazione
- Analisi delle transazioni
La varietà di condutture possibili include:
- Document Understanding (DU) più LLM di testo per OCR e ragionamento scalabili
- LLM multimodale per layout visivi/complessi
- Modalità di confronto/consenso per una maggiore affidabilità
Questo design è generico in tutti i settori, con riflettori per i servizi sanitari e finanziari.
Architettura
Questa architettura illustra il flusso logico dell'elaborazione dei documenti, dall'inclusione e dallo storage all'estrazione e all'integrazione a valle. Mostra come più componenti di Oracle Cloud Infrastructure (OCI), tra cui OCI Document Understanding e OCI Generative AI (LLM di testo e visione), operano insieme in un'orchestrazione unificata.
Il diagramma seguente illustra il flusso logico.
I componenti concettuali mostrati nel flusso logico sono:
- Archiviazione dati remota
- Rappresenta l'origine originale dei documenti, che può essere un repository esterno, un file system enterprise o uno storage condiviso, ad esempio unità di rete, DMS o bucket cloud.
- I documenti possono essere recuperati periodicamente o al momento del trigger per l'elaborazione.
- UI di input
- Un semplice punto di accesso rivolto all'utente per caricare o sottomettere documenti.
- Può essere un form Web, un portale interno o un front-end di applicazioni creato con Oracle Digital Assistant o strumenti simili.
- Chatbot (opzionale)
- Fornisce l'accesso conversazionale alla pipeline.
- Consente agli utenti di caricare o interrogare documenti tramite il linguaggio naturale (ad esempio, "Mostrami tutte le fatture al di sopra di $ 50 K").
- Esegue l'instradamento interno allo stesso livello di inclusione dell'interfaccia utente di input.
- Integrazioni
- Agisce come livello di orchestrazione e instradamento.
- Responsabile dell'attivazione della pipeline corretta a seconda del tipo di documento o della business logic. Ad esempio, OCI Document Understanding più un LLM per documenti strutturati, Vision LLM per input ad alta intensità di immagini.
- Gestisce il recupero degli errori, i nuovi tentativi, la gestione dei metadati e le chiamate API a valle a piattaforme ERP, CRM o dati.
- Memorizzazione dati
- Memorizza sia i dati grezzi che quelli elaborati.
- In genere implementato utilizzando OCI Object Storage per i file binari e Oracle Autonomous AI Database per gli output JSON strutturati e i log di audit.
- Consente la tracciabilità, la rielaborazione e gli analytics nell'intero ciclo di vita dei documenti.
- Riconoscimento ottico dei caratteri (OCR)
- Esegue il riconoscimento ottico dei caratteri, il rilevamento del layout e l'estrazione di coppie chiave-valore, tabelle e testo libero.
- Produce testo pulito che funge da input per il ragionamento LLM basato su testo.
- OCI Document Understanding è basato su deterministico e schema, garantendo una qualità di estrazione prevedibile.
- LLM testuale (Cohere Command-A)
- Consuma l'output di OCI Document Understanding e applica ragionamento, normalizzazione e formattazione.
- Gestisce il riepilogo, la classificazione e l'estrazione contestuale che vanno oltre lo schema fisso di OCI Document Understanding.
- È possibile pulire gli output OCR rumorosi, unificare la denominazione dei campi e derivare i valori mancanti in base al contesto.
- LLM multimodale (Llama 4 Maverick)
- Elabora contenuti visivi e layout complessi che i modelli OCI Document Understanding e di solo testo non possono interpretare completamente.
- Gestisce i grafici, la scrittura a mano, i timbri, le tabelle incorporate come immagini e la continuità di più pagine.
- Nei flussi combinati, l'output viene riconciliato con OCI Document Understanding e con i risultati LLM testuali per migliorare completezza e precisione.
- Logica di incorporamento e caricamento dati
- Converte il testo estratto e le immagini in incorporamenti vettoriali per la ricerca semantica e il recupero dei documenti.
- Supporta i flussi di lavoro RAG a valle, consentendo ai LLM di mettere a terra le risposte in dati fattuali e specifici dei documenti.
- Può essere implementato utilizzando le funzioni OCI o pipeline ETL personalizzate.
- Area di memorizzazione vettore
- Memorizza le integrazioni per testo e immagini.
- Consente un rapido recupero di contenuti contestualmente simili e supporta domande e risposte generative sui set di documenti aziendali.
- Le implementazioni comuni includono Qdrant, AI Vector Search in Autonomous AI Database o in altre aree di memorizzazione compatibili con OCI.
Questo è il flusso end-to-end illustrato nel diagramma di flusso logico:
- Inclusione documenti
- I documenti vengono caricati tramite l'interfaccia utente di input o recuperati dalla memorizzazione dati remota.
- Il layer di integrazione registra i metadati, convalida i formati di file e attiva la pipeline di elaborazione corrispondente.
- Le sottomissioni dei chatbot utilizzano gli stessi instradamenti API dei caricamenti manuali.
- Conservazione e preparazione
- I file vengono resi persistenti nello storage degli oggetti OCI.
- I metadati e le voci di stato vengono scritti in Oracle Autonomous AI Database per l'audit e il controllo.
- Un trigger del workflow (utilizzando le funzioni OCI o Oracle Integration) avvia la sequenza OCR/LLM.
- Estrazione e integrazione dei dati
- OCI Document Understanding esegue l'analisi di OCR e layout, restituendo testo strutturato.
- LLM testuale (ad esempio, Command-A) interpreta questo testo, lo pulisce e produce output normalizzati (JSON o Markdown).
- Quando il documento contiene elementi visivi complessi, un'intelligenza artificiale per la comprensione di testo e immagini come Llama 4 Maverick analizza le immagini per arricchire o convalidare i risultati dell'estrazione.
- Entrambi gli output possono essere confrontati o uniti tramite la logica di orchestrazione (riconciliazione basata sulla fiducia).
- Caricamento integrazione e conoscenza
- I dati strutturati e contestualizzati finali passano attraverso un passo di incorporamento, trasformando testo o insight visivi in vettori.
- Il componente Logica di incorporamento e caricamento dati memorizza questi vettori in una memoria di vettore, completando la fase di integrazione RAG.
- Le applicazioni a valle come dashboard di analisi, portali di ricerca o chatbot GenAI ora possono accedere ai dati elaborati per il recupero semantico e il question-answering.
Facoltativamente, è possibile aggiungere un passaggio human-in-the-loop (HITL) tra i passi 3 e 4.
- In questa fase, un HITL può essere integrato nel flusso in base a una varietà di criteri, tra cui la fiducia nelle risposte, controlli aggiuntivi per il tipo di dati, il formato, ecc. Ciò può richiedere a un utente di approvare o modificare i risultati in base alle esigenze.
- All'interno di qualsiasi percorso scelto un HITL può essere aggiunto per fornire un ulteriore livello di apprendimento continuo che consente alla soluzione di adattarsi e crescere con l'uso e migliorare l'efficacia
- Attiva HITL su: bassa affidabilità, violazioni dello schema, riconciliazioni non riuscite, layout/fornitore invisibili o campi critici dell'autorità di regolamentazione.
- Prendere in considerazione l'uso di una "regola di laurea": rimuovere HITL dopo N passaggi di pulizia consecutivi per un determinato fornitore/layout.
- Rendi persistenti le correzioni; perfezionatori e validatori dei prompt dei feed; monitora le impronte digitali dei fornitori/layout.
Il diagramma seguente mostra un esempio di implementazione:
L'architettura ha i seguenti componenti:
- Area OCI
Un'area geografica OCI è un'area geografica localizzata che contiene uno o più data center, che ospitano domini di disponibilità. Le regioni sono indipendenti da altre regioni e vaste distanze possono separarle (tra paesi o addirittura continenti).
- Compartimento
I compartimenti sono partizioni logiche interregionali all'interno di una tenancy OCI. Utilizzare i compartimenti per organizzare, controllare l'accesso e impostare le quote di utilizzo per le risorse Oracle Cloud. In un determinato compartimento, è possibile definire criteri che controllano l'accesso e impostano i privilegi per le risorse.
- Dominio di disponibilità
I domini di disponibilità sono data center autonomi e indipendenti all'interno di un'area. Le risorse fisiche in ogni dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio alimentazione o raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.
- Dominio di errore
Un dominio di errori è un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità, Ogni dominio di disponibilità dispone di tre domini di errore con alimentazione e hardware indipendenti. Quando si distribuiscono risorse su più domini di errore, le applicazioni possono tollerare errori fisici del server, manutenzione del sistema e interruzioni di corrente all'interno di un dominio di errore.
- Rete e subnet cloud virtuale OCI
Una rete cloud virtuale (VCN, virtual cloud network) è una rete personalizzabile e definita dal software impostata in un'area OCI. Come le reti di data center tradizionali, le reti VCN ti danno il controllo sul tuo ambiente di rete. Una VCN può avere più blocchi CIDR (Classless Inter-Domain Routing) non sovrapposti che è possibile modificare dopo aver creato la VCN. È possibile segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una sottorete dopo la creazione. Una subnet può essere pubblica o privata.
- Gateway di instradamento dinamico (DRG)
Il gateway DRG è un router virtuale che fornisce un percorso per il traffico di rete privato tra le reti VCN nella stessa area, tra una VCN e una rete esterna all'area, ad esempio una VCN in un'altra area OCI, una rete on premise o una rete in un altro provider cloud.
- Gateway del servizio
Un gateway di servizi fornisce l'accesso da una VCN ad altri servizi, ad esempio Oracle Cloud Infrastructure Object Storage. Il traffico dalla VCN al servizio Oracle viaggia sul fabric di rete Oracle e non attraversa Internet.
- Oracle Services Network
Oracle Services Network (OSN) è una rete concettuale su OCI riservata ai servizi Oracle. Questi servizi hanno indirizzi IP pubblici che puoi raggiungere su Internet. Gli host esterni a Oracle Cloud possono accedere a OSN in privato utilizzando Oracle Cloud Infrastructure FastConnect o VPN Connect. Gli host nelle reti VCN possono accedere a OSN in privato tramite un gateway di servizi.
- Oracle Autonomous AI Database
Oracle Autonomous AI Database fornisce un database facile da usare, completamente autonomo, dotato di scalabilità elastica e in grado di offrire prestazioni rapide alle query. Come servizio, non richiede l'amministrazione del database. Non è necessario configurare o gestire alcun hardware né installare alcun software. Gestisce automaticamente il provisioning, il backup, l'applicazione di patch e l'upgrade, la crescita o la riduzione del database ed è un servizio elastico. Sviluppa app scalabili basate sull'intelligenza artificiale con qualsiasi dato utilizzando funzionalità AI integrate. Utilizza il modello linguistico di grandi dimensioni (LLM, large language model) che preferisci e distribuisci nel cloud o nel tuo data center.
- Oracle AI Database 26ai
Oracle AI Database 26ai con AI Vector Search ti consente di eseguire query sui dati in base al significato anziché alle parole chiave. Le rappresentazioni vettoriali (embeddings) catturano la semantica di testo, immagini, audio e altro ancora in modo da poter trovare contenuti simili in modo efficiente. Le funzioni di distanza SQL integrate consentono ricerche di somiglianza utilizzando vettori. È possibile combinare la somiglianza semantica e altri criteri di ricerca per fondare modelli linguistici di grandi dimensioni (RAG) per ottenere risposte più accurate e pertinenti.
- OCI Document Understanding
Oracle Cloud Infrastructure Document Understanding è un servizio AI per l'esecuzione di analisi dei documenti di deep learning su larga scala. Grazie ai modelli predefiniti forniti, gli sviluppatori possono facilmente creare un'elaborazione intelligente dei documenti nelle loro applicazioni senza competenze di machine learning.
- Oracle Digital Assistant
Oracle Digital Assistant è una piattaforma che consente di creare e distribuire assistenti digitali per gli utenti. Con Oracle Digital Assistant, puoi creare interfacce (o chatbot) basate sull'intelligenza artificiale per le applicazioni aziendali tramite interfacce di testo, chat e voce. Ogni assistente digitale ha una raccolta di una o più competenze specializzate per aiutare gli utenti a completare una varietà di attività nelle conversazioni in linguaggio naturale. Ad esempio, un singolo assistente digitale potrebbe avere competenze che si concentrano su tipi specifici di task come il tracciamento del magazzino, la sottomissione di fogli ore e la creazione di note spese.
- Oracle AI Data Platform
Oracle AI Data Platform è una piattaforma unificata che semplifica la catalogazione, la preparazione e l'analisi dei dati nella tua proprietà dei dati. Riunisce dati, intelligenza artificiale, analytics e governance all'interno di un'esperienza utente coerente che ti consente di creare applicazioni sicure e scalabili basate sull'intelligenza artificiale. Oracle AI Data Platform unifica Autonomous AI Lakehouse, Oracle Analytics Cloud, OCI Object Storage, OCI Generative AI e Fusion Data Intelligence.
All'interno di questa piattaforma, Oracle AI Data Platform Workbench fornisce un ambiente di sviluppo dedicato per progettare, orchestrare e distribuire pipeline e modelli di dati, impostare criteri RBAC e utilizzare tecnologie open source come Spark per preparare, analizzare e arricchire i dati.
- AI generativa OCI
Oracle Cloud Infrastructure Generative AI è un servizio OCI completamente gestito che fornisce un set di modelli linguistici di grandi dimensioni (LLM, large language model) all'avanguardia e personalizzabili che coprono una vasta gamma di casi d'uso per la generazione di testo, il riepilogo, la ricerca semantica e altro ancora. Utilizza l'area di gioco per provare i modelli pre-addestrati pronti all'uso o creare e ospitare i tuoi modelli personalizzati ottimizzati in base AI tuoi dati su cluster AI dedicati.
- Oracle Integration
Oracle Integration è un ambiente completamente gestito e preconfigurato che consente di integrare applicazioni cloud e on-premise, automatizzare i processi aziendali e sviluppare applicazioni visive. Utilizza un file server conforme a SFTP per memorizzare e recuperare i file e consente di scambiare documenti con partner commerciali business-to-business utilizzando un portfolio di centinaia di adattatori e ricette per connettersi con le applicazioni Oracle e di terze parti.
- Memorizzazione degli oggetti OCI
Lo storage degli oggetti OCI fornisce l'accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi memorizzare in tutta sicurezza i dati direttamente dalle applicazioni o dall'interno della piattaforma cloud. È possibile ridimensionare lo storage senza subire alcun deterioramento a livello di prestazioni o affidabilità del servizio.
Utilizza lo storage standard per lo storage "caldo" a cui devi accedere in modo rapido, immediato e frequente. Utilizzare lo storage di archivio per lo storage "a freddo" che si conserva per lunghi periodi di tempo e a cui si accede raramente o raramente.
Suggerimenti
- VCN
Quando crei una VCN, determina il numero di blocchi CIDR necessari e la dimensione di ciascun blocco in base al numero di risorse che prevedi di collegare alle subnet nella VCN. Utilizzare blocchi CIDR che si trovano all'interno dello spazio degli indirizzi IP privati standard.
Seleziona blocchi CIDR che non si sovrappongono a nessun'altra rete (in Oracle Cloud Infrastructure, nel tuo data center on-premise o in un altro provider cloud) a cui intendi impostare connessioni private.
Dopo aver creato una VCN, è possibile modificare, aggiungere e rimuovere i relativi blocchi CIDR.
Quando si progettano le subnet, considerare il flusso di traffico e i requisiti di sicurezza. Collegare tutte le risorse all'interno di un livello o ruolo specifico alla stessa subnet, che può fungere da limite di sicurezza.
- Gruppi di sicurezza di rete (NSG)
Puoi utilizzare i gruppi NSG per definire un set di regole di entrata e uscita che si applicano a VNIC specifiche. Si consiglia di utilizzare i gruppi NSG anziché le liste di sicurezza, poiché i gruppi NSG consentono di separare l'architettura della subnet della VCN dai requisiti di sicurezza dell'applicazione.
- Cloud Guard
Duplica e personalizza le recipe predefinite fornite da Oracle per creare recipe personalizzate del rilevatore e del rispondente. Queste recipe consentono di specificare il tipo di violazioni della sicurezza che generano un'avvertenza e le azioni che possono essere eseguite su di esse. Ad esempio, potresti voler rilevare bucket di OCI Object Storage con visibilità impostata su pubblico.
Applica Oracle Cloud Guard a livello di tenancy per coprire l'ambito più ampio e ridurre l'onere amministrativo della gestione di più configurazioni.
È inoltre possibile utilizzare la funzione Elenco gestito per applicare determinate configurazioni ai rilevatori.
- Zone di sicurezza
Per le risorse che richiedono la massima sicurezza, Oracle consiglia di utilizzare le zone di sicurezza. Una zona di sicurezza è un compartimento associato a una recipe dei criteri di sicurezza definita da Oracle basata sulle procedure ottimali. Ad esempio, le risorse in una zona di sicurezza non devono essere accessibili dalla rete Internet pubblica e devono essere cifrate utilizzando chiavi gestite dal cliente. Quando crei e aggiorni le risorse in una zona di sicurezza, OCI convalida le operazioni in base ai criteri nella recipe e impedisce le operazioni che violano uno qualsiasi dei criteri.
Considerazioni
Considera le seguenti implementazioni dell'architettura per diverse fasi del ciclo di vita del documento:
Intelligence post-archiviazione:
- Includi in batch PDF/immagini cronologiche nello storage degli oggetti OCI.
- OCI Document Understanding instradato a LLM di testo (predefinito) per riepilogazione, classificazione ed estrazione di entità.
- Esegue l'instradamento degli output alla revisione HITL quando l'affidabilità del modello scende al di sotto di una soglia definita (ad esempio, bassa affidabilità di estrazione/classificazione).
- LLM di visione opzionale per grafici o segnali visivi.
- Memorizza i risultati strutturati (Database AI autonomo/Parquet) instradati agli analytics e al recupero.
Accelerazione della digitalizzazione:
- Scansioni instradate a OCR e layout OCI Document Understanding.
- LLM testo normalizza i campi, applica la tassonomia e tag metadati.
- Confronto facoltativo con LLM di visione per tabelle o calligrafia.
- Esegue l'instradamento degli output alla revisione HITL quando l'affidabilità del modello scende al di sotto di una soglia definita (ad esempio, bassa affidabilità di estrazione/classificazione).
- Persistere e indicizzare; abilitare la ricerca e l'automazione a valle.
Analisi transazionale (tempo reale):
- La nuova sottomissione arriva nello Storage degli oggetti OCI tramite API o portale.
- OCI Document Understanding instradato a un LLM di testo all'interno degli SLO a latenza, inclusi controlli di frode/anomalia e completezza.
- Controlli incrociati utilizzando Oracle Integration con ERP/OTM; approvazioni dei controlli.
- HITL solo su eccezioni; il resto scorre dritto attraverso.
Considera le seguenti diverse basi per approcci che possono essere adottati quando si affrontano questi problemi e ulteriori strategie di pipeline da utilizzare:
- Impostazione predefinita: OCI Document Understanding fino a LLM di testo, come Command-A, per la pulizia e l'estrazione.
- Percorso di visione: Llama 4 Maverick per una maggiore sicurezza visiva o bassa OCI Document Understanding.
- Confronto/Consenso (facoltativo): eseguire OCI Document Understanding con un LLM e OCI Vision, quindi riconciliare i conflitti (regole di priorità e validatori aziendali).
- Criteri su più pagine / immagini:
- Fino a 10 pagine/immagini per chiamata Maverick per preservare la continuità.
- Utilizzare una finestra scorrevole (1-10, 6-15, …) con un prompt di riepilogo in sequenza per ridurre i token e mantenere il contesto.
- Gestione della lingua: instradamento basato sulla prevalenza della lingua e supporto di OCI Document Understanding. Piccole lingue minoritarie instradate all'instradamento OCI Vision o fallback solo di testo.
Scopri di più
Scopri di più sull'automazione del processo dei documenti con GenAI, OCI e sull'avvio del tuo percorso verso il cloud con Oracle.
Esaminare le seguenti risorse aggiuntive:
- Oracle offre diverse applicazioni di esempio per l'elaborazione dei documenti con GenAI. Andare a GitHub.
- Developer Coaching - Ricerca di modelli multimodali per documenti complessi sul canale YouTube degli sviluppatori Oracle
- Documentazione su Oracle Cloud Infrastructure
- Framework ben strutturato per l'infrastruttura Oracle Cloud
- Stima dei costi di Oracle Cloud
- Framework di adozione cloud

