Cerca documenti e immagini memorizzati nello storage degli oggetti utilizzando OpenSearch, OCI Vision, riconoscimento del testo
Per le soluzioni Big Data, gli utenti preferiscono memorizzare i documenti in un sistema di storage a basso costo come Oracle Cloud Infrastructure Object Storage. Quando ci sono un gran numero di documenti con Terrabyte di dati, gli utenti richiedono un'opzione facile e scalabile per cercare e trovare le informazioni pertinenti. Questi utenti possono inoltre disporre di requisiti per l'indicizzazione dei documenti personalizzati con passi specifici per migliorare i risultati della ricerca.
Questa architettura di riferimento descrive come utilizzare strumenti low code per sviluppare un programma per cercare documenti e immagini memorizzati in Oracle Cloud Infrastructure Object Storage utilizzando un motore di ricerca progettato con Oracle Visual Builder. È possibile aggiungere la sicurezza a livello di file in base alla sicurezza OpenSearch o alle etichette associate ai documenti.
Questa architettura di riferimento offre le seguenti funzionalità:
- Supporta la maggior parte dei tipi di file.
- Word, Excel, Powerpoint, pdf, xml e così via
- Immagini con testo utilizzando Riconoscimento testo. È possibile cercare il testo in un'immagine.
- Immagini senza testo utilizzando Etichettatura immagine. È possibile trovare oggetti nelle immagini.
- Documenti custom
- Supporta multilingua (ebraico, arabo e così via)
- Interfaccia utente semplice
- Funziona con strumenti low code che semplificano l'implementazione di qualsiasi modifica al processo. Ad esempio, è possibile aggiungere facilmente tipi di file aggiuntivi o passi aggiuntivi nel processo di analisi.
- Viene eseguito in modalità High Availability ed è scalabile.
Architettura
Il diagramma riportato di seguito illustra il flusso logico per questa architettura di riferimento.
oci_opensearch_vision_flow: oracle.zip
- Un documento viene caricato nello storage degli oggetti
- Un evento viene generato e accodato in Streaming (Kafka)
- L'evento viene elaborato da Oracle Integration Cloud Service (OIC) in base al tipo di file
- Il risultato viene caricato in OpenSearch
Il seguente diagramma illustra questa architettura di riferimento.
oci_opensearch_vision_arch: oracle.zip
Un utente finale può cercare questi documenti in una pagina di ricerca progettata con Visual Builder.
L'elaborazione interna è progettata con uno strumento low code, OIC.
L'applicazione rileva le modifiche nello storage degli oggetti (creazione, aggiornamento, eliminazione) e le invia a OIC per l'elaborazione.
OIC collega tutti i pezzi:
- Riceve eventi dallo storage degli oggetti mediante una coda di streaming (Kafka)
- Rileva il tipo di documento
- Processi basati sul tipo di documento:
- Invia immagini a OCI AI Vision per l'etichettatura o il riconoscimento del testo
- Invia il documento a una funzione Java per analizzare i documenti (Word, PDF, ...)
- Per i documenti personalizzati (come le carte d'identità), rileva il nome, la data di nascita e l'ID della carta.
- Il documento viene convertito e il risultato viene memorizzato in Opensearch per l'indicizzazione.
L'interfaccia di ricerca dell'utente finale viene creata con Visual Builder. Quando un utente finale esegue una ricerca, il risultato viene ottenuto da OpenSearch e il collegamento al documento punta allo storage degli oggetti.
Quando viene visualizzato un documento, il documento viene dallo storage degli oggetti utilizzando brevi richieste preautenticate e vissute, create immediatamente.
Questa pipeline di elaborazione può essere estesa con passi aggiuntivi per richiamare qualsiasi codice personalizzato mediante una funzione (o servizi REST su un'istanza di computazione) per migliorare i metadati che verranno memorizzati nell'indice dell'istanza OpenSearch.
L'architettura dispone dei seguenti componenti:
- Servizio di ricerca OCI con OpenSearch
OCI Search Service with OpenSearch è un motore di approfondimento offerto come servizio gestito da Oracle. Senza tempi di inattività, Oracle automatizza l'applicazione di patch, l'aggiornamento, l'aggiornamento, il backup e il ridimensionamento del servizio. I clienti possono memorizzare, cercare e analizzare rapidamente grandi volumi di dati e vedere i risultati quasi in tempo reale.
- Oracle Integration
Oracle Integration è una piattaforma di connettività e automazione aziendale per modernizzare rapidamente applicazioni, processi aziendali, API e dati. Gli sviluppatori e gli architetti cloud possono connettere SaaS e le applicazioni on-premise sei volte più velocemente, con un'esperienza di sviluppo visivo, integrazioni predefinite e best practice integrate. Oracle Integration ti offre accesso nativo agli eventi in Oracle Cloud ERP, HCM e CX. Connetti i silos analitici specifici dell'applicazione per semplificare la richiesta di acquisto-ricezione, il processo dal recruiting al pagamento, il lead-to-invoice e altri processi critici. Infine, offri ai tuoi leader IT e aziendali una visibilità end-to-end.
- Storage degli oggetti
Lo storage degli oggetti fornisce accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati quali immagini e video. Puoi memorizzare e recuperare i dati in tutta sicurezza direttamente da Internet o dall'interno della piattaforma cloud. È possibile scalare lo storage senza problemi senza compromettere le prestazioni o l'affidabilità del servizio. Utilizzare lo storage standard per lo storage "hot" a cui è necessario accedere in modo rapido, immediato e frequente. Utilizzare l'archiviazione per lo storage "freddo" che viene conservato per lunghi periodi di tempo e raramente accessibile.
- OCI - Vision
OCI Vision è un servizio AI per eseguire analisi delle immagini basate sul deep-learning su larga scala. Grazie ai modelli predefiniti disponibili e pronti all'uso, gli sviluppatori possono facilmente creare applicazioni di riconoscimento delle immagini e riconoscimento del testo senza competenze di apprendimento automatico (ML). Per i casi d'uso specifici del settore, gli sviluppatori possono addestrare automaticamente modelli Vision personalizzati con i propri dati. Questi modelli possono essere utilizzati per rilevare anomalie visive nella produzione, estrarre testo dai documenti per automatizzare i flussi di lavoro aziendali ed etichettare gli elementi in immagini per conteggiare prodotti o spedizioni. Oltre ad avere accesso a modelli pre-addestrati, gli sviluppatori possono creare modelli personalizzati senza competenze di data science o gestire un'infrastruttura di modelli personalizzati.
- Streaming
Il servizio Oracle Cloud Infrastructure Streaming offre una soluzione completamente gestita, scalabile e duratura per l'inclusione e il consumo in tempo reale di flussi di dati a elevato volume. Utilizza il servizio di streaming per qualsiasi caso d'uso in cui i dati vengono prodotti ed elaborati in maniera continua e sequenziale in un modello di messaggistica di tipo pubblicazione/sottoscrizione.
- Eventi
I servizi Oracle Cloud Infrastructure emettono eventi, ossia messaggi strutturati che descrivono le modifiche nelle risorse. Gli eventi vengono emessi per le operazioni di creazione, lettura, aggiornamento o eliminazione (CRUD), le modifiche allo stato del ciclo di vita delle risorse e gli eventi di sistema che influiscono sulle risorse cloud.
- Funzioni
Oracle Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, su richiesta, Functions-as-a-Service (FaaS). È alimentato dal motore open source Fn Project. Le funzioni consentono di distribuire il codice, chiamarlo direttamente o attivarlo in risposta agli eventi. Oracle Functions utilizza container Docker ospitati in Oracle Cloud Infrastructure Registry.
- Tenancy
Una tenancy è una partizione sicura e isolata che Oracle imposta all'interno di Oracle Cloud quando ti iscrivi a Oracle Cloud Infrastructure. È possibile creare, organizzare e amministrare le risorse in Oracle Cloud all'interno della tenancy. Una tenancy è sinonimo di azienda o organizzazione. In genere, un'azienda avrà una sola tenancy e rifletterà la sua struttura organizzativa all'interno di tale tenancy. Una singola tenancy è in genere associata a una singola sottoscrizione e una singola sottoscrizione in genere dispone di una sola tenancy.
- Area
Un'area Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).
- Compartimento
I compartimenti sono partizioni logiche intraregionali all'interno di una tenancy di Oracle Cloud Infrastructure. Utilizzare i compartimenti per organizzare le risorse in Oracle Cloud, controllare l'accesso alle risorse e impostare le quote di utilizzo. Per controllare l'accesso alle risorse in un determinato compartimento, puoi definire criteri che specifichino chi può accedere alle risorse e quali azioni può eseguire.
- Rete cloud virtuale (VCN) e subnet
Una VCN è una rete personalizzabile definita dal software che si imposta in un'area Oracle Cloud Infrastructure. Analogamente alle reti di data center tradizionali, i VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che puoi modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.
- Lista di sicurezza
Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che deve essere consentito all'interno e all'esterno della subnet.
Suggerimenti
- Manutenzione e alta disponibilità
Il design utilizza quasi solo i servizi PaaS, gestiti dal cloud. Non è necessario installare, applicare patch, aggiornare o aggiornare il software utilizzando questa soluzione. Questo valore è valido per: Storage degli oggetti, Eventi, Streaming, OCI Vision, Oracle Integration, Visual Builder e Functions.
L'unico componente che richiede attenzione è l'agente di Oracle Integration Cloud installato in un'istanza di computazione per accedere al cluster OpenSearch che risiede in una rete privata. Seguire le linee guida riportate nella documentazione OIC per semplificare la manutenzione e la disponibilità di agenti OIC.
- Scalabilità e dimensioni
Questa architettura di riferimento utilizza il servizio PaaS ed è scalabile e pronta all'uso per la maggior parte dei servizi. Tenere presente che il cluster OpenSearch non esegue lo scale up e lo scale down in modo automatico (solo manualmente). Pertanto, è necessario disporre di un giusto ridimensionamento della soluzione in base al caso d'uso specifico.
Considerazioni
Quando si distribuisce questa architettura di riferimento, tenere presente quanto riportato di seguito.
- Prestazioni
Il servizio di ricerca OCI con OpenSearch ha un livello di configurazione senza precedenti. Non puoi utilizzare forme specifiche o SKU, ma puoi utilizzare forme flessibili che ti consentano di configurare il numero preciso di memorie centrali di computazione e la quantità di memoria e storage in base ai tuoi requisiti esatti.
Il servizio di ricerca OCI con OpenSearch gestisce il lavoro necessario per impostare il cluster, inclusa l'infrastruttura di provisioning. Una volta che il cluster è in esecuzione, il servizio di ricerca OCI con OpenSearch gestisce i task amministrativi comuni, ad esempio l'esecuzione di backup, le istanze di monitoraggio e il software di applicazione delle patch. Il servizio di ricerca OCI con OpenSearch si integra con le metriche OCI per produrre metriche che forniscono informazioni sullo stato dei cluster. OCI Search Service con OpenSearch offre anche la possibilità di modificare la configurazione del cluster e la dimensione totale dei dati senza interruzione del servizio.
- Sicurezza
I documenti vengono memorizzati nello storage degli oggetti privato. Quando un utente fa clic sul documento, viene creato un collegamento temporaneo con durata breve.
L'implementazione restituisce lo stesso risultato per tutti gli utenti ed è descritta in dettaglio nel workshop LiveLabs collegato nella sezione Esplora altro. Nessuna sicurezza implementata a livello di documento. È possibile implementarlo in base alla sicurezza OpenSearch e/o all'etichetta associata a documenti e utenti.
- Costo
Questa architettura di riferimento utilizza lo storage degli oggetti e OpenSearch che sono prodotti a basso costo. Utilizza anche una versione standard di OIC. OIC viene utilizzato in modo molto efficiente con l'indicizzazione, utilizza solo il riferimento ai file e non i file stessi.
Visualizza altro
Collegamento a informazioni aggiuntive che consentono di conoscere, modificare, utilizzare o implementare questa architettura.
- Workshop su Oracle LiveLabs: Cercare documenti e immagini memorizzati nello storage degli oggetti utilizzando OpenSearch, AI Vision, Riconoscimento del testo
- Framework basato sulle best practice per Oracle Cloud Infrastructure
- Aggrega i log utilizzando il servizio di ricerca OCI con OpenSearch
- Utilizzare OCI Vision per estrarre dati da immagini e documenti scansionati
- Documentazione di Oracle Integration

