Elaborazione di dati in blocco mediante OCI Data Integration e Oracle Integration Cloud Services

Elabora o integra dati in blocco da fonti esterne a sistemi o applicazioni mirati.

Si consideri questo scenario: si ricevono dati in blocco da un'origine esterna (ad esempio, clienti, fornitori, dipendenti, prodotti). Prima che raggiunga i sistemi o le applicazioni finali, i dati devono essere orchestrati, arricchiti, combinati o organizzati. Come parte del flusso per raggiungere questo obiettivo, è necessario eseguire l'integrazione con due o più applicazioni o servizi intermedi o applicare trasformazioni complesse ai dati. Questo processo può aggiungere attributi aggiuntivi ai dati dopo aver effettuato chiamate o orchestrato con varie applicazioni di terze parti (in base, ad esempio, a REST e SOAP). Questi dati transazionali possono anche richiedere trasformazioni complesse (JSON o XML), ricerche o riferimenti incrociati.

Questo scenario può essere implementato facilmente con due servizi cloud: OCI Data Integration e Oracle Integration, dove OCI Data Integration soddisfa tutte le esigenze di integrazione dei dati o "Extract, Transform, Load" (ETL) e Oracle Integration soddisfa tutte le esigenze di integrazione delle applicazioni o connettività di livello Enterprise, indipendentemente dalle applicazioni a cui ci si connette o da dove risiedono.

Architettura

Questa architettura di riferimento rappresenta un caso d'uso per l'utilizzo di OCI Data Integration e Oracle Integration per elaborare i dati in blocco.

Questa architettura di riferimento affronta anche le sfide dell'elaborazione dei file di Apache Parquet, Apache Avro e Microsoft Excel in Oracle Integration tramite OCI Data Integration. Ad esempio, per elaborare i dati dei report finanziari (ad esempio, contabilità fornitori, contabilità clienti, GL, flussi di cassa, cespiti e passività, ricavi) OCI Data Integration converte questi formati di file in file CSV (valori separati da virgole), che vengono quindi elaborati da Oracle Integration.

Il seguente diagramma illustra questa architettura di riferimento.



oci-bulk-data-integration-architecture-diagram-oracle.zip

Ecco una spiegazione dei passi mostrati nell'architettura di riferimento di cui sopra:

  1. Origini esterne (ad esempio, applicazioni personalizzate, applicazioni non Oracle, database Oracle in esecuzione su cloud di terze parti, servizi cloud di terze parti, database in locale e applicazioni) caricano o eliminano il file di caricamento dati in blocco in un bucket di OCI Object Storage.
  2. Servizio OCI Observability & Management: OCI Events cerca un oggetto o un file caricato nel bucket di OCI Object Storage.
  3. Eventi OCI attiva un'azione per richiamare Funzioni OCI con un bucket e un nome file.
  4. OCI Functions riceve l'evento e richiama la pipeline OCI Data Integration con parametri di input: nome bucket e nome file.
  5. La pipeline di OCI Data Integration legge il file di caricamento dati in blocco dal bucket di OCI Object Storage e divide il singolo file di dati di grandi dimensioni in numerosi file di dimensioni inferiori. Carica quindi i file divisi nel bucket OCI Object Storage.
  6. Un'altra istanza di OCI Events cerca i file suddivisi caricati nel bucket di OCI Object Storage.
  7. OCI Events attiva un'azione per richiamare OCI Functions con un nome bucket e per ogni nome file.
  8. OCI Functions riceve l'evento e richiama il flusso di Oracle Integration con i parametri di input del nome del bucket e di ciascun nome file.
  9. Oracle Integration legge ogni file dal bucket di OCI Object Storage.
  10. Oracle Integration, in base ai requisiti, orchestra e arricchisce i dati effettuando richiami a una o più applicazioni o sistemi intermedi. Esegue quindi funzioni complesse (ad esempio, trasformazioni, ricerche, riferimenti incrociati) ed elabora infine i dati in sistemi o applicazioni a valle.

L'architettura presenta i seguenti componenti:

  • Area

    Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Data Integration

    Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. Gli utenti progettano i processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e senza codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione.

    ETL (extract transform load) sfrutta l'elaborazione di scale-out completamente gestita su Spark e ELT (extract load transform) sfrutta le funzionalità di push-down SQL complete di Autonomous Data Warehouse per ridurre al minimo lo spostamento dei dati e migliorare il time-to-value per i dati appena inclusi.

    Oracle Cloud Infrastructure Data Integration fornisce esplorazione interattiva e preparazione dei dati e aiuta i data engineer a proteggersi dalla deriva degli schemi definendo le regole per gestire le modifiche agli schemi.

  • Integrazione

    Oracle Integration è un ambiente completamente gestito e preconfigurato che ti consente di integrare applicazioni cloud e on-premise, automatizzare i processi aziendali e sviluppare applicazioni visive. Utilizza un file server conforme a SFTP per archiviare e recuperare i file e consente di scambiare documenti con i partner commerciali business-to-business utilizzando un portfolio di centinaia di adattatori e ricette per connettersi con le applicazioni Oracle e di terze parti.

  • Eventi

    I servizi Oracle Cloud Infrastructure emettono eventi, ovvero messaggi strutturati che descrivono le modifiche alle risorse. Gli eventi vengono emessi per le operazioni di creazione, lettura, aggiornamento o eliminazione (CRUD), le modifiche allo stato del ciclo di vita delle risorse e gli eventi di sistema che influiscono sulle risorse cloud.

  • Funzioni

    Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand e Functions-as-a-Service (FaaS). È alimentato dal motore open source Fn Project. Le funzioni consentono di distribuire il codice e di chiamarlo direttamente o di attivarlo in risposta agli eventi. Oracle Functions utilizza i container Docker ospitati in Oracle Cloud Infrastructure Registry.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Lista di sicurezza

    Per ogni subnet, puoi creare regole di sicurezza che specificano l'origine, la destinazione e il tipo di traffico che devono essere consentiti all'interno e all'esterno della subnet.

  • Tabella di instradamento

    Le tabelle di instradamento virtuali contengono regole per instradare il traffico dalle subnet alle destinazioni esterne a una VCN, in genere attraverso i gateway.

conferme

  • Autori: Pavan Rajalbandi
  • Collaboratori: John Sulyok