Implementa un'architettura di integrazione di data lake multi-cloud

Questa architettura di riferimento mostra come le organizzazioni possono integrare i dati provenienti da più fonti nel data lake di Oracle Cloud Infrastructure (OCI).

Questa architettura di riferimento rappresenta un caso d'uso per un'organizzazione aziendale su larga scala con una strategia aziendale che include l'acquisizione di nuove organizzazioni come parte del loro piano di crescita a lungo termine. L'organizzazione sta creando un data lake con una piattaforma di analitica e l'analisi dei costi è uno dei moduli inclusi.

L'organizzazione ha implementato Oracle Fusion Cloud Applications per il settore finanziario in cui vengono memorizzati i dati della fattura.

L'organizzazione ha recentemente acquisito una nuova organizzazione e utilizza Amazon Web Services (AWS) per ospitare l'applicazione di elaborazione delle fatture. È necessario trasferire i dati delle fatture da AWS a Oracle Cloud Infrastructure (OCI), dove il data lake viene implementato e arricchire i dati delle fatture ad alto volume con informazioni su centro di costo/fornitore prima di caricarsi nel data lake. I dati del centro di costo provengono da Oracle Fusion Cloud Applications e i dati dei fornitori provengono da un database MySQL on-premise.

Architettura

Questa architettura di riferimento descrive come portare i dati da diversi provider cloud e origini dati on premise a un data lake ospitato in OCI. Questa architettura copre l'integrazione batch, l'integrazione dei dati, l'integrazione in tempo reale e gli scenari di integrazione basati sugli eventi.

Il seguente diagramma illustra il flusso di dati per questa architettura di riferimento.
Segue la descrizione di oci_multicloud_datalake_flow.png
Descrizione dell'immagine oci_multicloud_datalake_flow.png

oci-multicloud-datalake-flow-oracle.zip

Integrazione dati OCI:
  1. Collega ed estrae i dati da:
    • Servizi AWS e servizi Azure tramite adattatori nativi.
    • Origini dati on premise attraverso la connettività privata (FastConnect/VPN).
    • Applicazioni Oracle SaaS tramite connettore BICC.
  2. Esegue la trasformazione sui dati estratti.
  3. Carica i dati nel data lake OCI attraverso gli adattatori (ADB/Storage degli oggetti).
Oracle Integration Cloud:
  1. Riceve i dati in tempo reale da vari sistemi di origine, ad esempio applicazioni Oracle SaaS/servizi IOT/Streaming/social media/sistemi on-premise/altri provider cloud tramite adattatori nativi.
  2. Esegue la logica di trasformazione/orchestrazione.
  3. Carica i dati nel data lake OCI attraverso gli adattatori (ADB/Storage degli oggetti).

Il diagramma riportato di seguito illustra questa architettura di riferimento.



oci-multicloud-datalake-oracle.zip

Oracle Data Integration Service viene utilizzato per gli scenari riportati di seguito.
  • Consolidamento dei dati mediante l'acquisizione di dati da più sistemi di origine eterogenei e l'integrazione in un'unica area di memorizzazione persistente. Questo viene generalmente eseguito utilizzando routine ETL (Extract, Transform and Load).
  • Estrazione di dati ad alto volume dai sistemi di origine (HDFS, Oracle Autonomous Database, MySQL, Oracle Database, Azure Synapse, AWS Redshift, Object Storage, S3, Microsoft SQL, PostgreSQL e così via) che sono ospitati nella rete privata/pubblica (cliente in locale, 3rd party cloud network (Azure VNet, AWS VPC)) e quindi caricati nel data lake OCI.
  • Estrazione dei dati da Oracle Fusion Cloud Applications tramite il connettore BICC/BI Publisher, quindi caricamento nel data lake OCI.
  • Estrazione di dati di volume elevati da più origini con un pattern di orchestrazione.
  • Implementazione di job ETL pianificati (giornalieri, mensili, settimanali, mensili, espressioni cron e così via).

Oracle Integration Cloud (OIC) viene utilizzato per i seguenti scenari:

  • Ricezione di dati da applicazioni Oracle Cloud, CRM, E-commerce e applicazioni cloud on-premise/3rd party in tempo reale e poi caricamento nel data lake.
  • Caricamento dei dati nel data lake da un file (meno volume) generato da un'origine dati.
  • Esposizione delle API REST cloud di Oracle Integration alle piattaforme webhook, ricevendo i dati in tempo reale e caricandoli nel data lake.
  • Alcune piattaforme IOT (Geotab, CheckSafe e così via) hanno instabilità del webhook e inviano dati a qualsiasi API https per nuovi eventi in modo che possano connettersi direttamente al gateway API.
  • Ricezione di dati da piattaforme di social media (Facebook, LinkedIn, Twitter, Slack e così via) e caricamento nel data lake OCI.
Oracle API Gateway viene utilizzato per i seguenti scenari:
  • Pubblicazione di API OIC e API applicazione con endpoint privati accessibili dall'interno della rete oppure puoi esporre alla rete Internet pubblica, se necessario. Gli endpoint supportano la convalida delle API, la trasformazione delle richieste e delle risposte, CORS, l'autenticazione e l'autorizzazione e il limite delle richieste.
  • Scollegamento della sicurezza e della business logic nello sviluppo delle API.
  • Esposizione delle API alle origini limitate con controlli di sicurezza che possono inserire i dati nel data lake a valle.

L'architettura è dotata dei componenti elencati di seguito.

  • Area

    Un'area Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, definiti domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (in tutti i paesi o anche in continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center standalone indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse presenti negli altri domini di disponibilità, che offrono tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione, il raffreddamento o la rete interna del dominio di disponibilità. È pertanto improbabile che l'eventuale guasto di un dominio di disponibilità influenzi gli altri domini di disponibilità nell'area.

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Analogamente alle reti di data center tradizionali, i VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che puoi modificare dopo aver creato la VCN. Puoi segmentare una VCN nelle subnet che possono essere definite nell'area o in un dominio di disponibilità. Ogni subnet è composta da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. Puoi modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Integrazione

    Oracle Integration è un servizio completamente gestito che consente di integrare le applicazioni, automatizzare i processi, ottenere informazioni dettagliate sui processi aziendali e creare applicazioni visive.

  • Oracle Data Integration

    Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. ETL (Extract Transform Load; caricamento trasformazione estrazione) sfrutta l'elaborazione scale-out completamente gestita su Spark e ELT (Extract Load Transform) sfrutta le funzionalità push-down SQL complete di Autonomous Data Warehouse per ridurre lo spostamento dei dati e migliorare il time-to-value per i dati appena inclusi. Gli utenti progettano processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e priva di codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione. Oracle Cloud Infrastructure Data Integration offre esplorazione interattiva e preparazione dei dati e aiuta i tecnici dei dati a proteggersi dalle deviazioni degli schemi definendo regole per gestire le modifiche degli schemi.

  • Oracle Business Intelligence Cloud Connector

    Oracle BI Cloud Connector (BICC) è uno strumento utile per estrarre i dati da Fusion e memorizzarli in risorse condivise come il server UCM (Oracle Universal Content Management) o la memorizzazione cloud in formato CSV.

  • Agente di connettività OIC

    L'agente di connettività OIC ti consente di creare integrazioni ibride e di scambiare messaggi tra applicazioni in reti private o on premise e Oracle Integration Cloud.

  • Data lake

    Un data lake è un repository scalabile e centralizzato in grado di memorizzare i dati non elaborati e consente a un'azienda di memorizzare tutti i dati in un ambiente elastico a costi contenuti. Un data lake fornisce un meccanismo di storage flessibile per lo storage di dati grezzi.

  • Memoria oggetti

    Lo storage degli oggetti garantisce un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati, ad esempio immagini e video. Puoi memorizzare i dati in tutta sicurezza e poi recuperarli direttamente da Internet o dall'interno della piattaforma cloud. Puoi ridimensionare lo storage in modo trasparente senza alcun peggioramento a livello di prestazioni o affidabilità dei servizi. Utilizza lo storage standard per lo storage "hot" a cui devi accedere in modo rapido, immediato e frequente. Utilizzare lo storage di archivio per lo storage "freddo" che si mantiene per lunghi periodi di tempo e raramente può accedere.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database è un ambiente di database preconfigurato e completamente gestito che puoi utilizzare per l'elaborazione delle transazioni e i carichi di lavoro di data warehousing. Non è necessario configurare o gestire hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e l'ottimizzazione del database.

  • Analitica

    Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre agli analisti aziendali moderne funzionalità di analitica self-service basate sull'intelligenza artificiale per la preparazione, la visualizzazione, la reportistica aziendale, l'analisi migliorata e l'elaborazione e la generazione del linguaggio naturale. Oracle Analytics Cloud offre anche funzionalità flessibili di gestione dei servizi, tra cui configurazione rapida, scalabilità e applicazione di patch, e gestione automatizzata del ciclo di vita.

  • Catalogo dati

    Oracle Cloud Infrastructure Data Catalog è una soluzione di governance e ricerca automatica dei dati self-service completamente gestita per i dati aziendali. Offre a data engineer, data scientist, data steward e Chief Data Officer un singolo ambiente collaborativo per gestire i metadati tecnici, aziendali e operativi dell'organizzazione.

Suggerimenti

Utilizzare il seguente suggerimento come punto di partenza. I requisiti potrebbero essere diversi dall'architettura descritta qui.
  • Sicurezza

    Tutte le connessioni vengono stabilite attraverso una rete privata e tutte le transazioni ETL vengono instradate tramite Fastconnect per on-premise, Colt per AWS, Azure Interconnect per Azure. Si consiglia inoltre di utilizzare la cifratura e la decifrazione nell'origine e nella destinazione. Ciò garantirà la sicurezza durante il transito.

Considerazioni

Quando si distribuisce questa architettura di riferimento, tenere presente quanto riportato di seguito.

  • Sicurezza
    Utilizza i criteri IAM (Identity and Access Management) OCI per controllare chi può accedere alle tue risorse cloud e quali operazioni è possibile eseguire. Per proteggere le password del database o qualsiasi altro segreto, prendere in considerazione l'uso del servizio Vault OCI.
    • Assegnare l'accesso con privilegi minimi per utenti e gruppi IAM ai tipi di risorse in dis-family.
    • Per ridurre al minimo la perdita di dati a causa di eliminazioni involontarie da parte di un utente autorizzato o di eliminazioni dannose, Oracle consiglia di assegnare l'autorizzazione DIS_WORKSPACE_DELETE a un set minimo possibile di utenti e gruppi IAM. Assegnare l'autorizzazione DIS_WORKSPACE_DELETE solo agli amministratori della tenancy e del compartimento.
    • Per proteggere le origini dati da qualsiasi vulnerabilità della sicurezza, fornire le credenziali solo agli account di sola lettura. L'integrazione dei dati richiede solo l'accesso in lettura per includere i dati dagli asset dati.
  • Costo
    • Se i dati su larga scala vengono trasferiti di frequente attraverso il confine cloud, diventa essenziale la direzione del flusso di dati. In genere, i provider di servizi cloud non addebitano alcun costo per l'ingresso dei dati, ma tutti i provider addebitano una tariffa di uscita dei dati. Le tariffe di uscita dei dati variano da fornitore di servizi cloud. È fondamentale tener conto dei costi di uscita nelle considerazioni di progettazione multicloud. Inoltre, nello spostamento dei dati deve essere presa in considerazione la residenza dei dati.
    • OCI FastConnect: il costo di FastConnect è lo stesso in tutte le aree OCI.
    • Microsoft Azure ExpressRoute: il costo di Microsoft Azure ExpressRoute varia da un'area all'altra. Azure dispone di più SKU disponibili per un percorso rapido. Oracle consiglia di utilizzare l'impostazione Locale, perché non prevede addebiti in entrata o in uscita separati e inizia con una larghezza di banda minima di 1 Gbps. Le configurazioni Standard e Premium offrono una larghezza di banda inferiore, ma comportano costi di uscita separati in un'impostazione sottoposta a misurazione.
    • Utilizza il servizio di storage di archivio a costi contenuti per memorizzare i dati ad accesso meno frequente, ma che devono essere conservati per un periodo più lungo. Definisci i criteri di gestione del ciclo di vita per spostare automaticamente i dati nello storage di archivio o eliminare i dati dopo una durata specificata.
  • High Availability

    Ogni circuito di interconnessione (ExpressRoute e FastConnect) è dotato di un circuito ridondante sullo stesso POP, ma di un router fisico diverso, che garantisce alta disponibilità.

Conferme

  • Author: Subburam Mathuraiveeran
  • Contributors: Wei Han, Phil Wilkins