Stabilisci una soluzione di dati multicloud tra OCI e Microsoft Azure
Le organizzazioni possono creare una struttura di data lake o un data warehouse aziendale per memorizzare i dati in tempo reale e archiviati in un'unica posizione centralizzata.
Questo approccio semplifica il processo di creazione di un data store centralizzato che funge da soluzione completa per tutte le esigenze di analisi dei dati.
Sfruttando una soluzione di analytics dei dati multicloud, le organizzazioni possono eseguire in modo efficiente gli analytics utilizzando una casa di data lake o un data warehouse centrale integrato con varie origini dati, tra cui Fusion SaaS, flat file, database on-premise e cloud, Salesforce e siti Web di e-commerce.
L'obiettivo finale è creare un repository centralizzato di dati che sia stato estratto e analizzato dalle business unit per migliorare la visibilità aziendale end-to-end e fornire insight basati sui dati. I vantaggi includono:
- Pipeline di analytics dei dati unificata
Semplifica l'accesso ai dati da varie origini cloud e on-premise, come database e aree di memorizzazione degli oggetti.
- Facilità di integrazione
Perfetta integrazione dei dati tra sistemi, formati, API, applicazioni e dispositivi diversi per garantire collaborazione e conformità sicure ai protocolli di sicurezza senza la necessità di una codifica manuale.
- Analytics ad alte prestazioni
Query dei dati efficienti che consentono di prendere decisioni più rapide e migliorare il servizio clienti.
- Costi, sicurezza e disponibilità
Riduci al minimo CapEx e OpEx ottenendo al contempo un rapporto costi-efficacia, prestazioni, sicurezza e disponibilità ottimali.
Architettura
Questa architettura di riferimento illustra una pipeline di dati multicloud aziendale che raccoglie e formatta i dati da varie origini, trasferendoli al data lake o al data warehouse aziendale. Include l'integrazione batch, l'integrazione dei dati e scenari di integrazione in tempo reale.
Oracle Interconnect for Microsoft Azure collega Azure ExpressRoute e Oracle Cloud Infrastructure FastConnect per connettere due reti cloud separate in modo efficiente.
Il traffico della rete virtuale (VNet) di Azure viene instradato tramite un'interconnessione privata alla rete cloud virtuale (VCN) di OCI.
Il seguente diagramma illustra questa architettura di riferimento.
oci-azure-multicloud-data-solution-diagram-oracle.zip
OCI Data Integration connette ed estrae i dati da origini on premise e cloud utilizzando adattatori nativi, accede alle applicazioni Oracle SaaS utilizzando il connettore BICC, esegue le trasformazioni sui dati e li carica in un data lake OCI tramite adattatori (Oracle Autonomous Database o OCI Object Storage).
I servizi di integrazione delle applicazioni Oracle raccolgono dati in tempo reale da diversi sistemi di origine, quali applicazioni Oracle SaaS, Internet-of-things (IoT), servizi di streaming, social media, sistemi on-premise e altri provider cloud tramite adattatori nativi. Successivamente, esegue i processi di trasformazione e orchestrazione prima di caricare i dati in un data lake OCI utilizzando gli adattatori (Oracle Autonomous Database o OCI Object Storage).
OCI GoldenGate acquisisce i dati da Oracle Autonomous Database e li replica in Data Lake Gen2 e Azure Synapse Analytics di Azure quasi in tempo reale tramite OCI FastConnect. La replica in Synapse prevede l'inserimento nell'area intermedia e l'unione dei dati di modifica in micro-batch in Azure Data Lake Storage Gen2 prima di unirli nella tabella di destinazione Synapse.
Flusso di eventi
- Estrazione e trasferimento dei dati
- I dati dei clienti vengono trasferiti dall'origine dati allo storage degli oggetti OCI direttamente o tramite driver predefiniti specifici dell'origine.
- I file flat in locale vengono spostati in OCI Object Storage utilizzando lo script Python del cliente o stabilendo una connessione FTP con OCI Object Storage per una connettività trasparente a Oracle Integration Cloud Service.
- I dati vengono caricati in modo sicuro nel relativo form raw nei bucket OCI Object Storage con cifratura.
- ingestione e trasformazione dei dati
- OCI Data Integration recupera i dati dallo storage degli oggetti OCI e da altre origini, li trasforma in base alle esigenze aziendali utilizzando Apache Spark e un flusso di architettura proposto, quindi memorizza i dati trasformati in storage degli oggetti OCI insieme al database autonomo.
- Questo processo segue l'architettura Delta Lake per le proprietà e la compressione ACID attive. I dati sono ora strutturati, possono essere sottoposti a query ed sono pronti per ulteriori analisi.
- OCI Logging gestisce tutti i log di elaborazione.
- Orchestrazione e pianificazione
- OCI Data Integration gestisce i processi del flusso di dati, pianificando l'esecuzione delle applicazioni Data Flow e dei notebook di Data Science in base alle esigenze.
- Gli sviluppatori possono eseguire le applicazioni Data Flow dall'interfaccia utente o dai notebook del servizio Data Science per maggiore flessibilità.
- Archivio dati
- Le policy del ciclo di vita dello storage degli oggetti OCI, definite e implementate dai clienti, svolgono un ruolo cruciale nell'automazione del processo di archiviazione dei dati. Queste politiche facilitano lo spostamento continuo dei dati a livelli di storage più convenienti o l'eliminazione sistematica di informazioni obsolete, il tutto in conformità con regole e linee guida predefinite. Questa automazione è essenziale per garantire non solo una gestione efficiente dei dati, ma anche la conformità a varie politiche di conservazione che le organizzazioni devono rispettare.
- Utilizzando questi criteri del ciclo di vita, i clienti possono ottimizzare i costi di storage mantenendo il controllo sulle loro pratiche di conservazione dei dati e garantendo che siano allineati ai requisiti legali e normativi.
- Replica dati in Azure
- OCI GoldenGate viene utilizzato per la replica dei dati in Azure tramite una rete dedicata stabilita con Oracle Interconnect for Microsoft Azure.
- OCI GoldenGate si integra strettamente con Azure Data Lake e Azure Synapse Analytics per un caricamento dei dati trasparente.
- Analisi e reporting dei dati
- Oracle Analytics Cloud e Power BI sono esempi di strumenti di business intelligence che possono stabilire una connessione con OCI Object Storage o Oracle Autonomous Database.
- Questi strumenti raccolgono i dati che sono stati trasformati e producono dashboard user-friendly che mostrano gli indicatori chiave di performance aziendali (KPI).
- Attraverso questi dashboard, è possibile ottenere insight preziosi dai dati, facilitando un processo decisionale ben informato.
L'architettura presenta i seguenti componenti:
- Tenancy
Una tenancy è una partizione sicura e isolata che Oracle imposta all'interno di Oracle Cloud quando ti iscrivi a Oracle Cloud Infrastructure. Puoi creare, organizzare e amministrare le risorse in Oracle Cloud all'interno della tua tenancy. Una tenancy è sinonimo di azienda o organizzazione. Di solito, un'azienda avrà una singola tenancy e rifletterà la sua struttura organizzativa all'interno di quella tenancy. Una singola tenancy viene in genere associata a una singola sottoscrizione e una singola sottoscrizione in genere ha una sola tenancy.
- Area
Un'area geografica Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).
- Compartimento
I compartimenti sono partizioni logiche tra più aree all'interno di una tenancy Oracle Cloud Infrastructure. Usare i compartimenti per organizzare le risorse in Oracle Cloud, controllare l'accesso alle risorse e impostare le quote d'uso. Per controllare l'accesso alle risorse in un determinato compartimento, definire criteri che specificano chi può accedere alle risorse e quali azioni possono eseguire.
- domini di disponibilità
I domini di disponibilità sono data center standalone e indipendenti all'interno di un'area geografica. Le risorse fisiche in ciascun dominio di disponibilità sono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio alimentazione o raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, un errore in un dominio di disponibilità non dovrebbe influire sugli altri domini di disponibilità nell'area.
- Rete cloud virtuale (VCN) e subnet
Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Come le tradizionali reti di data center, le reti VCN consentono di controllare l'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi segmentare una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.
- ExpressRoute
Azure ExpressRoute consente di impostare una connessione privata tra una rete VNet e un'altra rete, ad esempio la rete in locale o una rete in un altro provider cloud.
Azure ExpressRoute è un'alternativa più affidabile e più veloce alle connessioni Internet tipiche perché il traffico su Azure ExpressRoute non attraversa la rete Internet pubblica.
- Autonomous Database
Oracle Autonomous Database è un ambiente di database completamente gestito e preconfigurato che puoi utilizzare per l'elaborazione delle transazioni e i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun componente hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'upgrade e il tuning del database.
- Storage degli oggetti
Lo storage degli oggetti offre un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati come immagini e video. Puoi memorizzare e quindi recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. Puoi ridimensionare lo storage senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio. Utilizza lo storage standard per lo storage "caldo" a cui è necessario accedere rapidamente, immediatamente e frequentemente. Utilizza lo storage di archivio per lo storage "freddo" che conservi per lunghi periodi di tempo e a cui accedi raramente o raramente.
- Data Integration
Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. ETL (extract transform load) sfrutta l'elaborazione di scale-out completamente gestita su Spark e ELT (extract load transform) sfrutta le funzionalità di push-down SQL complete di Autonomous Data Warehouse per ridurre al minimo lo spostamento dei dati e migliorare il time-to-value per i dati appena inclusi. Gli utenti progettano i processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e senza codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione. Oracle Cloud Infrastructure Data Integration fornisce esplorazione interattiva e preparazione dei dati e aiuta i data engineer a proteggersi dalla deriva dello schema definendo le regole per gestire le modifiche allo schema.
- Oracle GoldenGate Cloud Service
Oracle GoldenGate Cloud Service è un servizio completamente gestito che consente l'inclusione dei dati da fonti che risiedono on-premise o in qualsiasi cloud, sfruttando la tecnologia CDC GoldenGate per un'acquisizione dei dati e una distribuzione non invadenti ed efficienti a Oracle Autonomous Data Warehouse in tempo reale e su larga scala, al fine di rendere disponibili le informazioni pertinenti ai consumatori il più rapidamente possibile.
- Oracle Integration
Oracle Integration offre una connettività predefinita alle applicazioni SaaS e on-premise, modelli di automazione dei processi run-ready e un visual builder low-code per lo sviluppo di applicazioni Web e mobile. Ti offre l'accesso nativo agli eventi in Oracle Cloud ERP, HCM e CX. Connetti i silos analitici specifici delle app per semplificare le procedure da richiesta a ricezione, dal recruiting al pagamento, dal lead alla fattura e altri processi critici, offrendo ai tuoi IT e ai tuoi leader aziendali visibilità end-to-end.
- Azure Synapse Analytics
Azure Synapse Analytics è un servizio di analisi che unisce integrazione dei dati, data warehousing aziendale e analisi dei Big Data. Consente di eseguire query sui dati in base alle proprie condizioni, utilizzando opzioni serverless o dedicate, su larga scala. Azure Synapse Analytics unisce questi concetti a un'esperienza unificata per includere, esplorare, preparare, trasformare, gestire e servire i dati per esigenze immediate di BI e Machine Learning.
- Azure Storage per data lake Gen2
Azure Data Lake Storage Gen2 è un set di funzionalità dedicate all'analisi dei Big Data, basate su Azure Blob Storage. Data Lake Storage Gen2 converge le funzionalità di Azure Data Lake Storage Gen1 con Azure Blob Storage.
Ad esempio, Azure Data Lake Storage Gen2 fornisce la semantica del file system, la sicurezza a livello di file e la scalabilità. Poiché queste funzionalità si basano sullo storage Blob, puoi anche ottenere storage su più livelli a basso costo con funzionalità di alta disponibilità e disaster recovery.
- Gateway dell'applicazione Azure
Il gateway applicazioni di Azure è un load balancer di traffico Web (livello OSI 7) che consente di gestire il traffico verso le applicazioni Web. I load balancer tradizionali operano a livello di trasporto (livello OSI 4: TCP e UDP) e instrada il traffico in base all'indirizzo IP e alla porta di origine, fino a un indirizzo IP e a una porta di destinazione. Il gateway applicazioni di Azure può prendere decisioni di instradamento in base ad attributi aggiuntivi di una richiesta HTTP, ad esempio il percorso URI o le intestazioni host.
Ad esempio, è possibile instradare il traffico in base all'URL in entrata. Pertanto, se
/images
si trova nell'URL in entrata, è possibile instradare il traffico a un set specifico di server (noto come pool) configurato per le immagini. Se l'URL contiene/video
, il traffico viene instradato a un altro pool ottimizzato per i video.
Suggerimenti
- Provisioning
- Selezionare la dimensione appropriata per i circuiti virtuali OCI FastConnect e Azure ExpressRoute per soddisfare i requisiti di larghezza di banda del carico di lavoro.
- Distribuire Oracle Database all'interno della VCN e della subnet OCI collegate al gateway di instradamento dinamico (DRG) OCI e alla OCI FastConnect.
- Impostare le misure di instradamento e sicurezza o il gruppo di sicurezza di rete (NSG) su OCI per abilitare il traffico di rete di Azure Synapse Analytics per raggiungere Oracle Database.
- Quando si configura Oracle Database con un endpoint privato, definire le impostazioni della VCN per consentire il traffico esclusivamente dalla VCN designata, limitando l'accesso da qualsiasi IP pubblico o VCN.
Considerazioni
Quando si distribuisce questa architettura di riferimento, tenere presente quanto riportato di seguito.
- Costo
OCI FastConnect: il prezzo di OCI FastConnect rimane coerente in tutte le region OCI, senza costi aggiuntivi per l'ingresso o l'uscita dei dati.
Azure ExpressRoute: i prezzi per Azure ExpressRoute variano a seconda dell'area.
- Prestazioni
In questa architettura di riferimento, il cliente ha richiesto la replica dei dati quasi in tempo reale dal database primario su OCI agli endpoint di Azure per il proprio caso d'uso. Utilizzando OCI GoldenGate, il cliente ha garantito che i suoi serbatoi di big data eterogenei e multicloud fossero costantemente aggiornati con dati in tempo reale provenienti da sistemi di produzione operativi e analitici, facilitando l'analisi in tempo reale.
- Networking
Oracle Interconnect for Microsoft Azure funge da soluzione di rete alternativa ed è compatibile con aree specifiche abbinate a Azure OCI. Per scoprire quali region di Azure e OCI supportano Oracle Database Service for Microsoft Azure, consulta la sezione Ulteriori informazioni sulla disponibilità regionale di Oracle Database Service for Azure.
Nei casi in cui le aree OCI e Azure non supportano Oracle Interconnect for Microsoft Azure, è possibile utilizzare la spina dorsale di ciascun provider cloud per gestire il traffico. Se si opta per il backbone OCI, è necessario stabilire un'area intermedia che comprenda l'area Oracle Interconnect for Microsoft Azure all'interno di OCI e una connessione di peering remoto (RPC) all'area in cui manca il supporto per Oracle Interconnect for Microsoft Azure.