Data Platform - Data Federation

Un'architettura data lakehouse ti aiuterà a raccogliere e analizzare in modo efficace i dati degli eventi e i dati in streaming dai dispositivi in tempo reale e a correlarli con una vasta gamma di risorse di dati aziendali per sfruttare l'investimento nei dati e ottenere gli insight che desideri.

Ma come correli i dati nel tuo data lakehouse con i dati che risiedono sulle tue origini dati eterogenee o che vengono distribuiti su altri cloud o sistemi on-premise, senza la necessità di duplicare i dati?

La risposta è sfruttare un approccio di federazione dei dati che combina i dati del data lakehouse con i dati federati provenienti da aree di memorizzazione cloud di terze parti e dai dati provenienti da database cloud e on-premise, indipendentemente dalla loro posizione fisica.

Questa architettura di riferimento posiziona la soluzione tecnologica nel contesto aziendale generale:



La federazione dei dati è una tecnica che consente l'integrazione, l'unificazione e la governance dei dati memorizzati in data store diversi utilizzando un motore di query federato che converte una singola query in subquery spedite ai data store di origine. I risultati vengono quindi uniti e presentati all'utente o all'applicazione, come illustrato di seguito.



data-platform-federation-overview-oracle.zip

Spesso la federazione dei dati viene scambiata con la virtualizzazione dei dati. La virtualizzazione dei dati crea una vista unificata dei dati provenienti da più origini senza duplicare i dati e fornisce nuovi dati in tempo reale.

Ai fini di questa architettura di riferimento, viene utilizzato il termine federazione dei dati, anche se le funzionalità descritte di seguito riguardano sia la federazione che la virtualizzazione.

L'utilizzo della federazione dei dati semplifica l'accesso ai dati per i consumatori, come i motori di analytics e data science, collegandoli a un motore di servizio federato anziché mutiplare le origini dati, aumentando così la riutilizzabilità, la governance e la sicurezza dei dati federati.

I motori di analisi offrono tradizionalmente funzionalità di federazione dei dati che possono essere utilizzate come complemento al motore di servizio federato. Di solito, i motori di data service federati hanno più funzionalità per aumentare le prestazioni e indirizzare la scalabilità, il che comporta vantaggi impliciti per i motori di analytics.

Questo documento descrive una potenziale soluzione per la federazione dei dati all'interno di Oracle Cloud Infrastructure, ma possono esistere alternative che utilizzano tecnologie diverse per scenari diversi.

Architettura funzionale

Questa architettura utilizza un data lakehouse per memorizzare e utilizzare i dati, indipendentemente dalla loro forma o forma. Al centro di questa architettura c'è il data warehouse distribuito su Oracle Autonomous Data Warehouse.

Inoltre, l'architettura utilizza un motore di query unificato per federare i dati curati da origini selezionate con i dati nel lakehouse. I dati federati vengono ottenuti utilizzando meccanismi quali tabelle esterne, database link e condivisione dei dati, a seconda del data store.

Un'architettura di federazione che combina i dati del lakehouse e i data store esistenti consente di:

  • Unisci tutti i dati indipendentemente dalla posizione in cui sono memorizzati
  • Supporta una piattaforma di dati multicloud e ibrida-cloud che federa i dati memorizzati su altri cloud e on-premise
  • Semplifica l'esperienza dei consumatori di dati per ottenere ed eseguire query sui dati da diversi motori
  • Aumenta la sicurezza poiché un singolo modello di sicurezza dei dati può essere applicato al motore di query federato
  • Aumenta la governance utilizzando un Data Catalog che unifica i metadati per le entità memorizzate nel lakehouse e federate con il motore di query
  • Aumenta le performance sfruttando la materializzazione dei dati e l'inserimento nella cache del database autonomo
  • Esponi dati unificati e curati a consumatori diversi utilizzando dashboard di analisi, interfacce SQL, endpoint API e condivisione dei dati
  • Sfrutta un database multi-modello come motore di query federato

Il seguente diagramma illustra l'architettura funzionale. Per semplicità, non tutte le capacità del lakehouse sono mostrate.



dati-piattaforma-federazione-funzionale-oracle.zip

Questa architettura descrive una piattaforma dati federata che utilizza principalmente l'elaborazione in batch, ma può essere aumentata con le funzionalità in tempo reale del data lakehouse per elaborare i dati in streaming.

L'elaborazione dei dati in streaming spesso deve utilizzare dati contestuali all'interno delle proprie pipeline di dati. I dati contestuali potrebbero essere memorizzati su origini dati diverse, ma un motore di federazione dei dati che fornisce tutti i dati contestuali alle pipeline di dati semplifica tali pipeline.

L'architettura si concentra sulle seguenti divisioni logiche:

Inclusione, trasformazione

Acquisisce e perfeziona i dati per l'uso in ciascuno dei livelli di dati nell'architettura.

I dati federati vengono utilizzati su richiesta dallo storage cloud, dai database e dalle condivisioni di dati. I dati non vengono trasformati in questo layer perché sono già stati curati nel data store di origine.

Persista, cura, crea

Facilita l'accesso e la navigazione dei dati per mostrare la vista aziendale corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in semplici forme relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo layer contiene uno o più pool di dati, ovvero l'output di un processo analitico o i dati ottimizzati per un task analitico specifico.

Questo livello contiene il motore di servizio federato che unifica e gestisce i dati che risiedono nel data warehouse, nel data lake e nelle origini dati federate. Offre la possibilità di eseguire query sui dati federati su richiesta e di materializzare i dati federati per migliorare le prestazioni delle query.

Il motore di federazione offre la possibilità di servire i dati utilizzando SQL, API REST o condivisione dei dati che aumenta l'interoperabilità semplificando al contempo la connettività, poiché i consumatori di dati si connettono a un singolo motore di servizio anziché a più data store.

Analizza, impara, prevedi

Descrive la vista business logica dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un singolo livello di reporting da più origini federate.

Questo livello sfrutta il motore di servizio per ottenere dati federati che possono essere ulteriormente aumentati con i connettori di dati disponibili su questo livello e forniti dai servizi di visualizzazione o data science.

L'utilizzo di un motore di query federato consente di astrarre l'accesso del consumer di dati dai data store di base, aumentando la produttività poiché i dati vengono federati una sola volta e utilizzati da molti consumer di dati. Ciò rende inoltre il sistema più interoperabile in quanto qualsiasi consumatore in grado di interagire con SQL, API REST o condivisione dei dati può utilizzare e unire lakehouse e dati federati.

L'architettura presenta i seguenti componenti funzionali:

Inclusione batch

L'inclusione batch è utile per i dati che non possono essere inclusi in tempo reale o che sono troppo costosi per adattarsi all'inclusione in tempo reale. È anche importante trasformare i dati in informazioni affidabili e affidabili che possono essere curate e persistenti per un consumo regolare.

Batch Ingest completa il motore di federazione dati poiché può includere dati a cui il motore di federazione non dispone dell'accesso nativo o per casi d'uso specifici in cui i dati devono essere trasformati per essere conformi al modello di dati lakehouse.

È possibile utilizzare i seguenti servizi insieme o in modo indipendente per ottenere un flusso di lavoro di integrazione e trasformazione dei dati altamente flessibile ed efficace.

  • Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. ETL (extract transform load) sfrutta l'elaborazione di scale-out completamente gestita su Spark e ELT (extract load transform) sfrutta le funzionalità push-down SQL complete di Autonomous Data Warehouse per ridurre al minimo lo spostamento dei dati e migliorare il time-to-value per i dati appena inclusi. Gli utenti progettano i processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e senza codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione. Oracle Cloud Infrastructure Data Integration fornisce esplorazione interattiva e preparazione dei dati e aiuta i data engineer a proteggersi dalla deriva dello schema definendo le regole per gestire le modifiche allo schema.

  • Oracle Data Integrator offre l'integrazione dei dati in modo completo dalle operazioni di caricamento in batch ad alto volume e ad alte prestazioni e basato sugli eventi, ai processi di integrazione basati sugli eventi, ai servizi di dati abilitati per SOA. Un approccio alla progettazione dichiarativa garantisce uno sviluppo e una manutenzione più rapidi e semplici e fornisce un approccio unico per estrarre la trasformazione del carico (ELT) che aiuta a garantire il più alto livello di prestazioni possibile per i processi di trasformazione e convalida dei dati. Le trasformazioni dei dati Oracle utilizzano un'interfaccia Web per semplificare la configurazione e l'esecuzione di ELT e per aiutare gli utenti a creare e pianificare dati e flussi di lavoro utilizzando un approccio di progettazione dichiarativa.

  • Oracle Data Transforms abilita ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous Data Warehouse per caricare e trasformare i dati da diverse origini dati in un'istanza ADW.

A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere integrazione e trasformazione dei dati altamente flessibili e performanti.

Elaborazione batch

L'elaborazione in batch trasforma i data set su larga scala memorizzati nel data lakehouse. L'elaborazione in batch sfrutta i servizi nativi di Oracle Cloud Infrastructure che si integrano perfettamente con Oracle Cloud Infrastructure Object Storage e ti consente di creare dati curati per casi d'uso come l'aggregazione e l'arricchimento dei dati, l'inclusione del data warehouse e l'apprendimento automatico e l'uso dei dati AI su larga scala.

Oracle Cloud Infrastructure Data Integration, descritto sopra, è un servizio cloud nativo serverless e completamente gestito che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Oracle Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che ti consente di eseguire applicazioni Apache Spark senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire più rapidamente applicazioni basate su Big Data e AI, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operations. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorsa runtime predefinita.

Porzioni

Oracle Autonomous Data Warehouse è un servizio di database self-driving, self-securing, self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun componente hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'upgrade e il tuning del database.

Dopo il provisioning, puoi ridimensionare il numero di memorie centrali CPU o la capacità di storage del database in qualsiasi momento senza influire sulla disponibilità o sulle prestazioni.

ADW può anche virtualizzare i dati che risiedono nello storage degli oggetti come tabelle partizionate esterne e ibride in modo da poter unire e utilizzare i dati derivati da altre origini con i dati del warehouse. Puoi anche spostare i dati cronologici dal warehouse allo storage degli oggetti e quindi utilizzarli senza problemi utilizzando tabelle ibride partizionate.

ADW può utilizzare i metadati raccolti in precedenza memorizzati in Oracle Cloud Infrastructure Data Catalog per creare tabelle esterne e sincronizzare automaticamente gli aggiornamenti dei metadati in Oracle Cloud Infrastructure Data Catalog con la definizione delle tabelle esterne per mantenere la coerenza, semplificare la gestione e ridurre gli sforzi.

Le viste analitiche, una funzione di Autonomous Database, forniscono un modo rapido ed efficiente per creare query analitiche dei dati memorizzati nelle tabelle e nelle viste di database esistenti. Le viste analitiche organizzano i dati utilizzando un modello dimensionale. Consentono di aggiungere con facilità aggregazioni e calcoli ai data set e di presentare i dati nelle viste su cui è possibile eseguire query mediante istruzioni SQL relativamente semplici. Questa funzione consente di modellare semanticamente uno schema a stella o fiocco di neve direttamente in ADW, utilizzando i dati memorizzati internamente ed esternamente e consente il consumo del modello utilizzando SQL e qualsiasi consumer di dati conforme a SQL.

ADW offre la possibilità di federare e interrogare i dati memorizzati su archivi cloud di terze parti (vale a dire AWS S3, Azure Blob e GCP CGS), su database cloud di terze parti (vale a dire AWS Redshift, Azure Synapse Analytics, Google BigQuery e Snowflake), su database di terze parti (vale a dire IBM DB2, MongoDB, PostrgreSQL, Hive) e persino su applicazioni SaaS.

In un'unica query, ADW può eseguire query e unire i dati da archivi cloud, database cloud e altri database popolari, semplificando l'accesso ai dati ai consumatori dei motori di servizio, poiché sono astratti dalla complessità delle query separatamente, diversi motori di query, per ottenere un risultato unificato. Può anche combinare questi dati con dati ottenuti da condivisioni di dati fornite da produttori conformi al protocollo aperto Delta Sharing.

Memoria cloud

Oracle Cloud Infrastructure Object Storage è una piattaforma di storage su scala Internet ad alte prestazioni che offre durabilità dei dati affidabile ed economica. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici. Puoi memorizzare o recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. Più interfacce di gestione ti consentono di iniziare facilmente in piccole dimensioni e scalare senza problemi, senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio.

Oracle Cloud Infrastructure Object Storage può essere utilizzato anche come livello di cold storage per il data warehouse memorizzando i dati utilizzati raramente, quindi unendoli senza problemi con i dati più recenti utilizzando tabelle ibride in Oracle Autonomous Data Warehouse.

Visualizza/Impara

Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre un set completo di funzionalità per esplorare ed eseguire l'analisi collaborativa per l'utente, il gruppo di lavoro e l'azienda. Supporta i data scientist alle prime armi, la formazione di analisti aziendali avanzati e l'esecuzione di modelli di machine learning (ML). I modelli di Machine Learning possono essere eseguiti sul servizio di analytics o direttamente su Oracle Autonomous Data Warehouse come modelli integrati OML per previsioni batch su larga scala che sfruttano la potenza di elaborazione, la scalabilità e l'elasticità dei servizi AI di warehouse e OCI, come Oracle Cloud Infrastructure Vision.

Oracle Analytics Cloud ti offre anche funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, facile scalabilità e applicazione di patch e gestione automatizzata del ciclo di vita.

Scopri e prevedi

Oracle Cloud Infrastructure Data Science fornisce infrastruttura, tecnologie open source, librerie, pacchetti e strumenti di data science ai team di data science per creare, addestrare e gestire modelli di Machine Learning (ML) in Oracle Cloud Infrastructure. Lo spazio di lavoro collaborativo e basato su progetti offre un'esperienza utente coerente end-to-end e supporta il ciclo di vita dei modelli predittivi. Data Science consente ai data scientist e agli ingegneri del machine learning di scaricare e installare pacchetti direttamente dal repository Anaconda senza costi aggiuntivi e consentendo loro di innovare sui propri progetti con un ecosistema di data science curato di librerie di machine learning.

La funzione Job di Data Science consente ai data scientist di definire ed eseguire task di Machine Learning ripetibili in un'infrastruttura completamente gestita.

La funzione di distribuzione del modello di Data Science consente ai data scientist di distribuire modelli addestrati come endpoint HTTP completamente gestiti in grado di fornire previsioni in tempo reale, infondendo l'intelligence in processi e applicazioni e consentendo all'azienda di reagire agli eventi pertinenti non appena si verificano.

Oracle Machine Learning offre potenti funzionalità di Machine Learning strettamente integrate in Oracle Autonomous Database, con il supporto per Python e AutoML. Supporta modelli che utilizzano algoritmi open source e scalabili nel database che riducono la preparazione e lo spostamento dei dati. AutoML aiuta i data scientist ad accelerare il time-to-value delle iniziative di Machine Learning dell'azienda utilizzando la selezione automatica degli algoritmi, il campionamento adattivo dei dati, la selezione automatica delle funzioni e l'ottimizzazione automatica del modello. Con i servizi Oracle Machine Learning disponibili in Oracle Autonomous Data Warehouse, non solo puoi gestire i modelli, ma puoi anche distribuire tali modelli come endpoint REST per democratizzare le previsioni in tempo reale all'interno dell'azienda, consentendo alle aziende di reagire agli eventi pertinenti non appena si verificano, ma dopo i fatti.

Servizi AI

I servizi Oracle Cloud Infrastructure AI Services forniscono una serie di servizi AI pronti all'uso che possono essere utilizzati per supportare una vasta gamma di casi d'uso dall'analisi del testo alla manutenzione predittiva. Questi servizi hanno modelli predefiniti e finemente ottimizzati che puoi integrare in pipeline di dati, analytics e applicazioni utilizzando le API.

Oracle Cloud Infrastructure Anomaly Detection offre un ricco set di strumenti per identificare eventi o osservazioni indesiderabili nei dati aziendali in tempo reale in modo da poter intraprendere azioni per evitare interruzioni del business.

Il linguaggio AI di Oracle Cloud Infrastructure esegue sofisticate analisi del testo su larga scala. Grazie a modelli pre-addestrati e personalizzati, gli sviluppatori possono elaborare testo non strutturato ed estrarre insight senza competenze di data science. I modelli pre-addestrati supportano l'analisi del sentiment, l'estrazione delle frasi chiave, la classificazione del testo e il riconoscimento di entità denominate. È inoltre possibile addestrare modelli personalizzati per il riconoscimento di entità denominate e la classificazione del testo con set di dati specifici del dominio. Il servizio di traduzione consente di tradurre il testo in 21 lingue diverse.

Oracle Cloud Infrastructure Speech sfrutta la potenza del linguaggio parlato consentendoti di convertire facilmente i file multimediali contenenti il linguaggio umano in trascrizioni di testo altamente accurate. È possibile utilizzare OCI Speech per trascrivere le chiamate dell'assistenza clienti, automatizzare i sottotitoli e generare metadati per gli asset multimediali in modo da creare un archivio in cui è possibile eseguire ricerche.

Oracle Cloud Infrastructure Vision esegue task di riconoscimento delle immagini e analisi dei documenti come la classificazione delle immagini, il rilevamento e le facce, l'estrazione del testo e il riconoscimento delle tabelle. Puoi sfruttare modelli pre-addestrati o creare facilmente modelli di visione personalizzati per scenari specifici del settore e del cliente. Il servizio Vision è un servizio cloud nativo multi-tenant completamente gestito che supporta tutte le attività comuni di visione del computer.

Oracle Cloud Infrastructure Document Understanding esegue task di analisi dei documenti come l'estrazione del testo e il riconoscimento delle tabelle. Il servizio OCI Document Understanding è un servizio cloud nativo multi-tenant completamente gestito che supporta tutti i task comuni di analisi dei documenti.

Arricchimento dati

L'arricchimento dei dati può migliorare i dati utilizzati per addestrare i modelli di machine learning per ottenere risultati di previsione migliori e più accurati.

Oracle Cloud Infrastructure Data Labeling consente di creare e sfogliare set di dati, visualizzare record di dati (testo o immagini) e applicare etichette ai fini della creazione di modelli AI/ML. Il servizio fornisce inoltre interfacce utente interattive progettate per facilitare il processo di etichettatura. Dopo che i record sono stati etichettati, il data set può essere esportato come JSON delimitato da riga da utilizzare nello sviluppo di modelli AI/ML.

API

Il livello API consente di infondere l'intelligence derivata da Data Science e Oracle Machine Learning in applicazioni, processi aziendali e cose per influenzarne e migliorarne il funzionamento e il funzionamento. Il livello API fornisce il consumo sicuro dei modelli distribuiti da Data Science agli endpoint REST di Oracle Machine Learning e la possibilità di gestire il sistema per garantire la disponibilità degli ambienti di runtime. È inoltre possibile utilizzare le funzioni per eseguire logiche aggiuntive in base alle esigenze.

Oracle Cloud Infrastructure API Gateway ti consente di pubblicare API con endpoint privati accessibili dall'interno della tua rete e che puoi esporre con indirizzi IP pubblici se vuoi che accettino il traffico Internet. Gli endpoint supportano la convalida delle API, la trasformazione delle richieste e delle risposte, il CORS, l'autenticazione e l'autorizzazione e la limitazione delle richieste. Consente l'osservabilità delle API per monitorare l'uso e garantire gli SLA. I piani di utilizzo possono essere utilizzati anche per monitorare e gestire i consumer API e i client API che accedono alle API e per impostare livelli di accesso diversi per clienti diversi al fine di tenere traccia dell'uso dei dati utilizzato mediante le API. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.

Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand e functions-as-a-service. Si basa su Oracle Cloud Infrastructure di livello aziendale e si basa sul motore open source di Fn Project.

Oracle REST Data Services (ORDS) è un'applicazione Java che consente agli sviluppatori con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico, senza installare e mantenere i driver client, nello stesso modo in cui accedono ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata. ORDS viene distribuito come funzione completamente gestita in ADW e può essere utilizzato per esporre le informazioni sul lakehouse utilizzando le API ai consumatori di dati.

Governance dei dati

Oracle Cloud Infrastructure Data Catalog offre visibilità su dove risiedono gli asset tecnici come i metadati e i rispettivi attributi e offre la possibilità di gestire un glossario aziendale mappato a tali metadati tecnici. Oracle Cloud Infrastructure Data Catalog può anche servire i metadati in Oracle Autonomous Data Warehouse Warehouse per facilitare la creazione di tabelle esterne nel data warehouse.

Sicurezza dei dati

La sicurezza dei dati è fondamentale per esplorare e utilizzare al massimo i dati del lakehouse. Sfruttando un modello di sicurezza zero-trust con funzionalità di difesa approfondita e RBAC e garantendo la conformità con la normativa più rigorosa, la sicurezza dei dati fornisce controlli di sicurezza preventivi, investigativi e correttivi per garantire che l'esfiltrazione e le violazioni dei dati siano prevenute.

Oracle Data Safe è un servizio Oracle Cloud completamente integrato incentrato sulla sicurezza dei dati. Offre un set completo e integrato di funzioni per proteggere i dati sensibili e regolamentati nei database Oracle Cloud, come Oracle Autonomous Data Warehouse. Le funzioni includono la valutazione della sicurezza, la valutazione degli utenti, la ricerca automatica dei dati, il mascheramento dei dati e l'audit delle attività.

Oracle Cloud Infrastructure Audit offre visibilità sulle attività correlate alle risorse e alle tenancy di Oracle Cloud Infrastructure (OCI). Gli eventi di log di audit possono essere utilizzati per gli audit di sicurezza per tenere traccia dell'uso e delle modifiche alle risorse OCI e per garantire la conformità a standard e normative.

Oracle Cloud Infrastructure Logging offre un'unica interfaccia altamente scalabile e completamente gestita per tutti i log della tenancy, inclusi i log di audit. Utilizza OCI Logging per accedere ai log da tutte le risorse OCI in modo da poterli abilitare, gestire e cercare.

Oracle Cloud Infrastructure Vault è un servizio di gestione della cifratura che memorizza e gestisce le chiavi di cifratura e i segreti per accedere in modo sicuro alle risorse. Consente di utilizzare le chiavi gestite dal cliente per Oracle Autonomous Data Warehouse e la cifratura del data lake per una maggiore protezione dei dati in archivio. Abilita i segreti per memorizzare in modo sicuro i servizi e le credenziali utente per migliorare il livello di sicurezza e garantire che le credenziali non vengano compromesse e utilizzate in modo inappropriato.

Architettura fisica

L'architettura fisica per questa piattaforma di dati supporta quanto segue:
  • Oracle Autonomous Data Warehouse (ADW) ottiene i dati dalle origini dati federate utilizzando le funzioni di connettività eterogenea gestita da Oracle
  • ADW utilizza database di destinazione accessibili dalla rete Internet pubblica configurati e che consentono connessioni SSL/TLS in entrata, in modo che la connettività eterogenea gestita da Oracle possa connettersi e eseguire query sui dati in modo sicuro
  • ADW legge i dati da Databricks utilizzando le condivisioni di dati
  • Le condivisioni dati dei mattoni dati sono accessibili tramite la rete Internet pubblica, ma sono protette mediante i file delle credenziali forniti da Databricks
  • I dati di AWS S3, Azure Blob e Google Cloud Storage vengono federati e letti su richiesta utilizzando tabelle esterne o copiati in ADW a seconda del caso d'uso e dei requisiti
  • I dati provenienti da origini dati non federate vengono inclusi in modo sicuro utilizzando micro batch e file provenienti da origini dati relazionali e non relazionali non federati
  • I dati vengono elaborati utilizzando una combinazione di Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
  • I dati vengono memorizzati in ADW e Oracle Cloud Infrastructure Object Storage e sono organizzati in base alla qualità e al valore
  • ADW gestisce i dati di warehouse, lake e federati in modo sicuro per i consumatori
  • Oracle Analytics Cloud fa emergere i dati agli utenti business utilizzando le visualizzazioni
  • Oracle Analytics Cloud viene esposto utilizzando Oracle Cloud Infrastructure Load Balancing protetto da Oracle Cloud Infrastructure Web Application Firewall (WAF) per fornire l'accesso utilizzando Internet
  • Oracle Cloud Infrastructure Data Science viene utilizzato per creare, addestrare e distribuire modelli di machine learning (ML)
  • Oracle Cloud Infrastructure API Gateway viene utilizzato per gestire le distribuzioni dei modelli di Data Science ML
  • Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da ADW e dallo storage degli oggetti
  • Oracle Cloud Infrastructure Bastion viene utilizzato dagli amministratori per gestire le risorse di cloud privato

Il seguente diagramma descrive l'architettura.



data-platform-federation-physical-oracle.zip

Il design per l'architettura fisica:

  • Utilizza 2 VCN, uno per l'hub e un altro per il carico di lavoro stesso
  • La connettività on-premise sfrutta sia Oracle Cloud Infrastructure FastConnect che VPN site-to-site per la ridondanza
  • Tutto il traffico in entrata da on premise e da Internet viene prima instradato nella VCN hub e quindi nella VCN del carico di lavoro
  • Tutti i dati sono sicuri in transito e archiviati
  • I servizi vengono distribuiti con endpoint privati per aumentare il livello di sicurezza
  • La VCN è suddivisa in diverse subnet private per aumentare il livello di sicurezza
  • I dati del lake sono separati in diversi bucket nello storage degli oggetti, sfruttando un'architettura medaglione
  • Le origini dati federate e le aree di memorizzazione cloud sono accessibili mediante la connettività pubblica e il gateway NAT collegato alla VCN del carico di lavoro

I potenziali miglioramenti del design non illustrati in questa distribuzione per motivi di semplicità includono:

  • Sfrutta la connettività eterogenea gestita dal cliente, utilizzando Oracle Database Gateway, per connetterti a origini dati federate utilizzando la connettività privata
  • Sfruttare una zona di atterraggio completamente conforme al CIS
  • Utilizza un firewall di rete per migliorare la postura generale della sicurezza ispezionando tutto il traffico e applicando i criteri

Suggerimenti

Utilizza i seguenti suggerimenti come punto di partenza per utilizzare i dati provenienti da origini dati eterogenee per l'analisi aziendale e il machine learning.

Le vostre esigenze potrebbero differire dall'architettura descritta qui.

Oracle Autonomous Data Warehouse

Questa architettura utilizza Oracle Autonomous Data Warehouse (ADW) su un'infrastruttura condivisa.

  • Valutare la possibilità di utilizzare le viste materializzate per aumentare le prestazioni durante l'accesso ai dati federati.
  • Si consiglia di aggiornare le viste materializzate con la frequenza necessaria per evitare che i dati federati vengano bloccati.
  • Prendi in considerazione la possibilità di creare viste per eseguire query sui dati utilizzando database link da origini federate in modo che tali viste vengano raccolte e catalogate in Oracle Cloud Infrastructure Data Catalog per una maggiore governance dei dati.
  • Valutare la possibilità di memorizzare le credenziali dell'origine dati federata in un segreto in Oracle Cloud Infrastructure Vault per aumentare la postura della sicurezza.
  • Valutare la possibilità di utilizzare le funzioni di sicurezza di Autonomous Database, ad esempio la protezione dati sensibili (mascheramento dinamico dei dati), nelle viste che visualizzano i dati federati per aumentare la sicurezza dei dati.
  • Valutare la possibilità di utilizzare la condivisione dei dati per utilizzare i dati federati da origini dati eterogenee compatibili con il protocollo aperto Delta Sharing.
  • Considera l'utilizzo della condivisione dei dati per condividere i dati curati con i consumatori compatibili con il protocollo aperto Delta Sharing.
  • Valutare la possibilità di utilizzare la connettività eterogenea gestita dal cliente con un Oracle Database Gateway per connettersi alle origini dati federate con connettività privata per le quali è necessario aumentare la sicurezza, ridurre la latenza o entrambe.

Oracle Analytics Cloud

Questa architettura sfrutta Oracle Analytics Cloud (OAC) per offrire augmented analytics agli utenti finali.

  • Valutare la possibilità di utilizzare l'ampia gamma di origini dati OAC per integrare le origini dati federate utilizzate da ADW.
  • Prendi in considerazione la federazione delle origini dati necessarie in OAC su ADW per migliorare le prestazioni, l'inserimento nella cache, l'elaborazione dell'offload al motore di servizio e la semplificazione del livello semantico analitico.

Questa architettura si basa su un'architettura di riferimento del data lakehouse, inclusi i suggerimenti applicabili alla tua architettura. Per un collegamento all'architettura di riferimento del lakehouse e alle risorse, vedere la sezione Esplora di più.

Considerazioni

Quando si federano i dati per l'analisi, considerare le seguenti opzioni di implementazione.

Linea guida Consigliato Altre opzioni Motivazione
Raffineria dati

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Trasformazioni dei dati di Oracle Autonomous Database

Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile ed efficiente in termini di costi.

Persistenza dati
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse è un database facile da usare e completamente autonomo, dotato di scalabilità elastica e in grado di garantire prestazioni rapide per le query, senza richiedere l'amministrazione del database. Offre inoltre accesso diretto ai dati da tabelle di storage degli oggetti partizionate esterne o ibride.

Oracle Cloud Infrastructure Object Storage memorizza dati illimitati in formato raw.

Elaborazione dati
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
Strumenti di terze parti

Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile e a costi contenuti.

Oracle Cloud Infrastructure Data Flow fornisce un ambiente Spark serverless per elaborare i dati su larga scala con un modello pay-per-use estremamente elastico.

Accesso e interpretazione
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Servizi AI di Oracle Cloud Infrastructure
Strumenti di terze parti

Oracle Analytics Cloud è completamente gestito e strettamente integrato con i dati curati inOracle Autonomous Data Warehouse.

Data Science è una piattaforma self-service completamente gestita che consente ai team di data science di creare, addestrare e gestire modelli di Machine Learning (ML) in Oracle Cloud Infrastructure. Il servizio Data Science fornisce strumenti di infrastruttura e data science quali AutoML e funzionalità di distribuzione dei modelli.

Oracle Machine Learning è una piattaforma self-service completamente gestita per la data science disponibile con Oracle Autonomous Data Warehouse che sfrutta la potenza di elaborazione del warehouse per creare, addestrare, testare e distribuire modelli ML su larga scala senza dover spostare i dati all'esterno del warehouse.

I servizi AI di Oracle Cloud Infrastructure sono un set di servizi che forniscono modelli predefiniti creati e addestrati in modo specifico per eseguire attività come dedurre potenziali anomalie o rilevare sentiment.

conferme

  • Author: José Cruz
  • Contributors: Robert Lies