Piattaforma dati - Federazione dati

Un'architettura di data lakehouse ti aiuterà a raccogliere e analizzare in modo efficace i dati degli eventi e i dati in streaming dai dispositivi in tempo reale e correlarli con un'ampia gamma di risorse di dati aziendali per sfruttare il tuo investimento di dati e ottenere gli insight desiderati.

Ma come si correlano i dati nel data lakehouse con i dati che risiedono nelle origini dati eterogenee o che vengono distribuiti su altri cloud o sistemi on-premise, senza la necessità di duplicare i dati?

La risposta è sfruttare un approccio di federazione dei dati che combina i dati del data lakehouse con i dati federati provenienti da cloud store di terze parti e i dati provenienti da database cloud e on-premise, indipendentemente dalla posizione fisica.

Questa architettura di riferimento posiziona la soluzione tecnologica all'interno del contesto aziendale complessivo:

Segue la descrizione dell'immagine data-driven-business-context.png

Descrizione dell'illustrazione data-driven-business-context.png

La federazione dei dati è una tecnica che consente l'integrazione, l'unificazione e la governance dei dati memorizzati in data store diversi utilizzando un motore di query federato che converte una singola query in subquery spedite ai data store di origine. I risultati vengono quindi uniti e presentati all'utente o all'applicazione, come illustrato di seguito.

Segue la descrizione dell'immagine data-platform-federation-overview.png

Descrizione dell'illustrazione data-platform-federation-overview.png

data-piattaforma-federazione-panoramica-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

Spesso la federazione dei dati viene scambiata con la virtualizzazione dei dati. La virtualizzazione dei dati crea una vista unificata dei dati da più origini senza duplicare i dati e fornisce nuovi dati in tempo reale.

Ai fini di questa architettura di riferimento, viene utilizzato il termine federazione dei dati, anche se le funzionalità descritte di seguito riguardano sia la federazione che la virtualizzazione.

L'utilizzo della federazione dei dati semplifica l'accesso ai dati per i consumatori, come gli analytics e i motori di data science, collegandoli a un motore di servizio federato anziché a più origini dati, aumentando così la riutilizzabilità, la governance e la sicurezza dei dati federati.

I motori di analytics offrono tradizionalmente funzionalità di federazione dei dati che possono essere utilizzate come complemento al motore di servizio federato. Di solito, i motori di servizio dati federati hanno più capacità per aumentare le prestazioni e gestire la scalabilità, il che avvantaggia implicitamente tali motori di analisi.

Questo documento descrive una potenziale soluzione per la federazione dei dati all'interno di Oracle Cloud Infrastructure, ma possono esserci alternative che utilizzano tecnologie diverse per scenari diversi.

Architettura funzionale

Questa architettura utilizza un data lakehouse per memorizzare e lavorare con i dati, indipendentemente dalla loro forma o forma. Al centro di questa architettura c'è il data warehouse distribuito su Oracle Autonomous AI Lakehouse.

Inoltre, l'architettura utilizza un motore di query unificato per federare i dati curati da origini selezionate con i dati nel lakehouse. I dati federati vengono ottenuti utilizzando meccanismi quali tabelle esterne, database link e condivisione dei dati, a seconda del data store.

Un'architettura di federazione che combina i dati lakehouse e i data store esistenti consente di:

Unisci tutti i dati indipendentemente da dove sono memorizzati
Supporta una piattaforma dati multicloud e ibrida-cloud che federa i dati memorizzati su altri cloud e on-premise
Semplifica l'esperienza dei consumatori di dati per ottenere ed eseguire query sui dati da diversi motori
Aumenta la sicurezza poiché un singolo modello di sicurezza dei dati può essere applicato al motore di query federato
Aumenta la governance utilizzando un Data Catalog che unifica i metadati per le entità memorizzate nel lakehouse e federate con il motore di query
Aumenta le performance sfruttando la materializzazione dei dati e l'inserimento nella cache del database autonomo
Esponi dati unificati e curati a consumatori diversi utilizzando dashboard di analisi, interfacce SQL, endpoint API e condivisione dei dati
Utilizza un database multi-modello come motore di query federato

Il diagramma seguente illustra l'architettura funzionale. Per semplicità, non tutte le capacità del lago sono mostrate.

Segue la descrizione dell'immagine data-platform-federation-functional.png

Descrizione dell'illustrazione data-platform-federation-functional.png

data-piattaforma-federazione-funzionale-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

Si noti che questa architettura descrive una piattaforma di dati federata che utilizza principalmente l'elaborazione in batch, ma può essere aumentata con le funzionalità in tempo reale del data lakehouse per elaborare i dati in streaming.

L'elaborazione dei dati in streaming spesso deve consumare dati contestuali all'interno delle proprie pipeline di dati. I dati contestuali potrebbero essere memorizzati in origini dati diverse, ma un motore di federazione dati che fornisce tutti i dati contestuali alle pipeline di dati semplifica tali pipeline.

L'architettura si concentra sulle seguenti divisioni logiche:

Inclusione, trasformazione

Includi e perfeziona i dati da utilizzare in ciascuno dei livelli di dati nell'architettura.

I dati federati vengono utilizzati su richiesta dallo storage cloud, dai database e dalle condivisioni dei dati. I dati non vengono trasformati in questo livello perché sono già stati curati nel data store di origine.

Persistere, curare, creare

Facilita l'accesso e la navigazione dei dati per mostrare la vista aziendale corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in semplici forme relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo layer contiene uno o più pool di dati, output da un processo analitico o dati ottimizzati per un task analitico specifico.

Questo layer contiene il motore di servizio federato che unifica e gestisce i dati che risiedono nel data warehouse, nel data lake e nelle origini dati federate. Offre la possibilità di eseguire query sui dati federati su richiesta e di materializzare i dati federati per migliorare le prestazioni delle query.

Il motore di federazione offre la possibilità di servire i dati utilizzando SQL, API REST o condivisione dei dati che aumenta l'interoperabilità semplificando al contempo la connettività, poiché i consumatori di dati si connettono a un unico motore di servizio piuttosto che a diversi data store.

Analizza, impara, prevedi

Estrae la visione aziendale logica dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un unico livello di reporting da più origini federate.

Questo livello sfrutta il motore di servizio per ottenere dati federati che possono essere ulteriormente aumentati con i connettori di dati disponibili su questo livello e forniti dai servizi di visualizzazione o data science.

L'uso di un motore di query federato consente di estrarre l'accesso dei consumatori di dati dai data store sottostanti, aumentando la produttività poiché i dati vengono federati una volta e consumati da molti consumatori di dati. Ciò rende anche il sistema più interoperabile in quanto qualsiasi consumer in grado di interagire con SQL, API REST o condivisione dei dati può utilizzare e unire lakehouse e dati federati.

L'architettura ha i seguenti componenti funzionali:

Inclusione batch

L'inclusione batch è utile per dati che non possono essere inclusi in tempo reale o che sono troppo costosi per adattarsi all'inclusione in tempo reale. È anche importante trasformare i dati in informazioni affidabili e affidabili che possono essere curate e persistenti per un consumo regolare.

Batch Ingest completa il motore di federazione dati perché può includere dati a cui il motore di federazione non ha accesso nativo o per casi d'uso specifici in cui i dati devono essere trasformati per essere conformi al modello di dati lakehouse.

Puoi utilizzare i seguenti servizi insieme o in modo indipendente per ottenere un flusso di lavoro di integrazione e trasformazione dei dati altamente flessibile ed efficace.

Oracle Cloud Infrastructure Data Integration è un servizio serverless completamente gestito per la progettazione e l'esecuzione di pipeline di dati. Consente l'estrazione, la trasformazione e il caricamento senza interruzioni dei dati nelle destinazioni OCI come Autonomous AI Lakehouse e OCI Object Storage. Gli utenti possono creare flussi di integrazione attraverso un'interfaccia intuitiva e senza codice che scala automaticamente gli ambienti di esecuzione. Supporta sia ETL con elaborazione basata su Spark che ELT utilizzando SQL Pushdown per prestazioni ed efficienza. Il servizio offre anche strumenti per la preparazione dei dati e protegge dalla deriva dello schema con una gestione basata su regole.
Oracle Data Integrator fornisce l'integrazione completa dei dati, dalle operazioni di caricamento in batch ad alte prestazioni e con alti volumi, ai processi di integrazione basati sugli eventi e basati sull'alimentazione, ai servizi di dati abilitati per SOA. Un approccio di progettazione dichiarativa garantisce sviluppo e manutenzione più rapidi e semplici e fornisce un approccio unico per estrarre la trasformazione del carico (ELT) che aiuta a garantire il massimo livello di prestazioni possibile per i processi di trasformazione e convalida dei dati. Le trasformazioni dei dati Oracle utilizzano un'interfaccia Web per semplificare la configurazione e l'esecuzione di ELT e per aiutare gli utenti a creare e pianificare dati e flussi di lavoro utilizzando un approccio di progettazione dichiarativa.
Le trasformazioni dei dati Oracle consentono ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous AI Lakehouse per caricare e trasformare i dati da diverse origini dati in un'istanza di Oracle Autonomous AI Lakehouse.

A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere un'integrazione e una trasformazione dei dati altamente flessibili e performanti.

Elaborazione batch

L'elaborazione in batch trasforma i data set su larga scala memorizzati nel data lakehouse. L'elaborazione in batch sfrutta i servizi nativi di Oracle Cloud Infrastructure che si integrano perfettamente con Oracle Cloud Infrastructure Object Storage e ti consente di creare dati curati per casi d'uso come l'aggregazione e l'arricchimento dei dati, l'inclusione del data warehouse e l'uso su larga scala di machine learning e dati AI.

Oracle Cloud Infrastructure Data Integration, descritto sopra, è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati in servizi Oracle Cloud Infrastructure di destinazione, come Oracle Autonomous AI Lakehouse e Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che consente di eseguire applicazioni Apache Spark senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire applicazioni di big data e AI più velocemente, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operations. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorsa runtime predefinita.

Porzioni

Oracle Autonomous AI Lakehouse è un servizio di database self-driving, self-securing e self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun hardware né installare alcun software. OCI gestisce la creazione, il backup, l'applicazione di patch, l'upgrade e il tuning del database.

Dopo il provisioning, puoi ridimensionare il numero di memorie centrali CPU o la capacità di storage del database in qualsiasi momento senza influire sulla disponibilità o sulle prestazioni.

Oracle Autonomous AI Lakehouse può anche virtualizzare i dati che risiedono nello storage degli oggetti come tabelle partizionate esterne e ibride in modo da poter unire e utilizzare i dati derivati da altre origini con i dati del warehouse. Puoi anche spostare i dati cronologici dal warehouse allo storage degli oggetti e quindi utilizzarli senza problemi utilizzando tabelle partizionate ibride.

Oracle Autonomous AI Lakehouse può utilizzare i metadati raccolti in precedenza memorizzati in Oracle Cloud Infrastructure Data Catalog per creare tabelle esterne e può sincronizzare automaticamente gli aggiornamenti dei metadati in Oracle Cloud Infrastructure Data Catalog con la definizione delle tabelle esterne per mantenere la coerenza, semplificare la gestione e ridurre gli sforzi.

Le viste analitiche, una funzione di database AI autonomo, forniscono un modo rapido ed efficiente per creare query analitiche di dati memorizzati nelle tabelle e viste di database esistenti. Le viste analitiche organizzano i dati utilizzando un modello dimensionale. Consentono di aggiungere con facilità aggregazioni e calcoli ai data set e di presentare i dati nelle viste su cui è possibile effettuare query mediante SQL relativamente semplici. Questa funzione consente di modellare semanticamente uno schema a stella o fiocco di neve direttamente in Oracle Autonomous AI Lakehouse, utilizzando i dati memorizzati internamente ed esternamente e consente il consumo del modello utilizzando SQL e qualsiasi consumatore di dati conforme a SQL.

Oracle Autonomous AI Lakehouse offre la possibilità di federare ed eseguire query sui dati memorizzati in cloud store di terze parti (ad esempio AWS S3, Azure Blob e GCP CGS), su database cloud di terze parti (ad esempio AWS Redshift, Azure Synapse Analytics, Google BigQuery e Snowflake), database di terze parti (ad esempio IBM DB2, MongoDB, PostrgreSQL, Hive) e persino applicazioni SaaS.

In un'unica query, Oracle Autonomous AI Lakehouse può eseguire query e unire i dati da cloud store, database cloud e altri database più diffusi, semplificando l'accesso ai dati ai consumer del motore di servizio, poiché vengono sottratti dalla complessità dell'esecuzione di query separatamente, diversi motori di query, per ottenere un risultato unificato. Può anche combinare questi dati con i dati ottenuti da condivisioni di dati fornite da produttori conformi al protocollo aperto Delta Sharing.

Storage cloud

Oracle Cloud Infrastructure Object Storage è una piattaforma di storage su scala Internet e ad alte prestazioni che offre durabilità dei dati affidabile ed economica. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici. Puoi memorizzare o recuperare in tutta sicurezza i dati direttamente da Internet o dall'interno della piattaforma cloud. Molteplici interfacce di gestione ti consentono di iniziare in modo semplice e scalabile senza problemi, senza compromettere le prestazioni o l'affidabilità del servizio.

Oracle Cloud Infrastructure Object Storage può essere utilizzato anche come livello di cold storage per il data warehouse memorizzando i dati che vengono utilizzati di rado e poi unendoli perfettamente ai dati più recenti utilizzando tabelle ibride in Oracle Autonomous AI Lakehouse.

Visualizza/impara

Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre la capacità di esplorare ed eseguire l'analitica collaborativa per l'utente, il gruppo di Lavoro e l'azienda. Supporta data scientist alle prime armi, formazione avanzata degli analisti aziendali ed esecuzione di modelli di machine learning (ML). I modelli di machine learning possono essere eseguiti sul servizio di analytics o direttamente su Oracle Autonomous AI Lakehouse come modelli incorporati in OML per previsioni batch su larga scala che sfruttano la potenza di elaborazione, la scalabilità e l'elasticità del warehouse e dei servizi AI OCI, come Oracle Cloud Infrastructure Vision.

Con Oracle Analytics Cloud ottieni anche funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, facile ridimensionamento e applicazione di patch e gestione automatizzata del ciclo di vita.

Impara e prevedi

Oracle Cloud Infrastructure Data Science fornisce infrastrutture, tecnologie open source, librerie, pacchetti e strumenti di data science affinché i team di data science possano creare, formare e gestire modelli di machine learning (ML) in Oracle Cloud Infrastructure. Lo spazio di lavoro collaborativo e basato su progetti offre un'esperienza utente coerente end-to-end e supporta il ciclo di vita dei modelli predittivi.

La funzione Job di Data Science consente ai data scientist di definire ed eseguire task di Machine Learning ripetibili su un'infrastruttura completamente gestita.

La funzione di distribuzione del modello di Data Science consente ai data scientist di distribuire modelli addestrati come endpoint HTTP completamente gestiti in grado di fornire previsioni in tempo reale, infondendo intelligence in processi e applicazioni e consentendo all'azienda di reagire agli eventi pertinenti man mano che si verificano.

Oracle Machine Learning offre potenti funzionalità di machine learning strettamente integrate in Oracle Autonomous AI Database, con supporto per Python e AutoML. Supporta modelli che utilizzano algoritmi open source e scalabili nel database che riducono la preparazione e lo spostamento dei dati. AutoML aiuta i data scientist ad accelerare il time-to-value delle iniziative di machine learning dell'azienda utilizzando la selezione automatica degli algoritmi, il campionamento adattivo dei dati, la selezione automatica delle funzioni e l'ottimizzazione automatica dei modelli. Con i servizi di Oracle Machine Learning disponibili in Oracle Autonomous AI Lakehouse, non solo puoi gestire i modelli, ma puoi anche distribuire tali modelli come endpoint REST al fine di democratizzare le previsioni in tempo reale all'interno dell'azienda, consentendo alle aziende di reagire agli eventi pertinenti man mano che si verificano, piuttosto che dopo il fatto.

Servizi AI

I servizi Oracle Cloud Infrastructure AI Services forniscono un set di servizi AI pronti all'uso che possono essere utilizzati per supportare una vasta gamma di casi d'uso, dall'analisi del testo alla manutenzione predittiva. Questi servizi hanno modelli predefiniti e finemente ottimizzati che puoi integrare nelle pipeline di dati, negli analytics e nelle applicazioni utilizzando le API.

Oracle Cloud Infrastructure Anomaly Detection offre un ricco set di strumenti per identificare eventi o osservazioni indesiderati nei dati aziendali in tempo reale in modo da poter intraprendere azioni per evitare interruzioni aziendali.

Oracle Cloud Infrastructure Language esegue sofisticate analisi del testo su larga scala. Con modelli pre-addestrati e personalizzati, gli sviluppatori possono elaborare testo non strutturato ed estrarre insight senza competenze di data science. I modelli pre-addestrati supportano l'analisi del sentiment, l'estrazione di frasi chiave, la classificazione del testo e il riconoscimento di entità denominate. È inoltre possibile addestrare modelli personalizzati per il riconoscimento di entità denominate e la classificazione del testo con set di dati specifici del dominio. Il servizio di traduzione consente di tradurre il testo in 21 lingue diverse.

Oracle Cloud Infrastructure Speech sfrutta la potenza del linguaggio parlato consentendoti di convertire facilmente i file multimediali contenenti voce umana in trascrizioni di testo altamente accurate. OCI Speech può essere usato per trascrivere la chiamata dell'assistenza clienti, automatizzare i sottotitoli e generare metadati per gli asset multimediali in modo da creare un archivio in cui è possibile effettuare ricerche.

Oracle Cloud Infrastructure Vision esegue attività di riconoscimento delle immagini e analisi dei documenti come la classificazione delle immagini, il rilevamento e i volti, l'estrazione di testo e il riconoscimento delle tabelle. Puoi sfruttare modelli pre-addestrati o creare facilmente modelli di visione personalizzati per scenari specifici del settore e del cliente. OCI Vision è un servizio cloud nativo multi-tenant completamente gestito che consente di eseguire tutte le attività comuni di visione artificiale.

Oracle Cloud Infrastructure Document Understanding esegue task di analisi dei documenti, come l'estrazione di testo e il riconoscimento di tabelle. Il servizio OCI Document Understanding è un servizio cloud nativo, multi-tenant e completamente gestito, utile per tutte le attività comuni di analisi dei documenti.

Arricchimento dati

L'arricchimento dei dati può migliorare i dati utilizzati per addestrare i modelli di machine learning per ottenere risultati di previsione migliori e più accurati.

Oracle Cloud Infrastructure Data Labeling ti consente di creare e sfogliare set di dati, visualizzare record di dati (testo o immagini) e applicare etichette AI fini della creazione di modelli AI/ML. Il servizio fornisce anche interfacce utente interattive progettate per facilitare il processo di etichettatura. Dopo che i record sono stati etichettati, il data set può essere esportato come JSON delimitato da riga da utilizzare nello sviluppo di modelli AI/ML.

API

Il livello API consente di infondere l'intelligenza derivata da Data Science e Oracle Machine Learning nelle applicazioni, nei processi aziendali e nelle cose da influenzare e migliorare il loro funzionamento e la loro funzione. Il livello API fornisce un consumo sicuro dei modelli distribuiti da Data Science agli endpoint REST di Oracle Machine Learning e la possibilità di governare il sistema per garantire la disponibilità degli ambienti di runtime. È inoltre possibile utilizzare le funzioni per eseguire logiche aggiuntive in base alle esigenze.

Oracle Cloud Infrastructure API Gateway ti consente di pubblicare API con endpoint privati accessibili dall'interno della tua rete e che puoi esporre con indirizzi IP pubblici se vuoi che accettino il traffico Internet. Gli endpoint supportano la convalida dell'API, la trasformazione di richieste e risposte, CORS, autenticazione e autorizzazione e limitazione delle richieste. Consente l'osservabilità delle API per monitorare l'uso e garantire gli SLA. I piani di utilizzo possono anche essere utilizzati per monitorare e gestire i consumer di API e i client API che accedono alle API e per impostare livelli di accesso diversi per clienti diversi al fine di tracciare l'uso dei dati consumati utilizzando le API. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.

Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand, function-as-a-service. È basato su Oracle Cloud Infrastructure di livello enterprise e alimentato dal motore open source di Fn Project.

Oracle REST Data Services (ORDS) è un'applicazione Java che consente agli sviluppatori con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico, senza installare e gestire driver client, nello stesso modo in cui accedono ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata. ORDS viene distribuito come funzione completamente gestita in Oracle Autonomous AI Lakehouse e può essere utilizzato per esporre le informazioni del lakehouse utilizzando le API ai consumer di dati.

Governance dati

Oracle Cloud Infrastructure Data Catalog offre visibilità su dove risiedono gli asset tecnici come i metadati e i rispettivi attributi e offre la possibilità di gestire un glossario aziendale mappato a tali metadati tecnici. Oracle Cloud Infrastructure Data Catalog può anche servire metadati a Oracle Autonomous AI Lakehouse Warehouse per facilitare la creazione di tabelle esterne nel data warehouse.

Sicurezza dei dati

La sicurezza dei dati è fondamentale per esplorare e utilizzare al meglio i dati del lakehouse. Sfruttando un modello di sicurezza zero-trust con funzionalità di difesa approfondita e RBAC e garantendo la conformità con la normativa più rigorosa, la sicurezza dei dati fornisce controlli di sicurezza preventivi, investigativi e correttivi per garantire che l'esfiltrazione e le violazioni dei dati vengano prevenute.

Oracle Data Safe è un servizio Oracle Cloud completamente integrato incentrato sulla sicurezza dei dati. Fornisce un set completo e integrato di funzioni per proteggere i dati sensibili e regolamentati nei database Oracle Cloud, come Oracle Autonomous AI Lakehouse. Le funzioni includono la valutazione della sicurezza, la valutazione degli utenti, la ricerca automatica dei dati, il mascheramento dei dati e l'audit delle attività.

Oracle Cloud Infrastructure Audit offre visibilità sulle attività relative alle risorse e alle tenancy di Oracle Cloud Infrastructure (OCI). Gli eventi di log di audit possono essere utilizzati per gli audit di sicurezza per tenere traccia dell'uso e delle modifiche alle risorse OCI e per garantire la conformità agli standard e alle normative.

Oracle Cloud Infrastructure Logging fornisce un'interfaccia singola altamente scalabile e completamente gestita per tutti i log nella tenancy, inclusi i log di audit. Utilizzare OCI Logging per accedere ai log da tutte le risorse OCI in modo da poterli abilitare, gestire e cercare.

Oracle Cloud Infrastructure Vault è un servizio di gestione della cifratura che memorizza e gestisce chiavi di cifratura e segreti per accedere in modo sicuro alle risorse. Consente di utilizzare le chiavi gestite dai clienti per Oracle Autonomous AI Lakehouse e la cifratura dei data lake per una maggiore protezione dei dati in archivio. Consente ai segreti di memorizzare in modo sicuro i servizi e le credenziali utente per migliorare le impostazioni di sicurezza e garantire che le credenziali non vengano compromesse e utilizzate in modo inappropriato.

Architettura fisica

L'architettura fisica di questa piattaforma dati supporta quanto riportato di seguito.

Oracle Autonomous AI Lakehouse ottiene i dati dalle origini dati federate utilizzando le funzioni di connettività eterogenea gestite da Oracle
Oracle Autonomous AI Lakehouse utilizza database di destinazione accessibili dalla rete Internet pubblica configurati e che consentono connessioni SSL/TLS in entrata, in modo che la connettività eterogenea gestita da Oracle possa connettersi ed eseguire query sui dati in modo sicuro
Oracle Autonomous AI Lakehouse legge i dati da Databricks utilizzando le condivisioni di dati
Le condivisioni di dati di DataBricks sono accessibili utilizzando la rete Internet pubblica, ma sono protette utilizzando i file delle credenziali forniti da Databricks
I dati di AWS S3, Azure Blob e Google Cloud Storage vengono federati e letti su richiesta utilizzando tabelle esterne o copiati in Oracle Autonomous AI Lakehouse a seconda del caso d'uso e dei requisiti
I dati provenienti da origini dati non federate vengono inclusi in modo sicuro utilizzando micro batch e file provenienti da origini dati relazionali e non relazionali non federate
I dati vengono elaborati utilizzando una combinazione di Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
I dati vengono memorizzati in Oracle Autonomous AI Lakehouse e Oracle Cloud Infrastructure Object Storage ed sono organizzati in base alla loro qualità e valore
Oracle Autonomous AI Lakehouse serve i dati di warehouse, lake e federati in modo sicuro ai consumatori
Oracle Analytics Cloud invia i dati agli utenti business utilizzando le visualizzazioni
Oracle Analytics Cloud è esposto utilizzando Oracle Cloud Infrastructure Load Balancer protetto da Oracle Cloud Infrastructure Web Application Firewall (WAF) per fornire l'accesso utilizzando Internet
Oracle Cloud Infrastructure Data Science viene utilizzato per creare, formare e distribuire modelli di machine learning (ML)
Oracle Cloud Infrastructure API Gateway viene utilizzato per governare le distribuzioni dei modelli ML di Data Science
Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da Oracle Autonomous AI Lakehouse e dallo storage degli oggetti
Oracle Cloud Infrastructure Bastion viene utilizzato dagli amministratori per gestire le risorse cloud private

Il seguente diagramma descrive l'architettura:

Segue la descrizione dell'immagine data-platform-federation-physical.png

Descrizione dell'illustrazione data-platform-federation-physical.png

data-piattaforma-federazione-fisico-oracolo-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

Il design per l'architettura fisica:

Utilizza 2 VCN, uno per l'hub e un altro per il carico di lavoro stesso
La connettività on-premise sfrutta sia Oracle Cloud Infrastructure FastConnect che Oracle Cloud Infrastructure Site-to-Site VPN per la ridondanza
Tutto il traffico in entrata da on-premise e da Internet viene prima instradato nella VCN hub e poi nella VCN del carico di lavoro
Tutti i dati sono sicuri in transito e in archivio
I servizi vengono distribuiti con endpoint privati per aumentare il livello di sicurezza
La VCN è separata in diverse subnet private per aumentare il livello di sicurezza
I dati lake sono suddivisi in diversi bucket nello storage degli oggetti, sfruttando un'architettura medallion
Le origini dati federate e le aree di memorizzazione cloud sono accessibili utilizzando la connettività pubblica e il gateway NAT collegato alla VCN del carico di lavoro

I potenziali miglioramenti di progettazione non descritti in questa distribuzione per motivi di semplicità includono:

Sfrutta la connettività eterogenea gestita dal cliente, utilizzando un Oracle Database Gateway, per connetterti a origini dati federate utilizzando la connettività privata
Utilizzo di una zona di atterraggio conforme a CIS completa
Sfrutta un firewall di rete per migliorare la postura di sicurezza complessiva ispezionando tutto il traffico e applicando i criteri

Suggerimenti

Utilizza i suggerimenti riportati di seguito come punto di partenza per utilizzare i dati provenienti da origini dati eterogenee per l'analisi aziendale e il machine learning.

I requisiti potrebbero essere diversi dall'architettura descritta qui.

Oracle Autonomous AI Lakehouse

Questa architettura utilizza Oracle Autonomous AI Lakehouse su un'infrastruttura condivisa.

Prendere in considerazione l'utilizzo delle viste materializzate per aumentare le prestazioni durante l'accesso ai dati federati.
Prendere in considerazione l'aggiornamento delle viste materializzate con la frequenza necessaria per evitare il blocco dei dati federati.
Prendi in considerazione la creazione di viste per eseguire query sui dati utilizzando i database link provenienti da origini federate in modo che tali viste vengano raccolte e catalogate in Oracle Cloud Infrastructure Data Catalog per una maggiore governance dei dati.
Prendi in considerazione la memorizzazione delle credenziali dell'origine dati federata in un segreto in Oracle Cloud Infrastructure Vault per aumentare il livello di sicurezza.
Prendi in considerazione l'uso delle funzioni di sicurezza del database AI autonomo, come la protezione dati sensibili (mascheramento dinamico dei dati), nelle viste che fanno emergere i dati federati per aumentare la sicurezza dei dati.
Prendi in considerazione l'utilizzo della condivisione dei dati per utilizzare i dati federati provenienti da origini dati eterogenee compatibili con il protocollo aperto Delta Sharing.
Prendi in considerazione l'utilizzo della condivisione dei dati per condividere dati curati ai consumatori compatibili con il protocollo aperto Delta Sharing.
Prendi in considerazione l'utilizzo di una connettività eterogenea gestita dal cliente con un Oracle Database Gateway per connettersi a origini dati federate con connettività privata per le quali hai bisogno di maggiore sicurezza, latenza inferiore o entrambe.

Oracle Analytics Cloud

Questa architettura utilizza Oracle Analytics Cloud (OAC) per fornire analytics aumentati agli utenti finali.

Prendi in considerazione l'utilizzo dell'ampia gamma di origini dati di OAC per integrare le origini dati federate utilizzate da Oracle Autonomous AI Lakehouse.
Prendi in considerazione la federazione delle origini dati necessarie in OAC su Oracle Autonomous AI Lakehouse per migliorare le prestazioni, l'inserimento nella cache, l'offload dell'elaborazione nel motore di gestione e la semplificazione del livello semantico analitico.

Tenere presente che questa architettura si basa su un'architettura di riferimento del data lakehouse, inclusi i suggerimenti applicabili all'architettura. Consulta la sezione Esplora altro per un collegamento all'architettura di riferimento del lakehouse e alle risorse.

Considerazioni

Quando si federano i dati per l'analisi, considerare le seguenti opzioni di implementazione.

Linee guida	Consigliato	Altre opzioni	Motivazione
Data Refinery	Oracle Cloud Infrastructure Data Integration	Oracle Data Integrator Trasformazioni dei dati di Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration fornisce una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile ed efficiente in termini di costi.
Persistenza dati	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse è un database facile da usare, completamente autonomo, dotato di scalabilità elastica e in grado di offrire prestazioni rapide Per le query, senza richiesta l'amministrazione del database. Offre inoltre l'accesso diretto ai dati da tabelle partizionate esterne o ibride di storage degli oggetti. Oracle Cloud Infrastructure Object Storage memorizza un numero illimitato di dati in formato raw.
Elaborazione dati	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow	Strumenti di terze parte	Oracle Cloud Infrastructure Data Integration fornisce una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile e a costi contenuti. Oracle Cloud Infrastructure Data Flow fornisce un ambiente Spark serverless per elaborare i dati su larga scala con un modello pay-per-use ed estremamente elastico.
Accesso e interpretazione	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Servizi AI di Oracle Cloud Infrastructure	Strumenti di terze parte	Oracle Analytics Cloud è completamente gestito e strettamente integrato con i dati curati inOracle Autonomous AI Lakehouse. Data Science è una piattaforma self-service completamente gestita che consente ai team di data science di creare, formare e gestire modelli di machine learning (ML) in Oracle Cloud Infrastructure. Il servizio Data Science fornisce strumenti di infrastruttura e data science come AutoML e funzionalità di distribuzione dei modelli. Oracle Machine Learning è una piattaforma self-service completamente gestita per la data science disponibile con Oracle Autonomous AI Lakehouse che sfrutta la potenza di elaborazione del warehouse per creare, addestrare, testare e implementare modelli ML su larga scala senza la necessità di spostare i dati al di fuori del warehouse. I servizi AI di Oracle Cloud Infrastructure sono un set di servizi che forniscono modelli predefiniti creati e addestrati in modo specifico per eseguire attività come l'inferenza di potenziali anomalie o il rilevamento delle opinioni.

Scopri di più

Scopri di più sulle caratteristiche di questa architettura e sulle architetture correlate.

Conferme

Author: José Cruz

Contributors: Robert Lies