Data Platform - Piattaforma dati decentralizzata

Utilizza un data lakehouse per raccogliere e analizzare eventi e dati in streaming dai dispositivi in tempo reale e metterli in correlazione con una vasta gamma di risorse di dati aziendali per ottenere gli insight che desideri.

Qual è il modo migliore per supportare e potenziare i vari team della tua organizzazione, come marketing, finance o logistica, con la flessibilità di lavorare con dati specifici del loro dominio, consentendo al contempo una condivisione e un consumo sicuri dei dati tra domini senza duplicare i dati e creare silos di dati?

Adotta un'architettura dei dati basata sul dominio che offra ai team e ai reparti di tutta l'organizzazione l'agilità e la flessibilità necessarie per utilizzare in modo efficiente i propri dati e sviluppare i prodotti di dati essenziali per la propria attività.

Questa architettura di riferimento posiziona la soluzione tecnologica all'interno del contesto aziendale generale, dove gli intenti strategici guidano la creazione di risultati strategici misurabili. Questi risultati generano nuovi intenti strategici, offrendo miglioramenti aziendali continui e basati sui dati.



Ogni dominio segue in modo indipendente il processo di alto livello mostrato sopra per creare i propri prodotti di dati di dominio. Le architetture di dati basate sul dominio offrono la flessibilità di cui le organizzazioni hanno bisogno evitando di fare affidamento su un singolo punto di conflitto, come una piattaforma di dati e un team IT completamente centralizzati, e promuovendo un'innovazione agile per produrre prodotti di dati affidabili all'interno di ciascun dominio.



panoramica sulla piattaforma di dati decentralizzata oracle.zip

L'obiettivo di ogni dominio è acquisire dati relativi al dominio e quindi produrre prodotti di dati che vengono utilizzati da altri domini o consumatori finali di dati.

I domini possono essere:

  • Allineato all'origine: esegue l'origine dei dati direttamente dalle origini dati di dominio pertinenti, ad esempio le applicazioni aziendali, e produce prodotti di dati utilizzati da domini aggregati o allineati al consumatore. Questi prodotti dati rappresentano l'origine delle informazioni per un determinato dominio. I dati sono granulari, curati e fondamentali all'interno e tra i domini.
  • Aggrega: utilizza e combina dati allineati alla fonte, creando prodotti di dati aggregati e a valore aggiunto che favoriscono il riutilizzo, riducono la duplicazione e comprendono la logica aziendale di base necessaria per i domini allineati al consumatore.
  • Allineato al consumatore: utilizza i dati provenienti da domini allineati all'origine e aggregati per creare prodotti di dati che soddisfano casi d'uso specifici e soddisfano le esigenze del consumatore di dati all'interno di un determinato dominio.

I team dei domini di dati e i loro esperti in materia (PMI) hanno la flessibilità di scegliere la tecnologia necessaria per curare i propri prodotti di dati, riducendo l'attrito e la complessità dei lunghi processi di selezione della tecnologia e riducendo i tempi di consegna dei prodotti di dati.

La tecnologia scelta viene solitamente determinata a livello aziendale in modo da rispettare i requisiti di sicurezza, scalabilità, resilienza e alta disponibilità. Questa architettura presuppone che qualsiasi servizio Oracle Cloud Infrastructure (OCI) utilizzato con un data lakehouse possa essere utilizzato da qualsiasi dominio.

I team di dominio dati spesso utilizzano l'automazione per distribuire gli archetipi di dominio, rendendo disponibili tecnologie preconfigurate per inserire rapidamente nuovi domini, garantendo al contempo l'applicazione dei requisiti di livello aziendale, come la sicurezza.

Dopo la creazione, i prodotti dati vengono quindi utilizzati in altri domini o in utenti finali e applicazioni. I prodotti di dati sono costantemente curati per fornire informazioni e insight.

I prodotti dati possono essere di diversi tipi. Un singolo prodotto di dati può essere servito utilizzando più interfacce.
  • Data set
  • API
  • Dashboard
  • Flussi
  • Modelli AI e Machine Learning (ML) che soddisfano un'esigenza specifica

Questa architettura di riferimento utilizza principalmente la condivisione dei dati come meccanismo sottostante per fornire e utilizzare prodotti di dati tra domini.

Oracle Autonomous Data Warehouse consente la condivisione dei dati e consente la condivisione in tempo reale dei dati tra istanze di Autonomous Data Warehouse o con dati con versioni di qualsiasi tecnologia conforme al protocollo aperto Delta Sharing.

Architettura funzionale

Questa architettura rappresenta una piattaforma decentralizzata in cui ogni dominio è un sottoinsieme della piattaforma dati complessiva e in cui ogni dominio può scegliere le tecnologie e i servizi utilizzati.

L'architettura utilizza un data lakehouse per archiviare e fornire i dati, indipendentemente dalla sua forma o forma. Per semplicità, l'architettura illustrerà alcuni domini che utilizzano un sottoinsieme dei servizi data lakehouse disponibili.

Una piattaforma di dati decentralizzata che utilizza un'architettura di data lakehouse offre:

  • Un'architettura lakehouse interoperabile e modulare in cui i domini di dati possono includere e curare qualsiasi tipo di dati per qualsiasi caso d'uso
  • Flessibilità per ogni dominio di dati di utilizzare i servizi Oracle Cloud Infrastructure (OCI) necessari per supportare la creazione dei propri prodotti di dati
  • Cura di prodotti di dati che possono essere condivisi in modo sicuro utilizzando la condivisione dei dati, lo streaming, le API, i dashboard o le applicazioni
  • Agilità nella creazione di prodotti di dati, riducendo le dipendenze tra domini ad eccezione di quelle richieste per lo scambio di prodotti di dati
  • Maggiore isolamento del dominio di dati e ridotta complessità dell'interscambio di dati utilizzando meccanismi e contratti di interscambio di dati accettati per lo scambio di dati tra domini
  • Maggiore governance dei dati e maggiore fiducia dei dati perché esperti competenti in materia (PMI) curano dati e prodotti di dati per i loro domini
  • Facilità di inserimento di nuovi domini di dati utilizzando infrastructure as code (IaC) per automatizzare la distribuzione utilizzando stack Terraform predefiniti e testati
  • Efficienza in termini di risorse e costi come team del dominio di dati per dimensionare correttamente i servizi specifici utilizzati per creare prodotti di dati
  • Adeguata responsabilità dei costi per ogni dominio di dati con la possibilità di un controllo dettagliato dei costi all'interno dei domini specifici

Il seguente diagramma illustra l'architettura funzionale. Per semplicità, vengono mostrati solo quattro domini di dati e vengono mostrate solo alcune delle funzionalità del data lakehouse che possono essere utilizzate dai domini di dati.



decentralizzato-data-platform-logical-oracle.zip

Poiché il particolare settore e l'organizzazione che implementa una piattaforma dati decentralizzata determina i domini di dati, questa architettura di riferimento non prescrive come devono essere definiti i domini di dati. I domini dati illustrati sono solo un esempio.

L'architettura si concentra sulle seguenti divisioni logiche utilizzate da tutti i domini:

  • Connetti, includi, trasforma

    Si connette alle origini dati e ne acquisisce e perfeziona i dati per l'uso in ciascuno dei livelli di dati nell'architettura.

    I domini di dati allineati all'origine ricavano dati da origini dati interne ed esterne e da altri domini che utilizzano i propri prodotti di dati. I domini di dati aggregati e allineati al consumatore in genere ricavano i dati da altri prodotti di dati di domini. Tutti i domini possono ottenere dati di dominio pertinenti da origini esterne.

  • Rendi persistente, cura, crea

    Facilita l'accesso e la navigazione dei dati per mostrare la vista aziendale corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in semplici forme relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo layer contiene uno o più pool di dati, ovvero l'output di un processo analitico o i dati ottimizzati per un task analitico specifico.

    In questo livello, ogni dominio di dati cura i dati utilizzati per creare ed esporre i prodotti di dati. Di solito i dati vengono curati e organizzati utilizzando un'architettura medaglione che promuove i dati dal bronzo, all'argento, all'oro, in base al suo valore e alla sua qualità.

    I prodotti di dati spesso servono dati che si trovano nel livello oro o argento. Se il prodotto dati fornisce dati granulari, tali dati vengono forniti dal livello Silver. Se il prodotto dati serve dati aggregati o che sono già un ulteriore set di dati aumentato, tali dati vengono in genere serviti dal livello Gold.

  • Analizza, impara, prevedi

    Descrive la vista business logica dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un singolo livello di reporting da più origini dati.

    Ogni dominio di dati in genere dispone di propri consumer di dati, ad esempio utenti del dominio, applicazioni o sistemi che utilizzano dati curati sotto forma di dashboard, applicazioni di dati, streaming o API.

    I domini di dati possono servire i prodotti di dati ad altri domini di dati e all'interno del proprio dominio come modo per organizzare la condivisione dei dati tra progetti.

L'architettura presenta le seguenti caratteristiche funzionali:

  • Vengono illustrati quattro domini di dati. Ogni dominio cura i dati specifici di tale dominio, crea prodotti di dati basati su tali dati curati e quindi li condivide con altri domini all'interno dell'organizzazione o con entità esterne.
  • I domini possono ottenere dati da origini dati interne, prodotti dati gestiti da altri domini o dati condivisi da entità esterne.
  • I domini di Customer and Finance sono domini allineati all'origine che incorporano e curano i dati da sistemi interni, hanno i propri utenti e curano i prodotti di dati da servire ad altri domini.
  • Il dominio di rischio è un dominio aggregato che ricava dati dai domini Cliente e Finanza per ottenere profili cliente e transazioni finanziarie aumentate, rispettivamente. Questi dati vengono utilizzati per creare e addestrare modelli di rischio di Machine Learning (ML) e indicatori KPI utilizzati dai dashboard e condivisi con il dominio Marketing.
  • Il dominio Marketing è un dominio allineato al consumatore che ricava esclusivamente i profili dei clienti e i dati sulla propensione al rischio dai domini Cliente e Rischio. Questo dominio crea modelli ML di segmentazione che determinano le migliori offerte personalizzate. Queste informazioni vengono rese disponibili per le applicazioni interne mediante l'utilizzo di API di inferenza e i risultati di inferenza batch vengono condivisi come prodotto dati per i partner che eseguono campagne in uscita.
  • Tutti i domini condividono un Data Catalog comune che contiene informazioni sui relativi asset dati, entità dati e glossari business.
  • Ogni team di dominio dati e i rispettivi proprietari dei prodotti dati gestiscono i propri oggetti Data Catalog specifici. L'isolamento della sicurezza è garantito utilizzando i criteri di Oracle Cloud Infrastructure Identity and Access Management che definiscono quale team può gestire le entità del Data Catalog.
  • Le entità comuni del Data Catalog, ad esempio i termini del glossario business utilizzati a livello di organizzazione, vengono gestite da un ente di governance dei dati composto da tutti i proprietari dei prodotti di dominio.
  • I prodotti dati vengono contrassegnati nel Data Catalog in modo che siano ricercabili, contengano la propria semantica e siano correlati al glossario business.
  • La condivisione dei dati viene utilizzata per condividere i prodotti dati in tempo reale o con controllo delle versioni tra i domini. La scelta di utilizzare prodotti di dati in tempo reale o con versioni dipende da ogni prodotto di dati e caso d'uso.

I principali componenti funzionali dell'architettura sono:

  • Domini allineati all'origine: Cliente e Finanza

    Questi domini si concentrano sulla gestione dei dati finanziari e dei clienti derivati da dati strutturati e non strutturati.

    Il dominio cliente utilizza le funzionalità riportate di seguito per creare un prodotto dati Profili cliente.

    • Inclusione batch (Oracle Cloud Infrastructure Data Integration): contiene dati provenienti da applicazioni CRM, siti Web e rivolte ai clienti.
    • Elaborazione in batch (Oracle Cloud Infrastructure Data Integration, Oracle Cloud Infrastructure Data Flow): elabora dati strutturati e non strutturati utilizzando ELT a basso codice, ETL incentrato sul codice o entrambi per creare i prodotti di dati dei profili cliente.
    • Serving (Oracle Autonomous Data Warehouse): cura e fornisce i dati dei profili dei clienti ai domini di rischio e marketing.
    • Cloud Storage/Data Lake (Oracle Cloud Infrastructure Object Storage): memorizza i documenti, i contratti o i moduli dei clienti.
    • Visualizza/apprendi (Oracle Analytics Cloud): offre agli utenti finali del dominio Augmented Analytics, inclusi KPI correlati al cliente, come LTV (Life Time Value), tasso di conservazione, CSAT (Customer Satisfaction Score) e NPS (Net Promoter Score).
    • Servizi AI e AI generativa: Oracle Cloud Infrastructure Document Understanding estrae i dati dai moduli e dai documenti dei clienti e Oracle Cloud Infrastructure Language elabora i dati di testo e li arricchisce con l'analisi del sentiment, il riconoscimento di entità denominate o la classificazione del testo.

    Il dominio Finance utilizza le funzionalità riportate di seguito per creare un prodotto dati delle transazioni finanziarie aumentate.

    • Real Time Ingest (Oracle Cloud Infrastructure GoldenGate): acquisisce le transazioni finanziarie dal sistema bancario di base quasi in tempo reale e in modo non intrusivo.
    • Elaborazione in batch (trasformazioni dei dati di Oracle Cloud Infrastructure): utilizzando ELT low code, convalida, modella e trasforma i dati grezzi in un prodotto di dati curato classificando e aumentando i dati delle transazioni finanziarie con categorie di spesa, dettagli commerciante o dati di posizione.
    • Serving (Oracle Autonomous Data Warehouse): conserva i dati curati e fornisce transazioni aumentate al dominio di rischio.
    • Cloud Storage/Data Lake (Oracle Cloud Infrastructure Object Storage): memorizza i form correlati al finance a cui viene fatto riferimento nei record delle transazioni finanziarie memorizzati in Oracle Autonomous Data Warehouse.
  • Dominio aggregato: Rischio

    Questo dominio si concentra sulla creazione, la formazione e l'esecuzione di modelli di machine learning per rilevare i rischi basati su dati interni, come i profili dei clienti e le transazioni aumentate, e dati esterni come dati economici e macroeconomici.

    Questo settore ha specializzato le PMI nell'analisi e nella prevenzione dei rischi e serve tutti gli altri settori che hanno bisogno dei suoi prodotti di dati. Il dominio dispone di utenti interni che utilizzano gli augmented analytics, ma la maggior parte del loro lavoro consiste nel condividere i risultati dell'inferenza batch di apprendimento automatico. Ad esempio, l'inferenza batch potrebbe calcolare la propensione al rischio dei clienti che sottoscrivono servizi finanziari in base al loro stile di vita e alla spesa e a fattori macroeconomici, come la crescita dell'economia, l'inflazione o il tasso di disoccupazione.

    Questo dominio utilizza le seguenti funzionalità per creare un prodotto dati di propensione al rischio:

    • Serving (Oracle Autonomous Data Warehouse): elabora le trasformazioni e l'ingegneria delle funzioni per alimentare i modelli ML, nonché per memorizzare i risultati di inferenza batch e produrre KPI correlati al rischio. Il dominio aggregato di rischio è un consumatore dei profili dei clienti e dei dati delle transazioni aumentate, condivisi rispettivamente dal cliente e dai domini finanziari. Fornisce dati sulla propensione al rischio al dominio Marketing.
    • Scopri e prevedi (Oracle Cloud Infrastructure Data Science): copre l'intero ciclo di vita delle operations di Machine Learning, dall'analisi dei dati esplorativi, allo sviluppo dei modelli, all'esecuzione, al miglioramento continuo. Produce risultati di inferenza batch che costituiscono la base per i dati condivisi della propensione al rischio.
  • Dominio allineato al consumatore: Marketing

    Questo dominio si concentra sulla cura dei dati per supportare campagne personalizzate e mirate. Utilizza i dati condivisi da altri domini come input e fornisce la segmentazione e i dati della migliore offerta successiva in tempo reale utilizzando inferenze basate su API e condividendo i dati con partner di marketing 3rd party che eseguono campagne e condividono i risultati di esecuzione della campagna.

    Questo dominio utilizza le funzionalità riportate di seguito per creare i prodotti dati di segmentazione delle campagne.

    • Elaborazione in batch (trasformazioni dei dati di Oracle Cloud Infrastructure): elabora e modella i dati utilizzati dalle condivisioni dei dati. Può anche essere utilizzato per replicare i dati dalle condivisioni di dati in Oracle Autonomous Data Warehouse.
    • Servizio (Oracle Autonomous Data Warehouse): memorizza i dati curati, le informazioni sulle campagne, i segmenti e le offerte mirate per una determinata campagna.
    • Cloud Storage/Data Lake (Oracle Cloud Infrastructure Object Storage): memorizza tutti i dati non strutturati utilizzati dal dominio.
    • Visualizza/apprendi (Oracle Analytics Cloud): offre agli utenti finali del dominio gli Augmented Analytics, ad esempio le destinazioni della campagna e gli indicatori KPI di esecuzione.
    • Learn and Predict (Oracle Machine Learning): copre l'intero ciclo di vita delle operazioni di Machine Learning, dall'analisi dei dati esplorativi alla distribuzione dei modelli. Gli utenti utilizzano AutoML per accelerare la creazione e la formazione di modelli. A seconda delle campagne, i risultati dei modelli di inferenza batch vengono forniti utilizzando la condivisione dei dati a partner esterni che eseguono le campagne o forniti tramite le distribuzioni di Oracle Machine Learning per l'inferenza in tempo reale richiamata dalle applicazioni rivolte ai clienti.
    • API (Oracle Cloud Infrastructure API Gateway): protegge e regola gli endpoint API di distribuzione di Oracle Machine Learning.
  • Shared Services

    I servizi utilizzati da tutti i domini per la governance e la sicurezza dei dati includono:

    • Governance dei dati (Oracle Cloud Infrastructure Data Catalog): catalizza il glossario business e tutte le entità dati del dominio, categorizzando quelle che sono prodotti dati in modo che possano essere trovati.
    • Sicurezza dei dati (Oracle Data Safe, OCI Audit, OCI Logging, OCI Vault): aumenta il livello di sicurezza di tutti i domini.

Variante architettura: distribuzione condivisa

Una piattaforma di dati decentralizzata non richiede necessariamente che le risorse cloud siano completamente decentralizzate per un determinato dominio.

È possibile avere una piattaforma decentralizzata in esecuzione su una piattaforma dati condivisa, in cui un set comune di istanze di servizio supporta i diversi team di dominio dati.

L'architettura primaria offre il massimo livello di isolamento e flessibilità per ogni dominio ed è altamente scalabile per gestire piattaforme di dati decentralizzate con un gran numero di domini. I requisiti per una piattaforma dati decentralizzata possono variare e per casi d'uso specifici una diversa variante del modello di architettura potrebbe essere più adatta.

Il diagramma riportato di seguito mostra una variazione della distribuzione condivisa del pattern della piattaforma distribuita.



decentralizzato-variante-condiviso-oracle.zip

Una singola istanza di Oracle Autonomous Data Warehouse è condivisa tra tutti i domini, isolati utilizzando l'accesso basato sui ruoli (RBAC) e schemi diversi. I dati che risiedono nel lake sono anche isolati per ogni dominio utilizzando i criteri e i compartimenti distinti di Oracle Cloud Infrastructure Identity and Access Management. I prodotti di dati vengono curati all'interno dei rispettivi schemi, catalogati e condivisi utilizzando la condivisione in tempo reale e con controllo delle versioni.

Per l'inclusione e l'elaborazione dei dati, i domini A e B utilizzano le stesse istanze e applicazioni Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow. I domini C e D hanno requisiti molto specifici per l'inclusione e l'elaborazione dei dati e quindi hanno istanze separate.

La stessa logica si applica al livello di consumo in cui i domini A e B condividono una singola istanza cloud di analitica, separata mediante RBAC, mentre i domini C e D utilizzano le proprie istanze di servizi.

È anche possibile utilizzare una soluzione ibrida; invece di avere una singola istanza per tutti i domini o un'istanza per dominio, alcuni domini potrebbero utilizzare un'istanza condivisa mentre altri hanno un'istanza dedicata.

Una soluzione ibrida di questo tipo è in genere guidata da requisiti diversi da quelli funzionali, come i requisiti di performance, sicurezza, alta disponibilità o disaster recovery più impegnativi per alcuni domini e richiede istanze separate per soddisfare tali requisiti, senza influire negativamente sui carichi di lavoro di altri domini.

Variante di architettura: Hub e spoke

Spesso, le grandi organizzazioni con filiali in diverse aree e paesi devono eseguire le proprie piattaforme di dati in modo indipendente, senza una piattaforma di dati centralizzata che soddisfi tutti i carichi di lavoro delle affiliate, pur avendo ancora bisogno di condividere i dati con le sedi centrali per ottenere visibilità globale e indicatori KPI (Key Performance Indicator).

Una piattaforma di dati decentralizzata è una buona soluzione per questo scenario, dove c'è un hub (la sede centrale) e diversi portavoce (le controllate) che hanno bisogno di scambiare i dati in modo sicuro ed efficiente.

Questa variante utilizza la geografia come esempio per un modello hub e spoke, ma lo stesso modello può essere applicato anche ad altri esempi come una holding e le sue controllate.

Gli spoke possono essere distribuiti nella stessa tenancy dell'hub o in tenancy diverse.

Il diagramma riportato di seguito mostra un hub e i diversi raggi distribuiti in diverse aree e che utilizzano condivisioni con controllo delle versioni, abilitate dal protocollo Delta Sharing, per lo scambio di dati. Questo diagramma mostra solo i componenti funzionali del motore di servizio. Il resto dell'architettura funzionale è simile a quello mostrato nell'architettura funzionale primaria.



decentralizzato-variante-hub-spoke-oracle.zip

Poiché i dati vengono scambiati in modo sicuro e trasmessi attraverso le region su Internet, è necessario tenere conto della latenza. Se i prodotti dati condivisi tra gli spoke e l'hub sono set di dati aggregati e KPI e non grandi volumi di dati granulari, questo pattern è semplice da distribuire, gestire e utilizzare.

Un approccio alternativo è quello di utilizzare i collegamenti cloud di Oracle Autonomous Database che consentono una condivisione trasparente dei dati tra le istanze, anche se si trovano in altre aree.

Per la condivisione dei dati tra più aree, l'istanza di origine di Oracle Autonomous Data Warehouse deve essere duplicata nell'area di destinazione in modo che sia possibile accedervi senza problemi dall'istanza dell'hub Autonomous Data Warehouse. Le copie possono essere aggiornate periodicamente, manualmente o automaticamente, in modo che l'hub Autonomous Data Warehouse possa utilizzare prodotti di dati aggiornati condivisi dagli spoke.

Poiché molto probabilmente l'hub utilizzerà prodotti di dati che sono un sottoinsieme dell'intero set di dati curato dagli spoke, gli spoke possono avere un'istanza dedicata di Autonomous Data Warehouse solo per contenere prodotti di dati da condividere con l'hub, ottimizzando la copia aggiornabile.

Il traffico di rete per le copie aggiornabili viene instradato tramite il backbone Oracle e ha una latenza inferiore e una larghezza di banda maggiore quando si spostano prodotti di dati di grandi dimensioni che risiedono nelle istanze di Autonomous Data Warehouse spoke.

La scelta tra l'utilizzo di condivisioni con versioni o collegamenti cloud è influenzata principalmente da prestazioni e costi piuttosto che da requisiti funzionali.

Indipendentemente dall'opzione utilizzata, l'hub e i raggi hanno una propria piattaforma di dati locale che potrebbe utilizzare l'approccio decentralizzato mostrato in questa architettura.

Variante di architettura: ecosistema di dati eterogenei

L'architettura di riferimento principale descrive come implementare una piattaforma di dati decentralizzata per una singola organizzazione.

È tuttavia possibile utilizzare la stessa architettura per supportare un ecosistema di dati eterogeneo con organizzazioni diverse che condividono dati utilizzando tecnologie diverse e per scopi diversi.

I casi d'uso possono includere ospedali che condividono dati anonimi con le università per scopi di ricerca o fornitori che condividono i dati delle parti con i produttori di automobili.

Le organizzazioni che utilizzano Oracle Autonomous Data Warehouse come motore di servizio possono fornire e utilizzare dati condivisi da altre tecnologie che supportano il protocollo aperto Delta Sharing.

Delta Sharing è una buona scelta per supportare gli ecosistemi di dati grazie al suo ampio supporto e alla semplicità con cui fornisce e consuma i dati in modo sicuro.

Puoi anche condividere i dati utilizzando altri meccanismi, come le API o lo streaming dei dati.

Architettura fisica

L'architettura fisica di questa piattaforma di dati decentralizzata supporta quanto segue:

  • Isolamento del dominio utilizzando i compartimenti e i criteri di Oracle Cloud Infrastructure Identity and Access Management in cui i rispettivi team sono autorizzati solo a utilizzare e distribuire risorse cloud nel proprio compartimento
  • Distribuzione del dominio nelle rispettive VCN del carico di lavoro per un livello di isolamento più elevato e una maggiore postura della sicurezza
  • Inclusione, storage, elaborazione e gestione dei dati nei processi gestiti dai team del dominio utilizzando le risorse cloud distribuite nei rispettivi compartimenti e VCN
  • Supporto per requisiti non funzionali come scalabilità, alta disponibilità, disaster recovery, sicurezza e obiettivi del livello di servizio (SLO) perché ogni team di dominio utilizza risorse cloud separate in base ai propri requisiti di dominio specifici
  • Controllo dettagliato dei costi per ogni utilizzo delle risorse cloud di dominio
  • Traffico end-to-end completamente sicuro e privato utilizzando endpoint e istanze privati distribuiti in subnet private

    È anche possibile distribuire alcuni servizi con endpoint pubblici su base per dominio, rispettando al contempo le regole di sicurezza aziendale.

  • Condivisione dei dati abilitata da Oracle Autonomous Data Warehouse utilizzando condivisioni attive o con controllo delle versioni e indipendentemente dal fatto che vengano forniti dati aggiornati o con controllo delle versioni, a seconda del caso d'uso
  • Data Catalog centralizzato per tutti i domini, con le entità secondarie del Data Catalog isolate per dominio utilizzando i criteri di Oracle Cloud Infrastructure Identity and Access Management, ad eccezione dei prodotti di dati che devono essere individuabili
  • Implementazione altamente scalabile poiché ogni nuovo dominio può essere integrato utilizzando l'automazione infrastructure as code (IaC) senza alcun impatto sui domini di dati esistenti

Il seguente diagramma illustra questa architettura di riferimento.



decentralizzato-dati-piattaforma-fisico-oracle.zip

Il diagramma dell'architettura fisica descrive due domini per esemplificare la struttura del cloud networking e dei servizi per ciascun dominio. In genere, tutte le reti e i compartimenti del dominio sono uguali a meno che non vi sia un'eccezione basata su requisiti specifici e non funzionali.

Il design per l'architettura fisica:

  • Utilizza una VCN hub e una VCN per ogni dominio di dati che contiene il carico di lavoro per tale dominio
  • Sfrutta la connettività on-premise utilizzando Oracle Cloud Infrastructure FastConnect e VPN site-to-site per la ridondanza
  • Instrada tutto il traffico in entrata da on premise e da Internet prima nella VCN hub e poi nelle VCN del carico di lavoro del dominio dati
  • Protegge tutti i dati in transito e in archivio
  • Distribuisce servizi con endpoint privati per aumentare il livello di sicurezza
  • Segrega le reti VCN in diverse subnet private per aumentare il livello di sicurezza
  • Fornisce un compartimento per ogni dominio per l'isolamento delle risorse
  • Utilizza un gateway di instradamento dinamico (DRG) in modo che le risorse cloud supportino il traffico in entrata e in uscita verso le VCN degli altri domini
  • Posiziona le istanze di Autonomous Data Warehouse nella subnet privata dei dati per una maggiore sicurezza, ma può fornire e utilizzare condivisioni in tempo reale e con controllo delle versioni dalle altre istanze di Autonomous Data Warehouse del dominio se vengono stabiliti instradamenti per abilitare tale traffico

I potenziali miglioramenti del design non illustrati in questa distribuzione per motivi di semplicità includono:

  • Sfruttare una zona di atterraggio completamente conforme al CIS
  • Distribuzione di un firewall di rete nella VCN hub per migliorare il livello di sicurezza generale ispezionando tutto il traffico e applicando i criteri

Suggerimenti

I suggerimenti forniti in questa sezione si concentrano in modo specifico sulle piattaforme di dati decentralizzate e si aggiungono ai suggerimenti forniti nell'architettura di riferimento del data lakehouse elencata nella sezione Esplora di più.

Utilizzare i seguenti suggerimenti come punto di partenza per condividere i dati in modo sicuro. Le vostre esigenze potrebbero differire dall'architettura descritta qui.

Oracle Autonomous Data Warehouse

Questa architettura utilizza Oracle Autonomous Data Warehouse su un'infrastruttura condivisa.

  • Utilizza un'architettura medaglione per il lakehouse e crea prodotti di dati basati sui livelli argento (granulare, aumentato) e oro (arricchito, aggregato).
  • Prendi in considerazione la condivisione dei prodotti di dati utilizzando Autonomous Data Warehouse con il suo supporto nativo per la condivisione eterogenea dei dati per fornire un'architettura più semplice, sicura e affidabile.
  • Prendere in considerazione la condivisione di dati esterni, esposti in Autonomous Data Warehouse come tabelle esterne o ibride, per trarre vantaggio dalle funzioni di sicurezza della condivisione con controllo delle versioni o in tempo reale.
  • Valutare la possibilità di creare viste per le tabelle dei prodotti dati per differenziare gli oggetti di base (tabelle) dagli oggetti condivisi (viste).
  • Per aumentare la sicurezza durante la condivisione dei dati con condivisioni attive, considerare l'utilizzo di valori di spazio dei nomi e nomi diversi dagli schemi e dalle tabelle di base per nascondere i nomi degli oggetti interni.
  • Per aumentare la sicurezza quando si utilizza la condivisione attiva con i collegamenti cloud, chiedere all'amministratore della registrazione del set di dati di definire l'ambito del set di dati più restrittivo per i casi d'uso.
  • Quando si utilizza la condivisione in tempo reale con i collegamenti cloud, considerare l'abilitazione dell'inserimento nella cache per migliorare le prestazioni delle query dei consumatori di dati.
  • Quando si utilizza la condivisione in tempo reale con i collegamenti cloud con un grande volume di prodotti di dati, si consiglia di scaricare le query per duplicazioni aggiornabili per migliorare le prestazioni del consumatore di dati e la segregazione dei carichi di lavoro.
  • Se hai un numero elevato di istanze di Autonomous Data Warehouse del dominio o se i requisiti di computazione dell'istanza sono elevati, valuta la possibilità di consolidarle in un pool elastico.

Memorizzazione degli oggetti OCI

Questa architettura utilizza Oracle Cloud Infrastructure Object Storage, altamente scalabile e durevole, come storage del lake.

Valutare la possibilità di utilizzare più compartimenti granulari per organizzare i domini di dati e i team all'interno dei domini di dati per separare i carichi di lavoro con i criteri di Oracle Cloud Infrastructure Identity and Access Management.

Oracle Cloud Infrastructure Data Catalog

Questa architettura utilizza Oracle Cloud Infrastructure Data Catalog per gestire i metadati tecnici, aziendali e operativi per i prodotti di dati in modo da poterli scoprire automaticamente.

  • Considera l'utilizzo di un'unica istanza di Data Catalog per tutti i domini per centralizzare la governance dei metadati e dei prodotti di dati
  • Considera la possibilità di concedere l'accesso di gestione agli utenti del dominio solo per i relativi asset dati
  • Considera la possibilità di concedere l'accesso in lettura a tutti gli utenti in modo che possano trovare i prodotti dati gestiti in tutta l'organizzazione
  • Valutare la possibilità di utilizzare proprietà personalizzate per arricchire i metadati operativi con proprietà quali il proprietario del prodotto di dati, la disponibilità, la data dell'ultimo aggiornamento, la versione e così via.

Distribuzione domini di dati

Questa architettura utilizza il pattern Data Lakehouse e i servizi OCI disponibili per supportare un carico di lavoro di dati, analytics e AI end-to-end.

  • Prendi in considerazione la separazione dei domini utilizzando VCN separate per ogni dominio per aumentare il livello di sicurezza e la flessibilità del dominio durante la distribuzione delle risorse cloud.
  • Prendi in considerazione la possibilità di separare i diversi servizi OCI utilizzati da ciascun dominio, sfruttando i compartimenti e i criteri IAM.

Condivisione dei prodotti di dati

  • Se devi servire i prodotti di dati utilizzando le API, prendi in considerazione l'utilizzo di Oracle REST Data Services.
  • Se condividi i prodotti di dati utilizzando Oracle REST Data Services, prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure API Gateway per proteggere le API.
  • Se hai bisogno di eseguire lo streaming dei prodotti di dati, prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure GoldenGate e Oracle Cloud Infrastructure Streaming.

conferme

  • Author: José Cruz
  • Contributors: Massimo Castelli, Mike Blackmore, Larry Fumagalli, Robert Lies