Data Platform - Data warehouse con integrazione complessa
I dati delle applicazioni aziendali sono spesso distribuiti in più sistemi all'interno dell'azienda e non possono essere integrati e analizzati facilmente per generare insight utili.
Questa architettura di riferimento offre un framework per arricchire i dati delle applicazioni aziendali con dati grezzi provenienti da altre origini e per utilizzare modelli di machine learning per portare intelligence e insight predittivi nei processi aziendali.
Questa architettura di riferimento posiziona la soluzione tecnologica nel contesto aziendale complessivo:
Mentre i dipartimenti consolidano i dati da più origini a data mart per ottenere insight mirati, il data warehouse aziendale deve cambiare e adattarsi in modo da sfruttare i data mart disponibili e altre fonti strutturate e non strutturate.
I data warehouse separano il carico di lavoro utilizzato per l'analisi da quello utilizzato per le transazioni e consentono a un'organizzazione di consolidare i dati provenienti da più origini. Ciò facilita l'esecuzione di query e l'analisi dei dati cronologici in un formato orientato al business in grado di garantire il rispetto delle modifiche apportate ai sistemi transazionali. Sfruttare i dati dei warehouse per il machine learning e l'analisi predittiva è fondamentale per implementare l'intelligence nei processi aziendali. I processi aziendali intelligenti aiutano a gestire in modo proattivo gli eventi aziendali critici, come consigliare i prodotti giusti sul canale giusto ai clienti giusti o rilevare eventi potenzialmente fraudolenti.
Architettura
Questa architettura raccoglie e combina i dati applicativi per l'analisi e il machine learning per fornire insight utili.
oci-polyglot-architecture-oracle.zip
Il diagramma riportato di seguito mostra un mapping dell'architettura sopra ai servizi forniti su Oracle Cloud Infrastructure (OCI) utilizzando le best practice.
oci-poliglot-fisico-arch-oracle.zip
L'architettura si concentra sulle divisioni logiche riportate di seguito.
- Inclusione, trasformazione
Inclusione e perfezionamento dei dati da utilizzare in ciascun livello di dati nell'architettura.
- Rendi persistenti, cura e crea
Facilita l'accesso e la navigazione dei dati per visualizzare la vista aziendale corrente e cronologica. Contiene sia dati raw che dati curati granulari e aggregati. Per le tecnologie relazionali, i dati possono essere logici o fisicamente strutturati in forme relazionali, longitudinali, dimensionali o OLAP semplici. Per i dati non relazionali, questo livello contiene uno o più pool di dati, output da un processo analitico o dati ottimizzati per un task analitico specifico.
- Analizza, apprendi, prevedi
Estrae la logica business view dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un singolo livello di reporting da più origini federate.
L'architettura prevede i componenti elencati di seguito.
- Inserimento batch
L'inclusione in batch è utile per i dati che non possono essere ingeriti in tempo reale o che sono troppo costosi per adattarsi all'inclusione in tempo reale. È importante anche per trasformare i dati in informazioni affidabili e affidabili che possono essere curate e rese persistenti per un consumo regolare. Puoi utilizzare i seguenti servizi insieme o in modo indipendente per ottenere un workflow di integrazione e trasformazione dei dati altamente flessibile ed efficace.
-
Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimuove i dati da una varietà di origini dati in servizi Oracle Cloud Infrastructure di destinazione, ad esempio Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. ETL (Extract Transform load) utilizza l'elaborazione di scale-out completamente gestita su Spark e ELT (Extract Load Transform) utilizza tutte le funzionalità di push-down SQL di Autonomous Data Warehouse per ridurre al minimo lo spostamento dei dati e migliorare il time-to-value dei nuovi dati ingegnerizzati. Gli utenti progettano i processi di integrazione dei dati mediante un'interfaccia utente intuitiva e senza codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione. Oracle Cloud Infrastructure Data Integration offre esplorazione interattiva e preparazione dei dati e aiuta i data engine a proteggersi dalla deriva dello schema definendo le regole per gestire le modifiche allo schema.
-
Oracle Data Transforms si basa sullo strumento di integrazione Oracle Data Integrator (ODI) che può essere distribuito dalle azioni del database Oracle Autonomous Database (Data Studio). Offre una soluzione unificata completa per la creazione, la distribuzione e la gestione di data warehouse complessi o nell'ambito di architetture incentrate sui dati in un ambiente SOA o di business intelligence. Combina inoltre tutti gli elementi relativi all'integrazione, allo spostamento dei dati, alla sincronizzazione, alla qualità e alla gestione dei dati, per garantire che le informazioni siano tempestive, accurate e coerenti in tutti i sistemi complessi.
Oracle Data Integrator offre l'integrazione dei dati completa dalle caricamenti batch ad alte prestazioni e con alti volumi, ai processi di integrazione basati sugli eventi e con filtro ai servizi di dati abilitati per SOA. Un approccio di progettazione dichiarativa garantisce maggiore rapidità e semplicità di sviluppo e manutenzione e offre un approccio unico all'estrazione della trasformazione del carico (ELT, Load Transform) che garantisce il massimo livello di prestazioni possibile per i processi di trasformazione e convalida dei dati. Le trasformazioni dei dati Oracle utilizzano un'interfaccia Web per semplificare la configurazione e l'esecuzione di ELT e consentire agli utenti di creare e pianificare dati e flussi di lavoro utilizzando un approccio di progettazione dichiarativa.
A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere l'integrazione e la trasformazione dei dati altamente flessibili e performanti.
-
-
Inclusione in tempo reale
Oracle Cloud Infrastructure GoldenGate è un servizio completamente gestito che consente l'ingestione dei dati da fonti che risiedono on-premise o in qualsiasi cloud, sfruttando la tecnologia CDC GoldenGate per un'acquisizione dei dati e una consegna non intrusiva ed efficiente in Oracle Autonomous Data Warehouse in tempo reale e su larga scala per rendere le informazioni pertinenti disponibili ai consumatori il più presto possibile.
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione che viene ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare né gestire alcun hardware o installare software. Oracle Cloud Infrastructure gestisce la creazione del database e il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.
I dati di storage in blocco o a freddo che risiede nello storage degli oggetti possono essere uniti ai dati del warehouse come tabelle esterne e tabelle di partizionamento ibride.
Autonomous Data Warehouse può utilizzare i metadati raccolti in precedenza memorizzati nel Data Catalog per creare tabelle esterne e sincronizzare automaticamente gli aggiornamenti dei metadati nel Data Catalog con la definizione delle tabelle esterne per mantenere la coerenza, semplificare la gestione e ridurre le attività.
Inoltre, Data Lake Accelerator, un componente di Oracle Autonomous Database, può utilizzare perfettamente i dati di storage degli oggetti, ridimensionare l'elaborazione per fornire query rapide, ridimensionare automaticamente l'istanza di computazione del database quando necessario e ridurre l'impatto sul carico di lavoro del database isolando le query di storage degli oggetti dall'istanza di computazione del database.
- Storage degli oggetti
Lo storage degli oggetti consente un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati quali immagini e video. Puoi memorizzare e quindi recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. È possibile scalare perfettamente lo storage senza compromettere le prestazioni o l'affidabilità dei servizi. Utilizzare lo storage standard per lo storage "hot" necessario per accedere rapidamente, immediatamente e di frequente. Utilizzare lo storage di archivio per lo storage "freddo" che si conserva per lunghi periodi di tempo e raramente o raramente si accede.
- Analytics
Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre una serie completa di funzionalità per esplorare ed eseguire analitica collaborativa per l'utente, il gruppo di lavoro e l'azienda. Supporta i data scientist dei cittadini, la formazione avanzata degli analisti aziendali e i modelli di apprendimento automatico (ML). I modelli di machine learning possono essere eseguiti sul servizio di analitica o direttamente su Oracle Autonomous Data Warehouse come modelli integrati OML per previsioni batch su larga scala che sfruttano la potenza di elaborazione, la scalabilità e l'elasticità del warehouse.
Grazie a Oracle Analytics Cloud hai anche a disposizione funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, scalabilità semplice e applicazione di patch e gestione automatizzata del ciclo di vita.
-
Apprendimento automatico
Oracle Machine Learning offre potenti funzionalità di machine learning strettamente integrate in Oracle Autonomous Database, con il supporto per Python e AutoML. Supporta modelli utilizzando algoritmi open source e scalabili all'interno del database che riducono la preparazione e lo spostamento dei dati. AutoML aiuta i data scientist ad accelerare il time-to-value delle iniziative di apprendimento automatico dell'azienda utilizzando la selezione automatica degli algoritmi, il campionamento adattivo dei dati, la selezione automatica delle funzioni e l'ottimizzazione automatica dei modelli.
Con i servizi Oracle Machine Learning disponibili in Oracle Autonomous Data Warehouse, non solo puoi gestire i modelli, ma puoi anche distribuire tali modelli come endpoint REST per democratizzare le previsioni in tempo reale all'interno dell'azienda, consentendo alle aziende di reagire agli eventi di rilevanza quando si verificano piuttosto che dopo i fatti.
-
Scienza dei dati
Data Science offre infrastruttura, tecnologie open source, librerie, pacchetti e strumenti di data science per i team di data science di creare, formare e gestire modelli di machine learning (ML) in Oracle Cloud Infrastructure. L'area di lavoro collaborativa e orientata ai progetti offre un'esperienza utente end-to-end e coerente e supporta il ciclo di vita dei modelli predittivi.
La funzione di distribuzione dei modelli di data science consente ai data scientist di distribuire modelli formati come endpoint HTTP completamente gestiti in grado di fornire previsioni in tempo reale, violando l'intelligence in processi e applicazioni e consentendo all'azienda di reagire agli eventi pertinenti quando si verificano.
- Data Catalog
Il Catalogo dati di Oracle Cloud Infrastructure offre visibilità per gli asset tecnici quali gli attributi di metadati e metadati e consente di gestire un glossario aziendale mappato ai metadati tecnici. In Oracle Cloud Infrastructure Data Catalog sono inoltre disponibili metadati per Autonomous Data Warehouse che facilitano la creazione di tabelle esterne nel data warehouse.
Suggerimenti
Utilizza i suggerimenti riportati di seguito come punto di partenza per raccogliere e combinare i dati delle applicazioni per l'analisi e l'apprendimento automatico.
I requisiti potrebbero essere diversi dall'architettura descritta in questa sezione.
- Oracle Autonomous Data Warehouse
Questa architettura utilizza Oracle Autonomous Data Warehouse su un'infrastruttura condivisa. Abilita il ridimensionamento automatico per fornire ai carichi di lavoro del database fino a tre volte la potenza di elaborazione.
Prendere in considerazione l'uso di Oracle Autonomous Data Warehouse sull'infrastruttura dedicata se si desidera che la funzionalità di database self-service in un ambiente cloud di database privato sia in esecuzione nel cloud pubblico.
Considerare la possibilità di utilizzare la funzione Hybrid Partitioned Table di Autonomous Data Warehouse per i dati non spesso utilizzati e per i quali non sono necessarie le stesse prestazioni. Questa funzione consente di spostare partizioni di dati nello storage degli oggetti e di combinarli con partizioni memorizzate in Autonomous Data Warehouse per garantire una consegna senza interruzioni.
Considerare la possibilità di utilizzare la funzione Tabelle esterne per utilizzare in tempo reale i dati memorizzati nello storage degli oggetti senza dover replicarlo in Autonomous Data Warehouse. Ciò consente al data warehouse di utilizzare dati curati indipendentemente dal formato (parquet, avro, orc, json, csv e così via).
Puoi valutare la possibilità di utilizzare Data Lake Accelerator quando utilizzi i dati di storage degli oggetti per offrire un'esperienza utente migliore e più rapida agli utenti che consumano e uniscono i dati tra il data warehouse e il data lake.
- Distribuzione modello Oracle Machine Learning e Oracle Cloud Infrastructure Data Science
Questa architettura si basa su Oracle Machine Learning e Oracle Cloud Infrastructure Data Science per eseguire previsioni in tempo reale per fornire risultati a persone e applicazioni.
Considerare la possibilità di distribuire un gateway API se le previsioni in tempo reale vengono utilizzate dai partner e dalle entità esterne per proteggere e regolare l'utilizzo del modello distribuito.
- Data Catalog
Per avere una visione end-to-end completa e olistica dei dati memorizzati e in streaming sulla piattaforma, prendere in considerazione la raccolta non solo dei data store che supportano il livello di persistenza dei dati, ma anche dei data store di origine. Il mapping di questi metadati tecnici raccolti al glossario aziendale e l'integrazione con proprietà personalizzate consente di mappare i concetti aziendali e di documentare e gestire le definizioni di sicurezza e accesso.
Per facilitare la creazione di tabelle esterne in Autonomous Data Warehouse che virtualizzano i dati memorizzati nello storage degli oggetti, utilizzare i metadati raccolti in precedenza memorizzati nel Catalogo dati di Oracle Cloud Infrastructure. Ciò semplifica la creazione di tabelle esterne, applica la coerenza dei metadati tra i data store ed è meno soggetta a errori umani.
Considerazioni
Durante la raccolta e la combinazione dei dati dell'applicazione e dei dati degli eventi di streaming per l'analisi e l'apprendimento automatico, tenere presenti le opzioni di implementazione riportate di seguito.
Linea guida | Raffinazione dei dati | Piattaforma di persistenza dei dati | Interpretazione di accesso e & |
---|---|---|---|
Consigliato |
|
|
|
Altre opzioni |
|
Oracle Exadata Database Service | Strumenti di terze parti |
Motivazione |
Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile ed efficiente in termini di costi. Oracle Cloud Infrastructure GoldenGate offre una piattaforma di replica dei dati cloud nativa, serverless, completamente gestita, non intrusiva, scalabile, a costi contenuti e che può essere distribuita in ambienti ibridi. |
Oracle Autonomous Data Warehouse è un database semplice da utilizzare e completamente autonomo, scalabile in modo elastico, in grado di garantire prestazioni rapide per le query e non richiede l'amministrazione del database. Offre inoltre l'accesso diretto ai dati dallo storage degli oggetti utilizzando tabelle partizionate esterne o ibride. Oracle Cloud Infrastructure Object Storage memorizza dati illimitati in formato raw. |
Oracle Analytics Cloud è un servizio completamente gestito e strettamente integrato con i dati curati inOracle Autonomous Data Warehouse. Oracle Cloud Infrastructure Data Science è una piattaforma self-service completamente gestita che consente ai team di data science di creare, formare e gestire modelli di machine learning (ML) in Oracle Cloud Infrastructure. Il servizio Data Science offre strumenti di infrastruttura e data science come AutoML e funzionalità di implementazione dei modelli. Oracle Machine Learning è una piattaforma self-service completamente gestita per la data science disponibile con Autonomous Data Warehouse che sfrutta la potenza di elaborazione del warehouse per creare, formare, testare e distribuire modelli ML su larga scala, senza dover spostare i dati all'esterno del warehouse. |
Distribuzione
Il codice Terraform per questa architettura di riferimento è disponibile in GitHub. Puoi inserire il codice in Oracle Cloud Infrastructure Resource Manager con un solo clic, creare lo stack e distribuirlo. In alternativa, scaricare il codice da GitHub nel computer, personalizzare il codice e distribuirlo utilizzando l'interfaccia CLI Terraform.
- Implementa utilizzando Oracle Cloud Infrastructure Resource Manager:
- Fare clic su
Se non si è ancora collegati, immettere la tenancy e le credenziali utente.
- Rivedere e accettare i termini e le condizioni.
- Selezionare l'area in cui distribuire lo stack.
- Seguire i prompt visualizzati e le istruzioni per creare lo stack.
- Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Piano.
- Attendere il completamento del processo e rivedere il piano.
Per apportare modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Quindi eseguire di nuovo l'azione Piano.
- Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
- Fare clic su
- Distribuzione mediante l'interfaccia CLI Terraform:
- Andare a GitHub.
- Scaricare o clonare il codice nel computer locale.
- Seguire le istruzioni riportate in README.
Log modifiche
Questo log elenca le modifiche significative:
22 maggio 2023 |
|
01 febbraio 2022 |
|