Sviluppo delle applicazioni moderne - Big Data e analitica
Principi di progettazione
Quando si implementa un pattern di Big Data e analitica, utilizzare i principi di progettazione riportati di seguito per lo sviluppo di applicazioni moderne.
- Utilizza servizi completamente gestiti per eliminare la complessità attraverso lo sviluppo di applicazioni, i runtime e la gestione dei dati
I tuoi dati sono preziosi quanto la tua capacità di utilizzarli. La community open source contiene molti strumenti per i big data e la maggior parte delle relative funzionalità è stata adottata on premise mediante progetti open source quali Hadoop, Spark e Hive.
Utilizza il servizio Oracle Big Data, che offre tutti i componenti Hadoop open source più diffusi sotto forma di servizio gestito in Oracle Cloud. Per le applicazioni Spark, utilizza Oracle Cloud Infrastructure Data Flow e offre una piattaforma Spark nativa completamente gestita, serverless e cloud. L'utilizzo di questi servizi garantisce l'uso delle innovazioni più recenti nella community open source e delle competenze esistenti del team, senza alcuna preoccupazione in merito al blocco dei fornitori. Continuare a utilizzare la velocità e il valore di open source con le funzionalità premium native di Oracle, ad esempio le tabelle esterne di Oracle Autonomous Data Warehouse e Oracle Cloud SQL.
L'implementazione e il funzionamento dei servizi Big Data, in particolare dei componenti open source, possono avere un impatto esponenziale sulle spese operative (OpEx). Inizia con le nostre offerte Hadoop gestite o i servizi PaaS come Data Flow, prima di adottare un approccio do-it-yourself (DIY). Spesso, quando si tiene conto di OpEx, i servizi open source gestiti sono molto meno costosi nel tempo.
- Automatizza le attività di creazione, test e distribuzione
DataOps è importante per garantire che tu possa trarre il massimo vantaggio dalle pipeline di Big Data. Utilizza il servizio Oracle Cloud Infrastructure Data Integration per includere i dati, implementare l'elaborazione ETL e il pushdown ELT, nonché creare pipeline per la connessione dei task in una sequenza o in parallelo per facilitare un processo. Le pipeline possono includere varie origini dati più diffuse all'interno e all'esterno di Oracle Cloud. Utilizza le funzionalità di pianificazione di Integrazione dei dati per definire quando e con quale frequenza eseguire ogni task. Per i data lake basati su HDFS (Hadoop Distributed File System) nel servizio Big Data, utilizzare strumenti come Oozie e Airflow per orchestrare le pipeline di dati end-to-end. Utilizzare Oracle Database Cloud Service Management per definire i job di database eseguiti su un set di database in base a una pianificazione.
- Utilizza i database convergenti con il supporto completo in tutte le funzionalità su tutti i dati
Utilizza gli strumenti migliori in grado di semplificare, automatizzare e accelerare il consolidamento dei dati per massimizzare il valore aziendale. Quando costruisci data lake per Oracle Cloud Infrastructure Data Science con dati non strutturati, semistrutturati e strutturati, utilizza il servizio di storage degli oggetti per il tuo data lake. Per utilizzare HDFS e gli strumenti Hadoop open source, utilizzare il servizio Big Data per creare un data lake. Per i data warehouse, i data mart dipartimentali e i livelli di servizio e presentazione con dati strutturati, utilizza Autonomous Data Warehouse, ottimizzato per questi scenari. Autonomous Data Warehouse fornisce anche connettività ad Analytics, business intelligence e strumenti di reporting come Oracle Analytics Cloud.
- Monitoraggio e rintracciamento end-to-end degli strumenti
Le applicazioni per Big Data in genere includono più servizi di proprietà di diversi team aziendali e applicativi. Gli strumenti di osservabilità sono importanti per avere visibilità sul comportamento di questi sistemi intrinsecamente distribuiti.
Monitora lo stato operativo delle pipeline di dati end-to-end facendo in modo che tutti i carichi di lavoro emettano metriche sullo stato in Oracle Cloud Infrastructure Monitoring. Definire le soglie delle metriche personalizzate per gli allarmi e ricevere notifiche o eseguire azioni ogni volta che viene raggiunta una determinata soglia. Utilizzare la funzione di log OCI per tutti i log del servizio OCI nella tenancy e nei log personalizzati inviati dalle applicazioni dati. Per risolvere i problemi e ottimizzare le prestazioni, utilizzare OCI Database Management per Autonomous Data Warehouse per visualizzare lo stato del database, le sessioni attive medie, gli allarmi, l'uso della CPU, l'uso dello storage, la diagnostica della flotta e il tuning.
- Implementa un approccio approfondito alla difesa per proteggere il ciclo di vita dell'applicazione
Pianifica per proteggere i tuoi dati. Tieni traccia di tutti i job che inseriscono i dati e li estraggono dal data lake, conserva i metadati del lineage dei dati e garantisci l'aggiornamento dei criteri di controllo dell'accesso. Utilizza Data Catalog per gestire la governance.
Seguire il principio dei privilegi minimi e assicurarsi che gli utenti e gli account di servizio dispongano solo del privilegio minimo necessario per eseguire i propri task. Controlla gli utenti che hanno accesso ai componenti della piattaforma dati utilizzando Oracle Cloud Infrastructure Identity and Access Management. Utilizzare l'autenticazione con più fattori in Oracle Cloud Infrastructure Identity and Access Management per applicare l'autenticazione sicura per gli amministratori. Memorizzare informazioni riservate quali password e token di autenticazione nel servizio Oracle Cloud Infrastructure Vault.
Per il servizio Big Data, configurare solo le regole di sicurezza necessarie per controllare la rete e utilizzare Apache Ranger per gestire la sicurezza dei dati nel cluster Hadoop. Utilizza Oracle Data Safe per salvaguardare i tuoi dati in Autonomous Data Warehouse. Utilizzare password sicure per i database. Crea risorse di database in subnet private e utilizza gruppi di sicurezza o liste di sicurezza della rete cloud virtuale (VCN) per applicare il controllo dell'accesso di rete alle istanze di database. Concedere al database le autorizzazioni di eliminazione per un numero minimo possibile di utenti e gruppi di Oracle Cloud Infrastructure Identity and Access Management.
Per proteggere le origini dati da qualsiasi vulnerabilità della sicurezza, fornire le credenziali per gli account di sola lettura solo per i servizi Data Catalog e Integrazione dati.
Architettura

Descrizione dell'illustrazione big-data-and-analytics.png
Questa architettura utilizza le origini dati indicate di seguito.
- Applicazioni enterprise
- Dispositivi
- Utente finale
- Eventi
- Sensori
- Qualsiasi asset digitale
Questa architettura dispone dei componenti riportati di seguito all'interno della VCN.
- Rete cloud virtuale (VCN, Virtual Cloud Network)
Una VCN è una rete personalizzabile e definita dal software impostata dall'utente in un'area Oracle Cloud Infrastructure. Come le reti di data center tradizionali, le VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. È possibile segmentare una VCN in subnet, che può essere definita in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono con le altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.
- Integrazione dei dati
Oracle Cloud Infrastructure Data Integration è un servizio cloud completamente gestito e serverless che ingerisce e trasforma i dati per la data science e l'analitica. Aiuta a semplificare ETL e ELT complessi in data lake e warehouse con il moderno progettista di flussi di dati no-code di Oracle. È possibile utilizzare uno degli operatori pronti per l'uso, ad esempio un join, un aggregato o un'espressione per modellare i dati.
- Streaming
Il servizio Oracle Cloud Infrastructure Streaming offre una soluzione completamente gestita, scalabile e duratura per l'inclusione e il consumo di flussi di dati ad alto volume in tempo reale. Utilizza lo streaming per qualsiasi caso d'uso in cui i dati vengono prodotti ed elaborati in modo continuo e sequenziale in un modello di messaggistica di pubblicazione/sottoscrizione. Ad esempio, ingestione di messaggi, metriche e log, ingestione di dati di attività Web o mobile e elaborazione di eventi di infrastruttura e applicazioni.
- Oracle Big Data Service
Oracle Big Data Service è un servizio cloud completamente gestito e automatizzato che fornisce cluster con un ambiente Hadoop. Il servizio Big Data semplifica la distribuzione di cluster Hadoop di tutte le dimensioni e semplifica il processo di creazione di cluster Hadoop sia ad alta disponibilità che sicuri.
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione che viene ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare né gestire alcun hardware o installare software. Oracle Cloud Infrastructure gestisce la creazione del database e il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.
- Memorizzazione degli oggetti
Lo storage degli oggetti consente un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati quali immagini e video. Puoi memorizzare e quindi recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. È possibile scalare perfettamente lo storage senza compromettere le prestazioni o l'affidabilità dei servizi. Utilizzare lo storage standard per lo storage "hot" necessario per accedere rapidamente, immediatamente e di frequente. Utilizzare lo storage di archivio per lo storage "freddo" che si conserva per lunghi periodi di tempo e raramente o raramente si accede.
- Flusso di dati
Oracle Cloud Infrastructure Data Flow è una piattaforma di analitica Spark a livello PaaS completamente gestita che consente di creare, modificare ed eseguire job Spark su qualsiasi scala senza necessità di cluster, team operativo o knowledge Spark altamente specializzati. In quanto serverless, non esiste alcuna infrastruttura da distribuire o gestire. Si basa interamente sulle API REST e ti consente di integrare con facilità applicazioni o flussi di lavoro.
- Oracle Analytics Cloud
Questa piattaforma avanzata per analisi dei dati moderne nel cloud offre ai consumatori e agli analisti aziendali. Oracle Analytics Cloud offre moderne funzionalità di analitica self-service basate sull'intelligenza artificiale per la preparazione, il discovery e la visualizzazione dei dati, la reportistica intelligente a livello aziendale e su richiesta, oltre ad analisi migliorata, nonché l'elaborazione e la generazione del linguaggio naturale. Oracle Analytics Cloud può aiutarti a trasformare i dati in insight, indipendentemente dal tuo business analyst, data engineer, data scientist, manager dipartimentale, esperto di dominio o executive.
- Analytics, ML e applicazioni personalizzate
Servizi di analitica, Oracle Machine Learning e applicazioni personalizzate che catalogeranno, prepareranno, elaboreranno e analizzeranno i Big Data.
- Data Catalog
Oracle Cloud Infrastructure Data Catalog è una soluzione di ricerca automatica e gestione del controllo dei dati della tua azienda completamente gestita e self-service. Fornisce ai tecnici dei dati, ai data scientist, agli steward dati e ai responsabili dei dati un unico ambiente di collaborazione per gestire i metadati tecnici, aziendali e operativi dell'organizzazione.
Con questo modello di architettura puoi gestire tutti i tipi di dati non strutturati, semistrutturati e non strutturati con un modello moderno per data lake. Includere tutti i tipi di dati in un data lake basato sullo storage degli oggetti utilizzando i servizi Integrazione dei dati e Streaming. Utilizzare Oracle Cloud Infrastructure Data Flow e Oracle Big Data Service per l'elaborazione, utilizzare Oracle Cloud Infrastructure Data Catalog per la catalogazione, utilizzare Oracle Autonomous Data Warehouse come negozio di servizi e utilizzare Oracle Analytics Cloud per l'analitica e la business intelligence.
Il processo riportato di seguito descrive il flusso mostrato nel diagramma.
- Integrazione dei dati di Oracle Cloud Infrastructure e Oracle Cloud Infrastructure Streaming dei dati di inclusione da diversi tipi di origini. Il servizio utilizzato dipende dal fatto che i dati siano in batch, in streaming o in record di database sincronizzati e se i dati siano on premise o nel cloud.
- È possibile distribuire i dati nello storage degli oggetti per l'accesso condiviso da parte dei servizi cloud e per l'elaborazione prima che vengano memorizzati in Oracle Autonomous Data Warehouse o in Big Data Service.
- I dati possono anche essere consegnati direttamente a Oracle Autonomous Data Warehouse e poi trasformati utilizzando funzionalità ELT o record di altri database possono essere direttamente inclusi. I dati possono essere forniti direttamente on-premise al servizio Big Data.
- Oracle Autonomous Data Warehouse può eseguire query sui dati dallo storage degli oggetti o includere dati dallo storage degli oggetti tramite un'interfaccia API o con l'aiuto di Integrazione dei dati. Il servizio Big Data può includere dati provenienti da o eseguire query sui dati nello storage degli oggetti.
- Oracle Analytics Cloud può accedere ai dati in Oracle Autonomous Data Warehouse per qualsiasi funzionalità di visualizzazione e analisi dei dati aziendali fornita dal servizio.
- Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da origini dati Hive di Oracle Autonomous Data Warehouse, Object Storage e Big Data Service. È possibile interagire con Data Catalog per raccogliere, trovare e gestire i dati.
- Puoi implementare qualsiasi applicazione personalizzata per i carichi di lavoro di analytics e machine learning utilizzando i dati di Oracle Autonomous Data Warehouse, Big Data Service e storage degli oggetti.
- Gli analisti aziendali possono utilizzare Oracle Analytics Cloud per utilizzare i dati di Oracle Autonomous Data Warehouse e Big Data Service.
- I data scientist possono utilizzare Oracle Machine Learning Notebooks in Oracle Autonomous Data Warehouse e Oracle Machine Learning per Spark in Oracle Big Data Service per formare i modelli di machine learning e lavorare con i dati spaziali e grafici.
Architetture alternative
Prendere in considerazione le alternative all'architettura descritta in questo pattern.
Utilizza un singolo database o data warehouse per memorizzare e analizzare tutti i tipi di dati. In questa architettura alternativa, diverse origini dati (utenti finali, dispositivi, eventi, sensori e applicazioni) forniscono dati al database attraverso l'integrazione dei dati (Oracle GoldenGate) e le code degli eventi transazionali Oracle per lo streaming dei dati. I dati vengono memorizzati in Oracle Autonomous Database (Oracle Autonomous Transaction Processing e Oracle Autonomous Data Warehouse) insieme al supporto dell'area di memorizzazione degli oggetti per i big data mediante Cloud SQL. Utilizza Oracle Machine Learning per la creazione e la distribuzione di modelli e utilizza Oracle Analytics Cloud e Oracle Data Cloud per ottenere informazioni dettagliate sui dati.
Il diagramma riportato di seguito illustra questa architettura alternativa.

Descrizione dell'illustrazione alt-architecture-big-data.png
Questa architettura utilizza le origini dati indicate di seguito.
- Applicazioni enterprise
- Dispositivi
- Utente finale
- Eventi
- Sensori
- Qualsiasi asset digitale
Questa architettura dispone dei componenti riportati di seguito all'interno della VCN.
- Rete cloud virtuale (VCN, Virtual Cloud Network)
Una VCN è una rete personalizzabile e definita dal software impostata dall'utente in un'area Oracle Cloud Infrastructure. Come le reti di data center tradizionali, le VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. È possibile segmentare una VCN in subnet, che può essere definita in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono con le altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.
- Integrazione dei dati
Oracle Cloud Infrastructure Data Integration è un servizio cloud completamente gestito e serverless che ingerisce e trasforma i dati per la data science e l'analitica. Aiuta a semplificare ETL e ELT complessi in data lake e warehouse con il moderno progettista di flussi di dati no-code di Oracle. È possibile utilizzare uno degli operatori pronti per l'uso, ad esempio un join, un aggregato o un'espressione per modellare i dati.
- Oracle Cloud Infrastructure Transactional Event Queues (TEQ) in ADB
Le code degli eventi transazionali Oracle in un database autonomo forniscono funzionalità di accodamento dei messaggi integrate nel database. Questa implementazione altamente ottimizzata e partizionata si avvale delle funzioni del database Oracle in modo che produttori e consumatori possano scambiare messaggi con throughput elevato, memorizzando i messaggi in modo persistente e propagando i messaggi tra le code in database diversi. Le code degli eventi transazionali Oracle sono un'implementazione partizionata ad alte prestazioni con più flussi di eventi per coda
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione che viene ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare né gestire alcun hardware o installare software. Oracle Cloud Infrastructure gestisce la creazione del database e il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.
Questo servizio di data warehouse nel cloud elimina tutte le complessità legate alla gestione di un data warehouse, alla protezione dei dati e allo sviluppo di applicazioni basate sui dati. Automatizza provisioning, configurazione, protezione, ottimizzazione, scalabilità e backup del data warehouse. Include strumenti per il caricamento dei dati self-service, le trasformazioni dei dati, i modelli aziendali, gli insight automatici e le funzionalità integrate di database convergente che consentono query più semplici su più tipi di dati e analisi del machine learning.
- Memorizzazione degli oggetti
Lo storage degli oggetti consente un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati quali immagini e video. Puoi memorizzare e quindi recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. È possibile scalare perfettamente lo storage senza compromettere le prestazioni o l'affidabilità dei servizi. Utilizzare lo storage standard per lo storage "hot" necessario per accedere rapidamente, immediatamente e di frequente. Utilizzare lo storage di archivio per lo storage "freddo" che si conserva per lunghi periodi di tempo e raramente o raramente si accede.
Questa piattaforma di storage su scala Internet ad alte prestazioni offre una durabilità dei dati affidabile ed economica. Il servizio di storage degli oggetti può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici e i contenuti avanzati, ad esempio immagini e video.
- Autonomous Database
I database autonomi Oracle Cloud Infrastructure sono ambienti di database completamente gestiti e preconfigurati che è possibile utilizzare per carichi di lavoro di elaborazione delle transazioni e di data warehousing. Non è necessario configurare né gestire alcun hardware o installare software. Oracle Cloud Infrastructure gestisce la creazione del database e il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.
- Oracle Machine Learning in un database autonomo
Oracle Machine Learning in Oracle Autonomous Database (Autonomous Transaction Processing e Autonomous Data Warehouse).
- Oracle Analytics Cloud
Questa piattaforma avanzata per analisi dei dati moderne nel cloud offre ai consumatori e agli analisti aziendali. Oracle Analytics Cloud offre moderne funzionalità di analitica self-service basate sull'intelligenza artificiale per la preparazione, il discovery e la visualizzazione dei dati, la reportistica intelligente a livello aziendale e su richiesta, oltre ad analisi migliorata, nonché l'elaborazione e la generazione del linguaggio naturale. Che si tratti di un business analyst, data engineer, data scientist, manager dipartimentale, esperto di dominio o executive, Oracle Analytics Cloud può aiutarti a trasformare i dati in insight.
- Analytics, ML e applicazioni personalizzate
Servizi di analitica, Oracle Machine Learning e applicazioni personalizzate che catalogeranno, prepareranno, elaboreranno e analizzeranno i Big Data.
- Data Catalog
Oracle Cloud Infrastructure Data Catalog è una soluzione di ricerca automatica e gestione del controllo dei dati della tua azienda completamente gestita e self-service. Fornisce ai tecnici dei dati, ai data scientist, agli steward dati e ai responsabili dei dati un unico ambiente di collaborazione per gestire i metadati tecnici, aziendali e operativi dell'organizzazione.
Oracle Cloud Infrastructure Data Catalog è un servizio di gestione dei metadati che consente ai professionisti dei dati di trovare i dati e supportare la gestione del controllo dei dati.
- Oracle GoldenGate
Questo servizio completamente gestito offre una piattaforma di acquisizione dei dati di modifica (CDC) e replica in tempo reale basata sui log per soddisfare le esigenze delle attuali applicazioni basate sulle transazioni. Il software offre l'acquisizione, il routing, la trasformazione e la distribuzione di dati transazionali in ambienti eterogenei in tempo reale.
Un'alternativa consiste nel creare ed eseguire piattaforme open source personalizzate su Oracle Cloud Infrastructure Compute. Tuttavia, questa opzione può determinare un valore OpEx elevato.
Considerazioni e antipattern
Prendere in considerazione quanto segue per i big data e l'analisi.
- Riduci le copie e gli spostamenti dei dati
Lo spostamento dei dati è costoso, consuma risorse e tempo e può ridurre la fedeltà dei dati. Scegli il servizio giusto per memorizzare ed elaborare i tuoi dati, in base ai tipi di dati, alla qualità dei dati e alle trasformazioni richieste. Utilizza lo storage degli oggetti per lo storage data lake in tutti i tipi di dati grezzi. Utilizzare Oracle Big Data Service per utilizzare gli strumenti dell'ecosistema HDFS e Hadoop. Utilizzare Oracle Autonomous Data Warehouse per memorizzare i dati trasformati per la presentazione. L'utilizzo dello store di destra consente di evitare la copia e lo spostamento dei dati e riduce copie duplicate dei dati, che possono essere difficili da gestire e da mantenere sincronizzate.
- Offri agli utenti l'interfaccia dati di cui hanno bisogno
Le piattaforme di analisi e dati aziendali hanno diversi tipi di utenti: ingegneri dei dati, analisti dei dati, sviluppatori di applicazioni, ingegneri dei big data, amministratori del database, analisti aziendali, data scientist, steward dati e altri consumatori. Tutti hanno esigenze e preferenze diverse per il consumo dei dati. È importante comprendere tutti i casi d'uso e i requisiti dei consumatori di dati. Per gli strumenti dell'ecosistema Hadoop, utilizzare i Big Data. Per le query SQL e l'interfaccia con strumenti di business intelligence, utilizzare Autonomous Data Warehouse. Per le applicazioni Spark, utilizzare il servizio Oracle Cloud Infrastructure Data Flow.
- Catalogo dei dati e definizione di un vocabolario comune
I dati nelle aziende sono in genere un asset condiviso tra più team. Utilizza Data Catalog per raccogliere i metadati dalle origini dati in OCI e on premise per creare un inventario degli asset di dati. In questo modo, i consumatori di dati possono facilmente trovare i dati di cui hanno bisogno per l'analitica. Utilizzare il Catalogo dati per creare e gestire i glossari aziendali con categorie, sottocategorie e condizioni aziendali per creare una tassonomia di concetti aziendali con tag aggiunti dall'utente per aumentare la produttività della ricerca.
- Garanzia di costi e prestazioni adeguate
I costi delle piattaforme di dati e di analisi possono aumentare rapidamente a meno che le piattaforme non siano progettate e gestite correttamente. Tutti i dati prevedono requisiti specifici in termini di latenza e throughput. Ridimensiona gli ambienti utilizzando la forma di computazione più piccola e la minore quantità di storage nel servizio che soddisfa ancora i tuoi requisiti in termini di prestazioni. Arrestare eventuali risorse non utilizzate. Utilizzare il flusso di dati per le applicazioni Spark in quanto è possibile scegliere il numero di memorie centrali da utilizzare per la propria attività lavorativa, in modo da ottenere le prestazioni necessarie riducendo al contempo i costi. Per Autonomous Data Warehouse, ridimensiona il numero di memorie centrali CPU o la capacità di storage del database in base alle tue esigenze. Inoltre, utilizza la funzione di ridimensionamento automatico che consente al database di utilizzare automaticamente fino a tre volte il numero di memorie centrali CPU corrente in qualsiasi momento e riduce automaticamente il numero di memorie centrali quando non viene richiesto.
Antipattern
Durante la progettazione di un'implementazione, tenere presente quanto riportato di seguito.
- La mancanza di cataloghi e governance dei dati può convertire i data lake in campioni di dati.
- La memorizzazione dei dati del data lake nei volumi a blocchi invece dello storage degli oggetti porta a una soluzione più economica.
Pattern di Big Data e analitica
Questo pattern di architettura fornisce linee guida su come utilizzare i servizi di analitica e dati di Oracle Cloud Infrastructure (OCI) per includere, memorizzare, catalogare, preparare, elaborare e analizzare i Big Data per implementare diversi casi d'uso.
Questi casi d'uso includono data warehousing; analytics, business intelligence e reporting; modelli di estrazione, trasformazione e caricamento (ETL) ed estrazione, caricamento e trasformazione (ELT), pattern di case data lake e lago e modelli di machine learning per la formazione.
Il diagramma riportato di seguito mostra i servizi Oracle correlati ai dati e all'analitica.

Descrizione dell'illustrazione big-data-and-analytics-pattern.png
- Utilizza Oracle Autonomous Data Warehouse per scrivere query SQL per i dati strutturati e su tabelle esterne di dati non strutturati e semistrutturati.
- Utilizza Oracle Big Data Service per utilizzare gli strumenti dell'ecosistema Apache Hadoop, ad esempio Hive, Spark, Kafka e HBase per includere, memorizzare ed elaborare tutti i tipi di dati non strutturati e semistrutturati.
- Utilizza Oracle Cloud Infrastructure Object Storage per memorizzare i big data e creare data lake in tutti i tipi di dati.
- Utilizzare Oracle Cloud Infrastructure Data Flow per i job nativi Apache Spark.
- Utilizza l'integrazione dei dati di Oracle Cloud Infrastructure per includere dati di varie origini dati insieme alla semplificazione dell'elaborazione ETL (Extract, Transform, Load; estrazione, caricamento e trasformazione).
- Utilizza il Catalogo dati di Oracle Cloud Infrastructure per raccogliere i metadati da varie origini dati per creare un inventario di asset, un glossario aziendale e un metastore comune per i data lake.
- Utilizzare la funzionalità di streaming per importare flussi di dati in tempo reale con interfacce API compatibili con Kafka.
Casi d'uso di esempio
Di seguito sono riportate alcune implementazioni di esempio che utilizzano i servizi di analitica e dati di Oracle Cloud Infrastructure (OCI) per includere, memorizzare, catalogare, preparare, elaborare e analizzare i Big Data.
- Data warehousing e business analytics
Utilizza Oracle Autonomous Data Warehouse come data warehouse o data mart con Oracle Analytics Cloud.
- L'integrazione dei dati include dati provenienti da origini previste. Il tipo di integrazione dati utilizzato dipende dal fatto che i dati siano batch, di streaming o di record di database sincronizzati e dal fatto che i dati siano on premise o nel cloud.
- È possibile distribuire i dati nello storage degli oggetti per l'accesso condiviso da parte dei servizi cloud e per l'elaborazione prima che vengano memorizzati in Autonomous Data Warehouse o nei Big Data. I dati possono anche essere consegnati direttamente a Autonomous Data Warehouse e poi trasformati tramite funzionalità ELT o record di altri database possono essere inclusi direttamente.
- Oracle Analytics Cloud fornisce la visualizzazione dei dati nel database, inclusi i risultati del machine learning. Oracle Analytics Cloud consente di eseguire il push del maggior numero possibile di elaborazioni in Autonomous Data Warehouse per l'elaborazione del flusso di dati.
- Lo storage degli oggetti è facoltativo per la condivisione attiva di archivi o dati. Un archivio attivo è dove i dati meno utilizzati vengono spostati da ADW a un livello di storage a costi inferiori (Storage degli oggetti). È comunque possibile eseguire query sui dati dallo storage degli oggetti, ma le prestazioni risultano più lente. Lo storage degli oggetti può essere utilizzato anche per memorizzare i dati condivisi tra i servizi cloud.
- Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da Autonomous Data Warehouse e dalle origini dati di storage degli oggetti. È possibile interagire con Data Catalog per utilizzare e gestire il catalogo.
- Gestisci tutti i tipi di dati con un data lake e un data warehouse per un modello in un lago
Gestisci i dati sia in Autonomous Data Warehouse che nei Big Data e utilizza Oracle Analytics Cloud per la visualizzazione dei dati.
- L'integrazione dei dati include dati provenienti da origini previste. Il tipo di integrazione dati utilizzato dipende dal fatto che i dati siano batch, di streaming o di record di database sincronizzati e dal fatto che i dati siano on premise o nel cloud.
- È possibile distribuire i dati nello storage degli oggetti per l'accesso condiviso da parte dei servizi cloud e per l'elaborazione prima che vengano memorizzati in Autonomous Data Warehouse o in Oracle Big Data Service. I dati possono essere consegnati direttamente a Autonomous Data Warehouse e quindi trasformati tramite funzionalità ELT o record di altri database possono essere inclusi direttamente. I dati possono essere forniti direttamente on-premise ai Big Data.
- Autonomous Data Warehouse può eseguire query sui dati dallo storage degli oggetti o includere dati dallo storage degli oggetti tramite un'interfaccia API o con l'aiuto di Oracle Cloud Infrastructure Data Integration. I Big Data possono includere dati o eseguire query nello storage degli oggetti.
- È possibile trasferire i dati da Big Data a Autonomous Data Warehouse utilizzando i connettori Big Data.
- Oracle Analytics Cloud è in grado di accedere ai dati da più origini, tra cui Autonomous Data Warehouse e Big Data, per offrire funzioni di analitica migliorata, visualizzazioni dei dati e analitica aziendale self-service.
- Gli analisti aziendali possono utilizzare Oracle Analytics Cloud per utilizzare i dati sia di Autonomous Data Warehouse che di Big Data.
- Data Catalog raccoglie i metadati da Autonomous Data Warehouse, dallo storage degli oggetti e dalle origini dati Hive Big Data. L'interazione con Data Catalog consente di raccogliere, trovare e gestire i dati.
- Crea un data lake con servizi cloud nativi OCI
Crea un data lake nello storage degli oggetti e utilizza i dati cloud nativi e i servizi AI per modernizzare e sfruttare le ultime innovazioni tecniche.
- Utilizzare il flusso di dati per i processi batch Spark e per i cluster Spark effimeri.
- Utilizzare lo storage degli oggetti con il connettore HDFS (Hadoop Distributed File System) come area di memorizzazione HDFS al posto di HDFS all'interno del cluster Apache Hadoop o Spark.
- Utilizza Oracle Cloud Infrastructure Data Integration per includere dati e job ETL.
- Utilizza il catalogo dati di Oracle Cloud Infrastructure per la ricerca automatica e la gestione del controllo dei dati.
- Usa Oracle Cloud Infrastructure Data Science per i requisiti di machine learning.
- Utilizza Oracle Cloud Infrastructure Streaming per l'inclusione gestita dei flussi e utilizza Data Integration per un servizio di integrazione gestito. Questi servizi potrebbero sostituire il Kafka o Flume autogestito.
- Per il resto dei componenti nello stack per cui non è facile utilizzare un servizio nativo OCI gestito, utilizza il servizio Oracle Cloud Infrastructure Compute e storage.
- Creare un data lake basato su HDFS utilizzando Oracle Big Data Service
Utilizzare Oracle Big Data Service per creare un data lake in HDFS. Tutti i componenti di Apache Hadoop, inclusi Hive, HBase, Spark e Oozie, vengono resi disponibili dai cluster Hadoop gestiti forniti da Oracle Big Data Service e possono essere utilizzati in base alle esigenze. Usa i servizi cloud nativi gestiti dove possibile.
- Utilizzare i Big Data per HDFS e altri componenti Hadoop, inclusi Hive, HBase e Oozie.
- Utilizzato il flusso di dati per i processi batch Spark e per i cluster Spark effimeri per ridurre la dimensione del cluster Big Data, se possibile.
- Utilizzare Data Catalog per la ricerca automatica e la gestione del controllo dei dati.
- Usa Data Science per i requisiti di machine learning.
- Laboratorio di dati con Oracle Big Data Service
Esplorare e sperimentare i dati. Oracle Big Data Service fornisce gli strumenti core di gestione dei dati e di data science in questo caso d'uso.
- Oracle Analytics Cloud offre funzionalità aggiuntive per visualizzare i dati utili per comprendere sia i dati di origine che i risultati di apprendimento automatico.
- Lo storage degli oggetti offre storage aggiuntivo a costi contenuti per la condivisione dei dati con altri servizi cloud e per la persistenza dei dati in Oracle Big Data quando il data lab viene sospeso.
- L'integrazione dei dati può essere aggiunta per includere i dati nello storage degli oggetti, se necessario.
- Data Catalog raccoglie i metadati dallo storage degli oggetti e da Big Data Hive. Si interagisce con Data Catalog per utilizzare e gestire il catalogo.
- I data scientist utilizzano Oracle Machine Learning per Spark in Oracle Big Data per creare modelli di machine learning.
- Ricerca automatica e gestione del controllo dei dati self-service con Oracle Cloud Infrastructure Data Catalog
Data Catalog raccoglie i metadati di diversi tipi di origini dati per creare un catalogo di entità dati e i relativi attributi. Gli analisti aziendali, i data scientist, i tecnici dei dati e gli steward dati possono cercare il catalogo e creare un glossario aziendale per gli attributi.
- Elaborazione Spark con Oracle Cloud Infrastructure Data Flow
I job Spark vengono sottomessi a Data Flow. Quando il job viene eseguito, i dati vengono letti dallo storage degli oggetti ed elaborati in base al codice del job e il risultato viene scritto di nuovo nello storage degli oggetti. Altri servizi possono recuperare i risultati dallo storage degli oggetti in base alle esigenze.
- Modelli di machine learning di formazione direttamente in Oracle Autonomous Data Warehouse e Oracle Big Data Service
Per ulteriori informazioni sui modelli di machine learning basati su Data Science, consulta il modello di machine learning basato su data science utilizzando Oracle Cloud Infrastructure Data Science. L'obiettivo di questo caso d'uso è gestire i dati in Oracle Autonomous Data Warehouse e Oracle Big Data Service. Oracle Analytics Cloud fornisce la visualizzazione dei dati, inclusi i risultati del machine learning. Le funzionalità sono limitate alle funzionalità di Oracle Machine Learning.
-
Oracle Cloud Infrastructure Data Integration ingloba i dati dalle origini previste. Il tipo di integrazione dati utilizzato dipende dal fatto che i dati siano batch, di streaming o di record di database sincronizzati e dal fatto che i dati siano on premise o nel cloud.
- È possibile distribuire i dati nello storage degli oggetti per l'accesso condiviso da parte dei servizi cloud e per l'elaborazione prima che vengano memorizzati in Oracle Autonomous Data Warehouse o in Oracle Big Data Service. I dati possono essere consegnati direttamente a Oracle Autonomous Data Warehouse e poi trasformati tramite funzionalità ELT o record di altri database possono essere inclusi direttamente. È possibile distribuire i dati anche direttamente su Oracle Big Data Service.
- Oracle Autonomous Data Warehouse può eseguire query sui dati dallo storage degli oggetti o includere dati dallo storage degli oggetti tramite un'interfaccia API o con l'aiuto dell'integrazione dei dati. Oracle Big Data Service può importare dati da o eseguire query sui dati nello storage degli oggetti.
- I dati possono essere trasferiti da Oracle Big Data Service a Oracle Autonomous Data Warehouse utilizzando i connettori Big Data.
- Oracle Analytics Cloud può accedere ai dati da più origini, tra cui Oracle Autonomous Data Warehouse e Oracle Big Data Service, per fornire funzioni di analitica migliorata, visualizzazioni dei dati e analitica aziendale self-service.
- Gli analisti aziendali e i data scientist possono utilizzare Oracle Analytics Cloud per utilizzare i dati di Oracle Autonomous Data Warehouse e Oracle Big Data Service.
- I data scientist possono utilizzare Oracle Machine Learning Notebooks in Oracle Autonomous Data Warehouse per creare modelli di machine learning e lavorare con i dati spaziali. Possono inoltre utilizzare Oracle Machine Learning per Spark nei Big Data per creare modelli di machine learning e per gestire dati spaziali e grafici.
- Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da Oracle Autonomous Data Warehouse, Big Data Hive e origini dati di storage degli oggetti. È possibile interagire con Data Catalog per utilizzare e gestire il catalogo.
-