Piattaforma dati - Data Lakehouse
Puoi raccogliere e analizzare in modo efficace i dati degli eventi e i dati in streaming da Internet of things (IoT) e da fonti di social media, ma come fai a correlarli con l'ampia gamma di risorse di dati aziendali per sfruttare il tuo investimento e ottenere gli insight che desideri?
Sfrutta un data lakehouse cloud che combina le capacità di un data lake e di un data warehouse per elaborare una vasta gamma di dati aziendali e in streaming per l'analisi aziendale e il machine learning.
Questa architettura di riferimento posiziona la soluzione tecnologica all'interno del contesto aziendale generale, dove gli intenti strategici guidano la creazione di risultati strategici misurabili. Questi risultati generano nuovi intenti strategici, offrendo miglioramenti aziendali continui e basati sui dati.
Un data lake consente a un'azienda di archiviare tutti i propri dati in un ambiente elastico e a costi contenuti, fornendo al contempo i servizi di elaborazione, persistenza e analisi necessari per scoprire nuovi insight aziendali. Un data lake memorizza e cura i dati strutturati e non strutturati e fornisce metodi per organizzare grandi volumi di dati altamente diversi da più fonti.
Un data warehouse consente di eseguire la trasformazione e la pulizia dei dati prima di eseguire il commit dei dati nel warehouse. Con un data lake, puoi importare rapidamente i dati e prepararli al volo quando le persone vi accedono. Un data lake supporta il reporting operativo e il monitoraggio aziendale che richiedono l'accesso immediato ai dati e l'analisi flessibile per capire cosa sta succedendo nell'azienda mentre sta accadendo.
Architettura funzionale
Puoi combinare le capacità di un data lake e di un data warehouse per fornire una moderna piattaforma di data lakehouse che elabora lo streaming e altri tipi di dati da un'ampia gamma di risorse di dati aziendali in modo da poter sfruttare i dati per l'analisi aziendale, il machine learning, i servizi di dati e i prodotti di dati.
Un'architettura data lakehouse combina le funzionalità sia del data lake che del data warehouse per aumentare l'efficienza operativa e fornire funzionalità avanzate che consentono di:
- Utilizzo trasparente di dati e informazioni senza la necessità di replicarli nel data lake e nel data warehouse
- Supporto di diversi tipi di dati in un'architettura multimodello e poliglotta avanzata
- Inserimento trasparente dei dati da qualsiasi consumatore mediante meccanismi di ingestione in blocco, streaming, batch, API (Application Programming Interface) e in tempo reale
- Estrazione dell'intelligenza continua dai dati utilizzando i servizi di intelligenza artificiale (AI), AI generativa e machine learning (ML)
- La capacità di infondere e fornire intelligence a qualsiasi consumatore di dati utilizzando API, interfaccia utente, streaming e meccanismi di integrazione
- Governance e sicurezza dei dati con filtro che sfrutta un modello di sicurezza zero-trust
- Possibilità di scollegare completamente le risorse di storage e computazione e di utilizzare solo le risorse necessarie in qualsiasi momento
- La possibilità di sfruttare più motori di calcolo, inclusi i motori open source, per elaborare gli stessi dati per casi d'uso diversi per ottenere la massima ricomposizione dei dati, liquidità e utilizzo
- Possibilità di memorizzare i dati utilizzando diversi formati di file aperti e tabelle nel data lake
- La possibilità di sfruttare i servizi nativi Oracle Cloud Infrastructure (OCI) gestiti da Oracle e che riducono il sovraccarico operativo
- Migliore economia del cloud con ridimensionamento automatico che regola l'infrastruttura delle risorse cloud in base alla domanda effettiva
- Modularità in modo che l'uso del servizio sia basato su casi d'uso
- Interoperabilità con qualsiasi sistema o cloud che aderisce a standard aperti
- Supporto per un set diversificato di casi d'uso, tra cui streaming, analytics, data science e machine learning
- Supporto per diversi approcci architettonici, da un lakehouse centralizzato a un data mesh decentralizzato
Il seguente diagramma illustra l'architettura funzionale.
lakehouse-funzionale-oracle.zip
L'architettura si concentra sulle seguenti divisioni logiche:
- Connetti, includi, trasforma
Si connette alle origini dati, acquisisce e perfeziona i dati per l'uso in ciascuno dei livelli di dati nell'architettura.
- Rendi persistente, cura, crea
Facilita l'accesso e la navigazione dei dati per mostrare la vista aziendale corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in semplici forme relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo layer contiene uno o più pool di dati, ovvero l'output di un processo analitico o i dati ottimizzati per un task analitico specifico.
- Analizza, impara, prevedi
Descrive la vista business logica dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un singolo livello di reporting da più origini federate.
L'architettura presenta i seguenti componenti funzionali:
- Inclusione batch
L'inclusione in batch è utile per i dati che non possono essere inclusi in tempo reale o che sono troppo costosi per adattarsi all'inclusione in tempo reale. È anche importante trasformare i dati in informazioni affidabili e affidabili che possono essere curate e persistenti per un consumo regolare. È possibile utilizzare i seguenti servizi insieme o in modo indipendente per ottenere un flusso di lavoro di integrazione e trasformazione dei dati altamente flessibile ed efficace.
-
Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. Gli utenti progettano i processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e senza codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione.
ETL (extract transform load) sfrutta l'elaborazione di scale-out completamente gestita su Spark e ELT (extract load transform) sfrutta le funzionalità di push-down SQL complete di Autonomous Data Warehouse per ridurre al minimo lo spostamento dei dati e migliorare il time-to-value per i dati appena inclusi.
Oracle Cloud Infrastructure Data Integration fornisce esplorazione interattiva e preparazione dei dati e aiuta i data engineer a proteggersi dalla deriva degli schemi definendo le regole per gestire le modifiche agli schemi.
-
Oracle Data Integrator offre l'integrazione dei dati in modo completo dalle operazioni di caricamento in batch ad alto volume e ad alte prestazioni e basato sugli eventi, ai processi di integrazione basati sugli eventi, ai servizi di dati abilitati per SOA. Un approccio alla progettazione dichiarativa garantisce uno sviluppo e una manutenzione più rapidi e semplici e fornisce un approccio unico per estrarre la trasformazione del carico (ELT) che aiuta a garantire il più alto livello di prestazioni possibile per i processi di trasformazione e convalida dei dati. Le trasformazioni dei dati Oracle utilizzano un'interfaccia Web per semplificare la configurazione e l'esecuzione di ELT e per aiutare gli utenti a creare e pianificare dati e flussi di lavoro utilizzando un approccio di progettazione dichiarativa.
-
Le trasformazioni dei dati Oracle abilitano ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous Data Warehouse (ADW) per caricare e trasformare i dati da diverse origini dati in un'istanza ADW.
A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere integrazione e trasformazione dei dati altamente flessibili e performanti.
-
- Inclusione basata su API
L'inclusione basata su API consente ad applicazioni e sistemi di eseguire il push dei dati degli eventi utilizzando API o webhook.
-
Oracle Integration è un ambiente completamente gestito e preconfigurato che ti consente di integrare applicazioni cloud e on-premise, automatizzare i processi aziendali e sviluppare applicazioni visive. Utilizza un file server conforme a SFTP per archiviare e recuperare i file e consente di scambiare documenti con i partner commerciali business-to-business utilizzando un portfolio di centinaia di adattatori e ricette per connettersi con le applicazioni Oracle e di terze parti.
-
Oracle Cloud Infrastructure API Gateway ti consente di pubblicare le API con endpoint privati accessibili dall'interno della tua rete e che, se necessario, puoi esporre alla rete Internet pubblica. Gli endpoint supportano la convalida delle API, la trasformazione delle richieste e delle risposte, il CORS, l'autenticazione e l'autorizzazione e la limitazione delle richieste.
OCI API Gateway consente l'osservabilità delle API per monitorare l'uso e garantire gli SLA. I piani di utilizzo possono essere utilizzati anche per monitorare e gestire i consumer e i client API e per impostare livelli di accesso API diversi per clienti diversi. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.
I piani di utilizzo supportano la monetizzazione dei dati creando piani di utilizzo a più livelli per gestire i consumatori e i clienti delle API e per tenere traccia dell'uso dei dati.
-
Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand e Functions-as-a-Service (FaaS). È alimentato dal motore open source Fn Project. Le funzioni consentono di distribuire il codice e di chiamarlo direttamente o di attivarlo in risposta agli eventi. Oracle Functions utilizza i container Docker ospitati in Oracle Cloud Infrastructure Registry.
-
Oracle REST Data Services (ORDS) è un'applicazione Java che consente a qualsiasi sviluppatore con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico senza installare e gestire i driver client nello stesso modo in cui accedono ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata.
ORDS viene distribuito come funzione completamente gestita in Oracle Autonomous Data Warehouse e può essere utilizzato per esporre le informazioni sul lakehouse utilizzando le API ai consumatori di dati.
-
-
Integrazione in tempo reale
Oracle Cloud Infrastructure GoldenGate è un servizio completamente gestito che consente l'inclusione dei dati da fonti che risiedono on-premise o in qualsiasi cloud. Si avvale della tecnologia CDC GoldenGate per un'acquisizione e una distribuzione dei dati non intrusive ed efficienti a Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage o Oracle Cloud Infrastructure Streaming in tempo reale e su larga scala per rendere disponibili ai consumatori le informazioni pertinenti il più rapidamente possibile.
- Trasferimento di massa
Il trasferimento in blocco consente di spostare grandi volumi di dati in batch utilizzando metodi diversi. Per i data lakehouse su larga scala, consigliamo i servizi Oracle Cloud Infrastructure FastConnect e di trasferimento dati.
-
Oracle Cloud Infrastructure FastConnect consente di creare facilmente una connessione dedicata e privata tra il data center e Oracle Cloud Infrastructure. FastConnect fornisce opzioni per una maggiore larghezza di banda e un'esperienza di rete più affidabile se confrontata con le connessioni basate su Internet.
- L'interfaccia a riga di comando (CLI) di Oracle Cloud Infrastructure (OCI) ti consente di eseguire e automatizzare il trasferimento dei dati da on-premise a OCI sfruttando il circuito privato Oracle Cloud Infrastructure FastConnect. Gli SDK OCI ti consentono di scrivere codice per copiare o sincronizzare dati e file da ambienti on-premise o da altri cloud in Oracle Cloud Infrastructure Object Storage, sfruttando una vasta gamma di linguaggi di programmazione come Python, Java o Go per citarne alcuni. Le API REST ti consentono di interfacciarti e controllare i servizi OCI, ad esempio lo spostamento dei dati nello storage degli oggetti mediante l'API del servizio di storage degli oggetti.
- Oracle Cloud Infrastructure Data Transfer è un servizio di migrazione dei dati offline che ti consente di spostare in modo sicuro i data set su scala petabyte dal tuo data center a Oracle Cloud Infrastructure Object Storage o Archive Storage. Usare la rete Internet pubblica per spostare i dati nel cloud non è sempre praticabile a causa degli elevati costi della rete, dell'inaffidabilità della connettività di rete, dei lunghi tempi di trasferimento e delle preoccupazioni per la sicurezza. Il servizio di trasferimento dati supera queste problematiche e può ridurre notevolmente il tempo necessario per la migrazione dei dati nel cloud. Il trasferimento dati è disponibile tramite disco o appliance. La scelta dell'una rispetto all'altra dipende principalmente dalla quantità di dati, con Data Transfer Appliance che supporta set di dati più grandi per ogni appliance.
-
- Inclusione streaming
L'inclusione nello streaming è supportata dall'utilizzo di servizi nativi OCI che consentono l'inclusione in tempo reale di data set su larga scala da un ampio set di produttori di dati. L'inclusione dello streaming persiste e sincronizza i dati nello storage degli oggetti, che è il cuore del data lakehouse. La sincronizzazione dei dati nello storage degli oggetti consente di conservare dati cronologici che possono essere curati e ulteriormente trasformati per estrarre insight preziosi.
-
Oracle Cloud Infrastructure Streaming offre una soluzione di storage completamente gestita, scalabile e durevole per l'inclusione di flussi di dati continui e a elevato volume che puoi utilizzare ed elaborare in tempo reale. Il servizio di streaming può essere utilizzato per la messaggistica, i log dell'applicazione a elevato volume, la telemetria operativa, i dati di click-stream Web o altri casi d'uso dei modelli di messaggistica di tipo pubblicazione/iscrizione in cui i dati vengono prodotti ed elaborati in modo continuo e sequenziale. I dati vengono sincronizzati con Oracle Cloud Infrastructure Object Storage e possono essere curati e ulteriormente trasformati per estrarre insight preziosi.
-
Oracle Cloud Infrastructure Queue è un servizio serverless completamente gestito che consente di scollegare i sistemi e abilitare operazioni asincrone. Queue gestisce dati transazionali ad alto volume che richiedono l'elaborazione di messaggi in modo indipendente senza perdite o duplicazioni.
-
Oracle Cloud Infrastructure Service Connector Hub è una piattaforma di bus di messaggi cloud che offre un unico pannello di controllo per descrivere, eseguire e monitorare lo spostamento dei dati tra i servizi in Oracle Cloud Infrastructure. Per questa particolare architettura di riferimento verrà utilizzata per spostare i dati da Oracle Cloud Infrastructure Streaming o OCI Queue in Oracle Cloud Infrastructure Object Storage per rendere persistenti i dati non elaborati e preparati nel livello di persistenza del data lakehouse.
-
-
Elaborazione dello streaming
L'elaborazione in streaming arricchisce i dati in streaming, rileva i pattern degli eventi e crea un set diverso di flussi che vengono resi persistenti nel data lakehouse.
-
Oracle Cloud Infrastructure GoldenGate Stream Analytics elabora e analizza informazioni su larga scala e in tempo reale utilizzando pattern di correlazione sofisticati, arricchimento dei dati e machine learning. Gli utenti possono esplorare i dati in tempo reale attraverso grafici, mappe, visualizzazioni e possono creare graficamente pipeline di streaming senza alcuna codifica manuale. Queste pipeline vengono eseguite in un servizio completamente gestito e scalabile per affrontare i casi d'uso critici in tempo reale delle aziende moderne.
-
Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che ti consente di eseguire le applicazioni Apache Spark e Spark Streaming senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire più rapidamente applicazioni basate su Big Data e AI, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operations. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorsa runtime predefinita.
-
- Ecosistema open source
Puoi utilizzare l'ecosistema Open Source:
- Per l'elaborazione in batch e in streaming utilizzando diversi motori open source popolari come Hadoop, Spark, Flink o Trino
- Con Oracle Cloud Infrastructure Streaming sia come produttore che come consumatore
- Con Oracle Cloud Infrastructure Object Storage, può sia rendere persistenti i dati che consumare i dati
Puoi utilizzare Oracle Cloud Infrastructure Object Storage come data lake per rendere persistenti i data set che desideri condividere tra i diversi servizi Oracle Cloud Infrastructure in momenti diversi.
Il servizio Big Data esegue il provisioning di cluster Hadoop, Spark o Flink completamente configurati, sicuri, ad alta disponibilità e dedicati, tra le altre tecnologie, su richiesta. Ridimensiona il cluster per adattarlo ai carichi di lavoro di Big Data e Analytics utilizzando una gamma di forme di computazione Oracle Cloud Infrastructure che supportano tutto, dai piccoli cluster di test e sviluppo ai grandi cluster di produzione. Adegua rapidamente le esigenze aziendali e ottimizza i costi sfruttando le configurazioni di ridimensionamento automatico in base alle metriche o alla pianificazione. Sfrutta i profili cluster per creare cluster ottimali per un carico di lavoro o una tecnologia specifici. - Elaborazione batch
L'elaborazione in batch trasforma i data set su larga scala memorizzati nel data lakehouse. L'elaborazione in batch sfrutta i servizi nativi di Oracle Cloud Infrastructure che si integrano perfettamente con Oracle Cloud Infrastructure Object Storage e ti consente di creare dati curati per casi d'uso come l'aggregazione e l'arricchimento dei dati, l'inclusione del data warehouse e l'apprendimento automatico e l'uso dei dati AI su larga scala.
-
Oracle Cloud Infrastructure Data Integration, descritto sopra, è un servizio cloud nativo serverless e completamente gestito che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage.
-
Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che ti consente di eseguire le applicazioni Apache Spark e Spark Streaming senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire più rapidamente applicazioni basate su Big Data e AI, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operations. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorsa runtime predefinita.
-
Oracle Data Transforms consente l'ELT (Extract-load-Transform) per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous Data Warehouse (ADW) per caricare e trasformare i dati da diverse origini dati in un'istanza ADW.
A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere un'elaborazione dei dati altamente flessibile e performante.
-
- Porzioni
Oracle Autonomous Data Warehouse è un servizio di database self-driving, self-securing, self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun componente hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione, il backup, l'applicazione di patch, l'upgrade e il tuning del database.
Dopo il provisioning, puoi ridimensionare il numero di memorie centrali CPU o la capacità di storage del database in qualsiasi momento senza influire sulla disponibilità o sulle prestazioni.
Oracle Autonomous Data Warehouse può anche virtualizzare i dati che risiedono nello storage degli oggetti come tabelle partizionate esterne e ibride in modo da poter unire e utilizzare i dati derivati da altre origini con i dati del warehouse. Puoi anche spostare i dati cronologici dal warehouse allo storage degli oggetti e quindi utilizzarli senza problemi utilizzando tabelle ibride partizionate.
Oracle Autonomous Data Warehouse può utilizzare i metadati raccolti in precedenza memorizzati nel Data Catalog per creare tabelle esterne e sincronizzare automaticamente gli aggiornamenti dei metadati nel Data Catalog con la definizione delle tabelle esterne per mantenere la coerenza, semplificare la gestione e ridurre gli sforzi.
I vettori sono supportati in Autonomous Database, in quanto è un database multi-modello che supporta diversi tipi di dati, ad esempio relazionale, JSON, spaziale e grafico. Il tipo di dati dei vettori consente di caricare e memorizzare incorporazioni di vettori e di creare indici vettoriali che possono quindi essere utilizzati per le applicazioni RAG (Rrieval Augmented Generation), il tutto in un'unica istanza cloud Autonomous Data Warehouse. Questa funzionalità multi-modello consente l'analisi dei dati utilizzando tutti i tipi di dati che possono essere uniti in un'unica query, riducendo la complessità e il rischio di avere database specializzati in silos per tipo di dati, garantendo al contempo maggiore sicurezza, affidabilità, scalabilità e facilità di analisi di tutti i dati.
Select AI, una funzione di Autonomous Database, consente di eseguire query sui dati utilizzando il linguaggio naturale, utilizzando LLM per convertire il testo di input dell'utente in Oracle SQL. Seleziona AI elabora il prompt del linguaggio naturale, integra il prompt con i metadati, quindi genera ed esegue una query SQL.
La condivisione dei dati, una funzione di Autonomous Database, consente di fornire e utilizzare in modo sicuro dati e metadati da altre parti che utilizzano Autonomous Database o una tecnologia conforme alla condivisione Delta. La condivisione dei dati semplifica l'utilizzo dei dati dai provider di condivisione, come viste che astraggono le tabelle condivise sottostanti. Inoltre, le condivisioni attive che consentono ai destinatari di utilizzare dati in tempo reale e aggiornati possono essere utilizzate quando sia il provider che il destinatario utilizzano Autonomous Database.
Le viste analitiche, una funzione di Autonomous Database, forniscono un modo rapido ed efficiente per creare query analitiche dei dati memorizzati nelle tabelle e nelle viste di database esistenti. Le viste analitiche organizzano i dati utilizzando un modello dimensionale. Consentono di aggiungere con facilità aggregazioni e calcoli ai data set e di presentare i dati nelle viste su cui è possibile eseguire query mediante istruzioni SQL relativamente semplici. Questa funzione consente di modellare semanticamente uno schema a stella o fiocco di neve direttamente in ADW, utilizzando i dati memorizzati internamente ed esternamente e consente il consumo del modello utilizzando SQL e qualsiasi consumer di dati conforme a SQL.
Inoltre, Autonomous Data Lake Accelerator, un componente di Autonomous Database, è in grado di utilizzare in modo semplice i dati di storage degli oggetti, ridimensionare l'elaborazione per fornire query rapide, ridimensionare automaticamente l'istanza di computazione del database quando necessario e ridurre l'impatto sul carico di lavoro del database isolando le query di storage degli oggetti dall'istanza di computazione del database.
- Memoria cloud
Oracle Cloud Infrastructure Object Storage è una piattaforma di storage su scala Internet ad alte prestazioni che offre una durabilità dei dati affidabile ed economica. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici. Puoi memorizzare o recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. Più interfacce di gestione ti consentono di iniziare facilmente in piccole dimensioni e scalare senza problemi, senza alcun deterioramento delle prestazioni o dell'affidabilità del servizio.
Oracle Cloud Infrastructure Object Storage può essere utilizzato anche come livello di cold storage per il data warehouse memorizzando i dati utilizzati raramente, quindi unendoli senza problemi con i dati più recenti utilizzando tabelle ibride in Oracle Autonomous Data Warehouse.
Il controllo dell'accesso granulare a livello di oggetto può essere applicato utilizzando i criteri IAM per gli oggetti, aumentando la sicurezza dei dati per gli accessi diretti al data lake.
- Visualizza e impara
Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre un set completo di funzionalità per esplorare ed eseguire l'analisi collaborativa per l'utente, il gruppo di lavoro e l'azienda. Supporta i data scientist alle prime armi, la formazione di analisti aziendali avanzati e l'esecuzione di modelli di machine learning (ML). I modelli di Machine Learning possono essere eseguiti sul servizio di analytics o direttamente su Oracle Autonomous Data Warehouse come modelli integrati OML per previsioni batch su larga scala che sfruttano la potenza di elaborazione, la scalabilità e l'elasticità dei servizi AI di warehouse e OCI, come Oracle Cloud Infrastructure Vision.
Oracle Analytics Cloud ti offre anche funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, facile scalabilità e applicazione di patch e gestione automatizzata del ciclo di vita.
-
Impara e prevedi
-
Data Science fornisce infrastruttura, tecnologie open source, librerie, pacchetti e strumenti di data science ai team di data science per creare, addestrare e gestire modelli di Machine Learning (ML) in Oracle Cloud Infrastructure. Lo spazio di lavoro collaborativo e basato su progetti offre un'esperienza utente coerente end-to-end e supporta il ciclo di vita dei modelli predittivi. Data Science consente ai data scientist e agli ingegneri del machine learning di scaricare e installare i pacchetti direttamente dal repository Anaconda senza costi aggiuntivi e consentendo loro di innovare sui propri progetti con un ecosistema di data science curato di librerie di machine learning.
La funzione Job di Data Science consente ai data scientist di definire ed eseguire task di Machine Learning ripetibili in un'infrastruttura completamente gestita.
La funzione di distribuzione del modello di Data Science consente ai data scientist di distribuire modelli addestrati come endpoint HTTP completamente gestiti in grado di fornire previsioni in tempo reale, infondendo l'intelligence in processi e applicazioni e consentendo all'azienda di reagire agli eventi pertinenti non appena si verificano.
-
Oracle Machine Learning offre potenti funzionalità di Machine Learning strettamente integrate in Autonomous Database, con il supporto per Python e AutoML. Supporta modelli che utilizzano algoritmi open source e scalabili nel database che riducono la preparazione e lo spostamento dei dati. AutoML aiuta i data scientist ad accelerare il time-to-value delle iniziative di Machine Learning dell'azienda utilizzando la selezione automatica degli algoritmi, il campionamento adattivo dei dati, la selezione automatica delle funzioni e l'ottimizzazione automatica del modello. Con i servizi Oracle Machine Learning disponibili in Oracle Autonomous Data Warehouse, non solo puoi gestire i modelli, ma puoi anche distribuire tali modelli come endpoint REST per democratizzare le previsioni in tempo reale all'interno dell'azienda, consentendo alle aziende di reagire agli eventi pertinenti non appena si verificano, ma dopo i fatti.
-
- Servizi AI e AI generativa
I servizi AI di Oracle Cloud Infrastructure forniscono una serie di servizi AI pronti all'uso che possono essere utilizzati per supportare una vasta gamma di casi d'uso dall'analisi del testo alla manutenzione predittiva. Questi servizi hanno modelli predefiniti e finemente ottimizzati che puoi integrare in pipeline di dati, analytics e applicazioni utilizzando le API.
-
Oracle Cloud Infrastructure Language esegue sofisticate analisi del testo e traduzioni su larga scala. Grazie a modelli pre-addestrati e personalizzati, gli sviluppatori possono elaborare testo non strutturato ed estrarre insight senza competenze di data science. Esegui analisi del sentiment, estrazione di frasi chiave, classificazione del testo, riconoscimento di entità denominate e rileva i dati PII nel testo. Personalizza i modelli per attività specifiche del dominio e traduci facilmente il testo in varie lingue. Oracle Cloud Infrastructure Language supporta anche la traduzione dei documenti e i job asincroni per l'elaborazione efficiente di carichi di lavoro di grandi volumi.
- Oracle Cloud Infrastructure Speech sfrutta la potenza del linguaggio parlato consentendoti di convertire facilmente i file multimediali contenenti il linguaggio umano in trascrizioni di testo altamente accurate. È possibile utilizzare OCI Speech per trascrivere le chiamate dell'assistenza clienti, automatizzare i sottotitoli e generare metadati per gli asset multimediali in modo da creare un archivio in cui è possibile eseguire ricerche. OCI Speech supporta i job di trascrizione in batch e in tempo reale.
-
OCI Vision esegue task di riconoscimento delle immagini e analisi video, ad esempio la classificazione delle immagini, il rilevamento di oggetti e facce ed l'estrazione di testo. Puoi sfruttare modelli pre-addestrati o creare facilmente modelli di visione personalizzati per scenari specifici del settore e del cliente. OCI Vision è un servizio cloud nativo multi-tenant completamente gestito che aiuta con tutte le attività comuni di visione del computer.
- Oracle Cloud Infrastructure Document Understanding esegue task di classificazione dei documenti e analisi dei documenti, come l'estrazione di testo, valori chiave e tabelle. Il servizio OCI Document Understanding è un servizio cloud nativo multi-tenant completamente gestito che supporta tutti i task comuni di analisi dei documenti.
- Oracle Cloud Infrastructure Generative AI è un'infrastruttura completamente gestita che fornisce un set di modelli di linguaggio di grandi dimensioni (LLM) all'avanguardia e personalizzabili che coprono una vasta gamma di casi d'uso, tra cui chat, generazione del testo, riepilogo e creazione di incorporazioni di testo. Utilizza il parco giochi per provare i modelli pre-addestrati pronti all'uso o creare e ospitare i tuoi modelli personalizzati ottimizzati basati sui tuoi dati su cluster AI dedicati.
-
- Data Enrichment
L'arricchimento dei dati può migliorare i dati utilizzati per addestrare i modelli di machine learning per ottenere risultati di previsione migliori e più accurati.
Oracle Cloud Infrastructure Data Labeling consente di creare e sfogliare i data set, visualizzare i record di dati (testo o immagini) e applicare etichette AI fini della creazione di modelli AI/ML. Il servizio fornisce inoltre interfacce utente interattive progettate per facilitare il processo di etichettatura. Dopo che i record sono stati etichettati, il data set può essere esportato come JSON delimitato da riga da utilizzare nello sviluppo di modelli AI/ML. - Cerca
Le funzionalità di ricerca possono essere utilizzate come funzione complementare per esporre i dati agli utenti finali che richiedono dati di analisi operativa preindicizzati e che pertanto sono serviti con bassa latenza.
Oracle Cloud Infrastructure Search with OpenSearch è un motore di ricerca full-text distribuito, completamente gestito e privo di manutenzione. OpenSearch ti consente di memorizzare, cercare e analizzare rapidamente grandi volumi di dati con tempi di risposta rapidi. Il servizio supporta le API OpenSearch open source e la visualizzazione dei dati dei dashboard OpenSearch. - Analitica streaming
L'analisi dei dati in streaming fornisce dashboard che forniscono analisi in tempo reale dei dati in streaming contestualizzati con dati curati e master memorizzati nel data lakehouse per rilevare pattern di interesse che possono poi servire a utenti, applicazioni e cose.
Oracle Cloud Infrastructure GoldenGate Stream Analytics elabora e analizza informazioni su larga scala e in tempo reale utilizzando sofisticati pattern di correlazione, arricchimento dei dati e machine learning. Gli utenti possono esplorare i dati in tempo reale attraverso grafici, mappe, visualizzazioni e creare graficamente pipeline di streaming senza alcuna codifica manuale. Queste pipeline vengono eseguite in un servizio completamente gestito e scalabile per affrontare i casi d'uso critici in tempo reale delle aziende moderne.
- Storna ETL/revoca
L'ETL inverso, a volte indicato come writeback, consente l'attivazione dei dati in sistemi e dispositivi operativi, consentendo di infondere l'intelligenza derivata dai dati direttamente nelle applicazioni e nei dispositivi utilizzati per supportare i processi aziendali.
I dati vengono forniti ai consumatori utilizzando diversi meccanismi, vale a dire tramite flussi e code che supportano un ampio set di consumatori che estraggono contemporaneamente informazioni quasi in tempo reale e vengono disaccoppiate da il sistema di streaming analytics per aumentare la resilienza e la scalabilità, tramite l'integrazione di applicazioni o dati per eseguire il push dei dati tramite adattatori predefiniti o tramite funzioni serverless per richiamare praticamente qualsiasi endpoint di applicazione o dispositivo.
-
Il servizio di streaming di Oracle Cloud Infrastructure offre una soluzione di storage completamente gestita, scalabile e duratura dedicata all'inclusione di flussi di dati continui e a elevato volume che puoi utilizzare ed elaborare in tempo reale. Il servizio di streaming può essere utilizzato per la messaggistica, i log dell'applicazione a elevato volume, la telemetria operativa, i dati di click-stream Web o altri casi d'uso dei modelli di messaggistica di tipo pubblicazione/iscrizione in cui i dati vengono prodotti ed elaborati in modo continuo e sequenziale.
-
Oracle Cloud Infrastructure Queue è un servizio serverless completamente gestito che consente di scollegare i sistemi e abilitare operazioni asincrone. Queue gestisce dati transazionali ad alto volume che richiedono l'elaborazione di messaggi in modo indipendente senza perdite o duplicazioni.
-
Oracle Integration Cloud è un ambiente completamente gestito e preconfigurato che consente di integrare applicazioni cloud e on-premise, automatizzare i processi aziendali, sviluppare applicazioni visive, utilizzare un file server conforme a SFTP per memorizzare e recuperare i file e scambiare documenti aziendali con un partner commerciale B2B utilizzando un portfolio di centinaia di adattatori e ricette per connettersi ad applicazioni Oracle e di terze parti.
-
Le trasformazioni dei dati Oracle abilitano ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous Data Warehouse (ADW) per caricare e trasformare i dati da diverse origini dati in un'istanza ADW.
-
Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand e functions-as-a-service. Si basa su Oracle Cloud Infrastructure di livello aziendale e si basa sul motore open source di Fn Project.
-
- API
Il livello API consente di infondere l'intelligence derivata da Data Science e Oracle Machine Learning in applicazioni, processi aziendali e cose per influenzarne e migliorarne il funzionamento e il funzionamento. Il livello API fornisce il consumo sicuro dei modelli distribuiti da Data Science agli endpoint REST di Oracle Machine Learning e la possibilità di gestire il sistema per garantire la disponibilità degli ambienti di runtime. È inoltre possibile utilizzare le funzioni per eseguire logiche aggiuntive in base alle esigenze.
-
Il gateway API di Oracle Cloud Infrastructure ti consente di pubblicare API con endpoint privati accessibili dall'interno della tua rete e che puoi esporre con indirizzi IP pubblici se vuoi che accettino il traffico Internet. Gli endpoint supportano la convalida delle API, la trasformazione delle richieste e delle risposte, il CORS, l'autenticazione e l'autorizzazione e la limitazione delle richieste. Consente l'osservabilità delle API per monitorare l'uso e garantire gli SLA. I piani di utilizzo possono essere utilizzati anche per monitorare e gestire i consumer API e i client API che accedono alle API e per impostare livelli di accesso diversi per clienti diversi al fine di tenere traccia dell'uso dei dati utilizzato mediante le API. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.
-
Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand e functions-as-a-service. Si basa su Oracle Cloud Infrastructure di livello aziendale e si basa sul motore open source di Fn Project.
-
Oracle REST Data Services (ORDS) è un'applicazione Java che consente agli sviluppatori con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico, senza installare e mantenere i driver client, nello stesso modo in cui accedono ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata. ORDS viene distribuito come funzione completamente gestita in ADW e può essere utilizzato per esporre le informazioni sul lakehouse utilizzando le API ai consumatori di dati.
-
- Gestione controllo dati
Oracle Cloud Infrastructure Data Catalog offre visibilità su dove risiedono gli asset tecnici come i metadati e i rispettivi attributi e offre la possibilità di gestire un glossario aziendale mappato a tali metadati tecnici. Data Catalog può anche servire i metadati in Oracle Autonomous Data Warehouse per facilitare la creazione di tabelle esterne nel data warehouse.
-
Sicurezza dei dati
La sicurezza dei dati è fondamentale per esplorare e utilizzare al massimo i dati del lakehouse. Sfruttando un modello di sicurezza zero-trust con funzionalità di difesa approfondita e RBAC e garantendo la conformità con la normativa più rigorosa, la sicurezza dei dati fornisce controlli di sicurezza preventivi, investigativi e correttivi per garantire che l'esfiltrazione e le violazioni dei dati siano prevenute.
-
Oracle Data Safe è un servizio Oracle Cloud completamente integrato incentrato sulla sicurezza dei dati. Fornisce un set completo e integrato di funzioni per la protezione dei dati riservati e regolamentati nei database Oracle Cloud, come Oracle Autonomous Data Warehouse. Le funzioni includono la valutazione della sicurezza, la valutazione degli utenti, la ricerca automatica dei dati, il mascheramento dei dati e l'audit delle attività.
-
Oracle Cloud Infrastructure Audit offre visibilità sulle attività correlate alle risorse e alle tenancy di Oracle Cloud Infrastructure (OCI). Gli eventi di log di audit possono essere utilizzati per gli audit di sicurezza per tenere traccia dell'uso e delle modifiche alle risorse OCI e per garantire la conformità a standard e normative.
-
Oracle Cloud Infrastructure Logging fornisce una singola interfaccia altamente scalabile e completamente gestita per tutti i log della tenancy, inclusi i log di audit. Utilizza OCI Logging per accedere ai log da tutte le risorse OCI in modo da poterli abilitare, gestire e cercare.
-
Oracle Cloud Infrastructure Vault è un servizio di gestione della cifratura che memorizza e gestisce le chiavi di cifratura e i segreti per accedere in modo sicuro alle risorse. Consente di utilizzare le chiavi gestite dal cliente per Oracle Autonomous Data Warehouse e la cifratura del data lake per una maggiore protezione dei dati in archivio. Abilita i segreti per memorizzare in modo sicuro i servizi e le credenziali utente per migliorare il livello di sicurezza e garantire che le credenziali non vengano compromesse e utilizzate in modo inappropriato.
-
Architettura fisica
L'architettura fisica per questo data lakehouse supporta quanto segue:
- I dati vengono inclusi in modo sicuro utilizzando micro batch, streaming, API e file da origini dati relazionali e non relazionali
- I dati vengono elaborati utilizzando una combinazione di Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
- I dati vengono memorizzati in Oracle Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage e sono organizzati in base alla loro qualità e valore
- Oracle Autonomous Data Warehouse offre servizi di dati su warehouse e lake in modo sicuro ai consumatori
- Oracle Analytics Cloud fa emergere i dati agli utenti business utilizzando le visualizzazioni
- Oracle Analytics Cloud viene esposto utilizzando Oracle Cloud Infrastructure Load Balancing protetto da Oracle Cloud Infrastructure Web Application Firewall (WAF) per fornire l'accesso utilizzando Internet
- Oracle Cloud Infrastructure Data Science viene utilizzato per creare, addestrare e distribuire modelli di machine learning (ML)
- Il gateway API di Oracle Cloud Infrastructure viene utilizzato per gestire le distribuzioni del modello ML di Data Science
- Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da Oracle Autonomous Data Warehouse e dallo storage degli oggetti
- Oracle Data Safe valuta i rischi per i dati, implementa e monitora i controlli di sicurezza, valuta la sicurezza degli utenti, monitora l'attività degli utenti e soddisfa i requisiti di conformità alla sicurezza dei dati
- Oracle Cloud Infrastructure Bastion viene utilizzato dagli amministratori per gestire le risorse di cloud privato
Il seguente diagramma illustra questa architettura di riferimento.
lakehouse-architettura-oracle.zip
Il design per l'architettura fisica:
- Utilizza 2 VCN, uno per l'hub e un altro per il carico di lavoro stesso
- La connettività on-premise sfrutta sia Oracle Cloud Infrastructure FastConnect che la VPN site-to-site per la ridondanza
- Tutto il traffico in entrata da on premise e da Internet viene prima instradato nella VCN hub e quindi nella VCN del carico di lavoro
- Tutti i dati sono sicuri in transito e archiviati
- I servizi vengono distribuiti con endpoint privati per aumentare il livello di sicurezza
- La VCN è suddivisa in diverse subnet private per aumentare il livello di sicurezza
- I dati del lake sono suddivisi in diversi bucket nello storage degli oggetti che sfruttano un'architettura medaglione
I potenziali miglioramenti del design non illustrati in questa distribuzione per motivi di semplicità includono:
- Sfruttare una zona di atterraggio completamente conforme al CIS
- Utilizza un firewall di rete per migliorare la postura generale della sicurezza ispezionando tutto il traffico e applicando i criteri
Suggerimenti
Utilizza i seguenti suggerimenti come punto di partenza per elaborare i dati in streaming e un'ampia gamma di risorse di dati aziendali per l'analisi aziendale e il machine learning.
Le vostre esigenze potrebbero differire dall'architettura descritta qui.
- Oracle Autonomous Data Warehouse
Questa architettura utilizza Oracle Autonomous Data Warehouse su un'infrastruttura condivisa.
- Abilita la scala automatica per fornire ai carichi di lavoro del database fino a tre volte la potenza di elaborazione.
- Prendi in considerazione l'utilizzo di Oracle Autonomous Data Warehouse su un'infrastruttura dedicata se desideri la funzionalità di database self-service all'interno di un ambiente cloud di database privato in esecuzione sul cloud pubblico.
- Valutare la possibilità di utilizzare la funzione delle tabelle partizionate ibride di Autonomous Data Warehouse per spostare le partizioni di dati in Oracle Cloud Infrastructure Object Storage e servirle agli utenti e alle applicazioni in modo trasparente. Si consiglia di utilizzare questa funzione per dati che non vengono spesso utilizzati e per i quali non sono necessarie le stesse prestazioni dei dati memorizzati in Autonomous Data Warehouse.
- Valutare la possibilità di utilizzare la funzione delle tabelle esterne per utilizzare i dati memorizzati in Oracle Cloud Infrastructure Object Storage in tempo reale senza doverli replicare in Autonomous Data Warehouse. Questa funzione si unisce in modo trasparente e trasparente ai data set curati all'esterno di Autonomous Data Warehouse, indipendentemente dal formato (parquet, avro, orc, json, csv e così via), con i dati che risiedono in Autonomous Data Warehouse.
- Prendi in considerazione l'utilizzo della funzione in-memory del database per migliorare in modo significativo le prestazioni per gli analytics in tempo reale e i carichi di lavoro misti. Carica i dati del lakehouse nella memoria che deve essere servita con bassa latenza e che risiede in tabelle interne, ibride o esterne ADW.
- Prendi in considerazione l'utilizzo di Autonomous Data Lake Accelerator quando utilizzi i dati di storage degli oggetti per offrire un'esperienza migliore e più rapida agli utenti che consumano e uniscono i dati tra il data warehouse e il data lake.
- Prendi in considerazione la possibilità di memorizzare incorporazioni di vettori in Autonomous Data Warehouse insieme ad altri tipi di dati come dati relazionali o dati JSON per semplificare l'ingegneria e l'analisi dei dati su tutti i dati e basare in modo efficiente gli agenti RAG utilizzando tutti i dati.
- Considera l'utilizzo di Select AI come acceleratore per creare SQL semplici e complesse che possono essere utilizzate in ingegneria dei dati, business intelligence, sviluppo di applicazioni o qualsiasi attività che richiede SQL per essere creata.
- Considera l'utilizzo di Select AI con applicazioni low code per semplificare ulteriormente il livello dell'applicazione.
- Valutare la possibilità di utilizzare le viste analitiche per modellare semanticamente lo schema di base DW star o snowflake direttamente in ADW in modo che i dati granulari vengano aggregati automaticamente senza doverli preaggregare, il modello semantico viene utilizzato utilizzando SQL in modo coerente con qualsiasi client conforme a SQL, incluso Oracle Analytics Cloud, garantendo fatti e KPI vengono serviti in modo coerente indipendentemente dal client e tutti i dati possono essere utilizzati sul modello semantico indipendentemente dal fatto che siano memorizzati in ADW o nello storage degli oggetti, rendendo questa funzione un livello di modellazione semantica perfetto per un'architettura lakehouse in cui fatti e dimensioni possono attraversare sia il DW che il Lake.
- Valutare la possibilità di utilizzare le chiavi gestite dal cliente che utilizzano il servizio Vault se è necessario un controllo completo delle chiavi di cifratura ADW a causa di criteri aziendali o normativi.
- Prendi in considerazione l'utilizzo di Database Vault in ADW per impedire agli utenti con privilegi non autorizzati di accedere ai dati riservati e impedire così l'esfiltrazione e le violazioni dei dati.
- Valutare la possibilità di utilizzare Autonomous Data Guard per supportare un piano di continuità aziendale mediante l'impostazione e la conservazione dei dati replicati su un'istanza di standby nella stessa area o in un'altra area.
- Prendi in considerazione l'uso del mascheramento dinamico dei dati con protezione dati sensibili per fornire agli utenti dati mascherati a seconda del loro ruolo e, di conseguenza, garantire un accesso ai dati appropriato senza la necessità di duplicazione dei dati e di mascheramento statico.
- Valutare la possibilità di utilizzare le copie ADW per creare rapidamente altri ambienti transitori o non transitori. Utilizzare le copie aggiornabili se l'ambiente di destinazione deve disporre di dati aggiornati. Utilizzare Oracle Data Safe per mascherare in modo statico i dati riservati nelle copie per una maggiore sicurezza.
- Prendi in considerazione l'utilizzo della condivisione dei dati come modo sicuro e semplice per utilizzare e fornire i dati, con altre istanze di Autonomous Database o con qualsiasi tecnologia conforme a Delta Sharing.
- Valutare la possibilità di utilizzare la condivisione dei dati in tempo reale tra le istanze di Autonomous Database per utilizzare e fornire i dati in tempo reale.
- Considera l'utilizzo della condivisione dei dati con versioni per condividere i dati con i consumatori. Ciò evita il costo dell'esecuzione di query sui dati, poiché i dati vengono elaborati dai consumatori e non dal fornitore.
- Valutare la possibilità di utilizzare gli URL di richiesta preautenticati per l'accesso ai dati in sola lettura e con limite di tempo su ADW per abilitare la condivisione di dati non sensibili per i casi d'uso in cui il consumatore non supporta la condivisione delta.
- Storage degli oggetti/data lake
Questa architettura utilizza Oracle Cloud Infrastructure Object Storage, uno storage cloud altamente scalabile e duraturo, come lo storage lake.
- Prendi in considerazione l'opportunità di organizzare il tuo lake in diversi set di bucket utilizzando un'architettura medaglione (bronzo, argento, oro) o altre logiche di partizionamento per separare i dati in base alla loro qualità e arricchimento, applicare la sicurezza con filtro per i consumatori che leggono i dati e applicare diversi criteri di gestione del ciclo di vita ai diversi livelli.
- Prendi in considerazione l'utilizzo di diversi livelli di storage degli oggetti e criteri del ciclo di vita per ottimizzare i costi di archiviazione dei dati del lake su larga scala.
- Valutare la possibilità di utilizzare le chiavi gestite dal cliente che utilizzano il servizio Vault se è necessario un controllo completo delle chiavi di cifratura dello storage degli oggetti a causa di criteri aziendali o normativi.
- Valutare la possibilità di utilizzare la replica dello storage degli oggetti per supportare un piano di continuità aziendale mediante l'impostazione della replica del bucket in un'altra area. Poiché lo storage degli oggetti è estremamente duraturo e gestisce diverse copie dello stesso oggetto in una singola area per il recupero sulla stessa replica del bucket dell'area non è necessaria.
- Valutare la possibilità di utilizzare i criteri Oracle Cloud Infrastructure Identity and Access Management (IAM) per gli oggetti, utilizzando nomi o pattern di oggetti, aumentando la sicurezza dei dati per gli accessi diretti al data lake.
- Prendi in considerazione l'utilizzo di endpoint privati in Oracle Cloud Infrastructure Object Storage per garantire un accesso sicuro e privato al data lake dalla VCN della piattaforma dati.
- Valutare la possibilità di utilizzare origini di rete e criteri IAM per fare riferimento a tali indirizzi per gestire gli indirizzi IP autorizzati ad accedere ai bucket e agli oggetti del data lake.
- Valutare la possibilità di utilizzare OCIFS, una utility basata su python, per eseguire il MOUNT dei bucket Oracle Cloud Infrastructure Object Storage come file system, abilitando il supporto per le applicazioni che funzionano solo con NFS e che devono caricare i file nello storage degli oggetti.
- Oracle Machine Learning e Oracle Cloud Infrastructure Data Science
Questa architettura si basa su Oracle Machine Learning e Oracle Cloud Infrastructure Data Science per eseguire e fornire previsioni in tempo reale a persone e applicazioni.
- Prendi in considerazione l'utilizzo di AutoML in OCI Data Science o Oracle Machine Learning per accelerare lo sviluppo di modelli ML.
- Considerare l'utilizzo di Open Neural Networks Exchange (ONNX) per l'interoperabilità. I modelli ONNX 3a parte possono essere distribuiti in OML ed esposti come endpoint REST o in OCI Data Science ed esposti come endpoint HTTP.
- Prendi in considerazione la possibilità di salvare il modello in OCI Data Science come ONNX e importarlo in OCI GoldenGate Stream Analytics se è necessario eseguire il punteggio e la previsione in una pipeline di dati in tempo reale per avere previsioni più tempestive che possono generare risultati aziendali in tempo reale.
- Prendi in considerazione l'utilizzo degli ambienti OCI Data Science Conda per migliorare la gestione e il packaging delle dipendenze Python all'interno delle sessioni notebook Jupyter. Sfrutta il repository curato di pacchetti di Anaconda all'interno di OCI Data Science per utilizzare i tuoi strumenti open source preferiti per creare, addestrare e distribuire modelli.
- Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Data Science AI Quick Actions per distribuire, valutare e ottimizzare i modelli di base in Data Science OCI. Lavora con LLM curati e open source disponibili in Model Explorer o per portare il tuo modello.
- Prendi in considerazione l'utilizzo degli operatori AI low code di Data Science, disponibili nel pacchetto Accelerated Data Science Python, per eseguire previsioni, rilevamento delle anomalie o per creare funzionalità di raccomandazione in modo rapido ed efficiente.
- Prendi in considerazione l'utilizzo di OCI Data Flow all'interno dell'ambiente Data Science Jupyter per eseguire l'analisi dei dati esplorativi, il profiling dei dati e la preparazione dei dati su larga scala utilizzando l'elaborazione di scale out di Spark.
- Prendi in considerazione l'utilizzo dell'etichettatura dei dati per etichettare dati come immagini, testo o documenti e utilizzarli per addestrare modelli ML basati su OCI Data Science o OCI AI Services e migliorare così l'accuratezza delle previsioni.
- Prendi in considerazione la possibilità di distribuire un gateway API per proteggere e gestire il consumo del modello distribuito se le previsioni in tempo reale vengono utilizzate da partner ed entità esterne.
- Oracle Cloud Infrastructure Data Integration
Questa architettura utilizza Oracle Cloud Infrastructure Data Integration per supportare lo sviluppo di ETL e pipeline di dati dichiarativi e senza codice o low-code.
- Sfrutta Oracle Cloud Infrastructure Data Integration per coordinare e pianificare le esecuzioni dell'applicazione Oracle Cloud Infrastructure Data Flow ed essere in grado di combinare e abbinare ETL dichiarativo con la logica di codice Spark personalizzata. Utilizza le funzioni all'interno di Oracle Cloud Infrastructure Data Integration per estendere ulteriormente le funzionalità delle pipeline di dati.
- Prendi in considerazione l'utilizzo del pushdown SQL per le trasformazioni che hanno ADW come destinazione per utilizzare un approccio ELT più efficiente, performante e sicuro rispetto a ETL.
- Prendi in considerazione la possibilità di consentire a OCI Data Integration di gestire la deviazione dello schema delle origini dati per avere pipeline di dati più resilienti e a prova di futuro che sosterranno le modifiche allo schema delle origini dati.
- Oracle Cloud Infrastructure Data Flow
Questa architettura utilizza Oracle Cloud Infrastructure Data Flow per supportare l'elaborazione di streaming Spark e Spark su larga scala senza la necessità di avere e gestire cluster permanenti.
- Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Data Catalog come metastore Hive per Oracle Cloud Infrastructure Data Flow per memorizzare e recuperare in modo sicuro le definizioni degli schemi per gli oggetti in asset di dati non strutturati e semi-strutturati come Oracle Cloud Infrastructure Object Storage.
- Valutare la possibilità di utilizzare Delta Lake in OCI Data Flow se sono necessarie transazioni ACID e unificazione dell'elaborazione in streaming e in batch per i dati del lake.
- Big Data Service
Questa architettura sfrutta Oracle Cloud Infrastructure Big Data Service per distribuire cluster altamente disponibili e scalabili di varie tecnologie open source come Spark, Hadoop, Trino o Flink in grado di elaborare dati in batch e in streaming. Big Data Service conserva i dati in HDFS, persiste e legge i dati da Oracle Cloud Infrastructure Object Storage e può scambiare i data set con altri servizi Oracle Cloud Infrastructure come Oracle Cloud Infrastructure Data Flow e Oracle Autonomous Data Warehouse.
- Prendi in considerazione l'uso del ridimensionamento automatico per ridimensionare automaticamente orizzontalmente o verticalmente i nodi di lavoro in base alle metriche o alla pianificazione per ottimizzare continuamente i costi in base alla domanda delle risorse.
- Prendi in considerazione l'opportunità di utilizzare il connettore HDFS OCI per lo storage degli oggetti per leggere e scrivere i dati da e verso lo storage degli oggetti, fornendo così un meccanismo per produrre/consumare i dati condivisi con altri servizi OCI senza doverli replicare e duplicare.
- Prendi in considerazione l'utilizzo di Delta Lake su BDS OCI se sono necessarie transazioni ACID e unificazione dell'elaborazione in streaming e in batch per i dati del lake.
- Se hai bisogno di utilizzare altri software open source, prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Registry, istanze di container o Oracle Cloud Infrastructure Kubernetes Engine per distribuire qualsiasi software open source in container.
- Streaming di Oracle Cloud Infrastructure
Questa architettura sfrutta lo streaming di Oracle Cloud Infrastructure per utilizzare i dati in streaming dalle origini e per fornire dati in streaming ai consumatori.
Prendi in considerazione l'opportunità di sfruttare Oracle Cloud Infrastructure Service Connector Hub per spostare i dati da Oracle Cloud Infrastructure Streaming e persistere in Oracle Cloud Infrastructure Object Storage per supportare ulteriori analisi dei dati cronologici.
- Oracle Analytics Cloud
Questa architettura si basa su Oracle Analytics Cloud (OAC) per la distribuzione di augmented analytics agli utenti finali.
Prendi in considerazione la possibilità di sfruttare l'integrazione predefinita che OAC ha con OCI AI Services (Language and Vision Models) e OML (qualsiasi modello) per incorporare l'intelligence nei flussi di dati e nelle visualizzazioni che gli utenti finali utilizzano e democratizzare così il consumo di AI e ML.
- Servizi AI di Oracle Cloud Infrastructure
Questa architettura può sfruttare i servizi AI di Oracle Cloud Infrastructure, a seconda dei casi d'uso distribuiti.
Prendi in considerazione l'utilizzo dell'etichettatura dei dati per etichettare i dati di addestramento che verranno utilizzati per ottimizzare e ottenere previsioni più accurate per i servizi AI come Vision, Document Understanding e Language.
- Servizi Oracle Cloud Infrastructure Generative AI
Questa architettura può sfruttare i servizi Oracle Cloud Infrastructure Generative AI, a seconda dei casi d'uso distribuiti.
- Prendi in considerazione l'utilizzo del parco giochi e delle API on-demand che utilizzano LLM pre-addestrati per gestire la generazione di testo, la conversazione, l'estrazione dei dati, il riepilogo, la classificazione, il trasferimento di stile o la somiglianza semantica e per incorporare rapidamente l'AI generativa nelle tue pipeline e nei tuoi processi.
- Prendi in considerazione l'utilizzo di cluster AI dedicati per adattare e ottimizzare in modo efficiente i LLM di base AI tuoi dati, garantendo isolamento completo e sicurezza dei dati.
- Prendi in considerazione la possibilità di condividere cluster AI dedicati all'hosting all'interno di diversi team in tutta l'organizzazione per garantire un'efficienza in termini di costi. Un singolo cluster può essere utilizzato per ospitare diversi modelli personalizzati, che possono essere serviti con endpoint indipendenti e possono essere protetti con criteri IAM dedicati.
- Gateway API
Questa architettura sfrutta il gateway API per esporre in modo sicuro i servizi di dati e le inferenze in tempo reale ai consumatori di dati.
- Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Functions per aggiungere la logica di runtime eventualmente necessaria per supportare un'elaborazione API specifica che non rientra nell'ambito dei livelli di elaborazione dei dati, accesso e interpretazione.
- Valutare la possibilità di utilizzare i piani di utilizzo per gestire l'accesso degli abbonati alle API, monitorare e gestire il consumo delle API, impostare livelli di accesso diversi per i diversi consumatori e supportare la monetizzazione dei dati monitorando le metriche d'uso che possono essere fornite a un sistema di fatturazione esterno.
- Oracle Cloud Infrastructure Data Catalog
Per avere una visione end-to-end completa e olistica dei dati memorizzati e che fluiscono sulla piattaforma, prendi in considerazione la possibilità di raccogliere non solo i data store che supportano il livello di persistenza dei dati, ma anche i data store di origine. Il mapping di questi metadati tecnici raccolti al glossario business e l'arricchimento di tali metadati con proprietà personalizzate consentono di mappare i concetti aziendali e di documentare e gestire le definizioni di sicurezza e accesso.
- Per facilitare la creazione di tabelle esterne Oracle Autonomous Data Warehouse che virtualizzano i dati memorizzati in Oracle Cloud Infrastructure Object Storage, utilizza i metadati raccolti in precedenza da Oracle Cloud Infrastructure Data Catalog. Ciò semplifica la creazione di tabelle esterne, applica la coerenza dei metadati nei data store ed è meno soggetto a errori umani.
- Prendi in considerazione l'utilizzo del tracciamento derivazione per Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow per avere visibilità su come i dati sono stati inclusi, trasformati e memorizzati. Per una maggiore copertura, utilizza l'inclusione basata su API per sfruttare il framework aperto OpenLineage per tenere traccia della derivazione per qualsiasi origine e sistema.
- Servizio di trasferimento dati di Oracle Cloud Infrastructure
Utilizza il servizio di trasferimento dati di Oracle Cloud Infrastructure quando non è possibile caricare i dati mediante la connettività Internet pubblica. Ti consigliamo di prendere in considerazione l'utilizzo del trasferimento dati se il caricamento dei dati tramite la rete Internet pubblica richiede più di 1-2 settimane.
- Data Safe e audit
L'aumento del livello di sicurezza grazie alle funzionalità di audit e alert consentirà di prevenire l'esfiltrazione dei dati e di eseguire analisi forensi in caso di violazione dei dati.
- Prendi in considerazione l'utilizzo di Oracle Data Safe per eseguire l'audit dell'attività nel data warehouse e prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Audit per eseguire l'audit del traffico verso i dati del lake.
- Prendi in considerazione l'utilizzo di Oracle Data Safe per la ricerca automatica dei dati sensibili su ADW e per mascherarli in modo statico durante la creazione di copie ADW per ambienti non di produzione, evitando così rischi per la sicurezza.
- Prendi in considerazione l'utilizzo di Oracle Data Safe SQL Firewall con ADW per aumentare il livello di sicurezza dei dati, proteggendoti da rischi come attacchi SQL injection o account compromessi.
- Distribuzione e automazione
Questa architettura fisica viene distribuita utilizzando l'automazione infrastructure as code (IaC) per creare le risorse per distribuire un data lakehouse
Oracle Cloud Infrastructure Resource Manager ti consente di creare stack Terraform di risorse cloud distribuibili, di condividere e gestire le configurazioni dell'infrastruttura e di dichiarare i file tra più team e piattaforme. Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Resource Manager per creare stack di distribuzione per la creazione di ambienti non di produzione, per inserire nuovi team che hanno bisogno di servizi aggiuntivi e per standardizzare e incorporare policy IAM coerenti e protezioni di sicurezza che aderiscono ai criteri definiti per la sicurezza e la governance dell'organizzazione.
- Continuità aziendale
Questa architettura descrive una distribuzione in un'unica area e può essere estesa a due aree per supportare il disaster recovery e per abilitare un piano di continuità aziendale.
- Oracle Cloud Infrastructure Full Stack Disaster Recovery Service è un servizio di orchestrazione e gestione del disaster recovery che fornisce funzionalità complete di disaster recovery per tutti i livelli di uno stack di applicazioni, tra cui infrastruttura, middleware, database e applicazione.
Prendi in considerazione l'utilizzo di Full Stack Disaster Recovery per impostare piani di switchover e failover per il data lakehouse in modo da automatizzare le attività di disaster recovery e ridurre i passaggi manuali in caso di transizione pianificata o non pianificata alla standby region.
- Ottimizzazione dei costi
Prendi in considerazione l'utilizzo del monitoraggio di costi e utilizzo di Oracle Cloud Infrastructure e delle funzionalità di ottimizzazione dei costi per supportare continuamente le tue operazioni finanziarie.
- Prendi in considerazione l'utilizzo di report su costi e utilizzo per ottenere e tenere traccia dell'uso delle risorse cloud e dei relativi costi. Utilizza i report sui costi CSV FOCUS standard del settore prodotti per l'integrazione con le soluzioni per le operazioni finanziarie di 3a parte.
- Valutare la possibilità di utilizzare l'analisi dei costi per tenere traccia dei costi sostenuti da team, progetti e ambienti diversi.
- Prendi in considerazione l'utilizzo di tag di registrazione dei costi per contrassegnare le risorse cloud per team, progetti o ambienti specifici.
- Valutare la possibilità di utilizzare i budget per impostare limiti non superabili per le spese e gli avvisi per sapere quando è possibile superare il budget per il progetto, il team o la spesa complessiva.
- Interoperabilità
Questa architettura sfrutta ampiamente gli standard del settore per interagire con lo scenario eterogeneo IT più ampio di qualsiasi organizzazione in modo da poter utilizzare e servire qualsiasi dato a qualsiasi applicazione, sistema o persona.
L'architettura supporta formati di file aperti come Parquet o Avro, in modo che i dati possano essere memorizzati nel formato più appropriato per ogni caso d'uso. Inoltre, supporta formati di tavoli aperti come Iceberg e Delta Lake per garantire l'interoperabilità tra le tecnologie Oracle e altre tecnologie di terze parti.- Prendi in considerazione l'utilizzo del supporto Iceberg di Oracle Autonomous Data Warehouse per leggere le tabelle Iceberg persistenti sul data lake e servirle ai consumatori. I tavoli Iceberg possono essere serviti come tavoli esterni o caricati in ADW.
- Valutare la possibilità di utilizzare il supporto Delta Lake Universal Format di Data Flow per leggere, elaborare e rendere persistenti i dati nel data lake. L'utilizzo di Delta Lake durante la generazione di metadati per altri formati di tabella aperti come Iceberg e Hudi consente a diversi motori di elaborazione di leggere gli stessi dati.
- Approccio organizzativo
Questa architettura è flessibile e può supportare diversi tipi di approcci organizzativi che vanno da un approccio centralizzato a un approccio completamente decentralizzato e quindi può essere adottata e utilizzata da qualsiasi organizzazione che desideri estrarre valore dai propri dati.
Questa architettura sfrutta ampiamente i controlli dettagliati per l'autenticazione e l'autorizzazione con OCI Identity and Access Management (IAM).
Prendi in considerazione l'utilizzo di IAM per separare le diverse linee di business e i team che utilizzano il lakehouse per decentralizzare la proprietà della creazione dei prodotti di dati e applicare la segregazione dei domini di dati se la tua organizzazione vuole adottare un approccio organizzativo decentralizzato.
OCI ha funzionalità di automazione e Infrastructure as Code as key per una distribuzione di architettura di successo, sfruttando framework come Terraform e Ansible.
Se la tua organizzazione sta adottando un approccio decentralizzato e implementando domini di dati secondo tale approccio, prendi in considerazione l'utilizzo di modelli di terraform predefiniti e di OCI Resource Manager per inserire rapidamente e costantemente i domini di dati nella piattaforma di dati.
Considerazioni
Durante la raccolta, l'elaborazione e la cura dei dati delle applicazioni per l'analisi e il Machine Learning, prendi in considerazione le seguenti opzioni di implementazione.
Guida | Consigliato | Altre opzioni | Motivazione |
---|---|---|---|
Raffineria dati |
|
|
Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile ed efficiente in termini di costi. Oracle Cloud Infrastructure GoldenGate offre una piattaforma di replica dei dati cloud nativa, serverless, completamente gestita e non intrusiva, scalabile, a costi contenuti e che può essere distribuita in ambienti ibridi. |
Persistenza dati |
|
Oracle Exadata Database Service |
Oracle Autonomous Data Warehouse è un database facile da usare e completamente autonomo, dotato di scalabilità elastica e in grado di garantire prestazioni rapide per le query, senza richiedere l'amministrazione del database. Offre inoltre accesso diretto ai dati da tabelle di storage degli oggetti partizionate esterne o ibride. Oracle Cloud Infrastructure Object Storage memorizza dati illimitati in formato raw. |
Elaborazione dati |
|
Strumenti di terze parti |
Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile e a costi contenuti. Oracle Cloud Infrastructure Data Flow fornisce un ambiente Spark serverless per elaborare i dati su larga scala con un modello pay-per-use estremamente elastico. Oracle Cloud Infrastructure Big Data Service offre un Hadoop-as-a-service di livello aziendale con sicurezza end-to-end, prestazioni elevate e facilità di gestione e upgrade. |
Accesso e interpretazione |
|
Strumenti di terze parti |
Oracle Analytics Cloud è completamente gestito e strettamente integrato con i dati curati inOracle Autonomous Data Warehouse. Data Science è una piattaforma self-service completamente gestita che consente ai team di data science di creare, addestrare e gestire modelli di Machine Learning (ML) in Oracle Cloud Infrastructure. Il servizio Data Science fornisce strumenti di infrastruttura e data science quali AutoML e funzionalità di distribuzione dei modelli. Oracle Machine Learning è una piattaforma self-service completamente gestita per la data science disponibile con Oracle Autonomous Data Warehouse che sfrutta la potenza di elaborazione del warehouse per creare, addestrare, testare e distribuire modelli ML su larga scala senza dover spostare i dati all'esterno del warehouse. I servizi AI di Oracle Cloud Infrastructure sono un set di servizi che forniscono modelli predefiniti creati e addestrati in modo specifico per eseguire attività come dedurre potenziali anomalie o rilevare sentiment. |
Distribuire
- Implementa utilizzando Oracle Cloud Infrastructure Resource Manager:
- Fare clic su
Se non si è già connessi, immettere la tenancy e le credenziali utente.
- Esaminare e accettare i termini e condizioni.
- Selezionare l'area in cui distribuire lo stack.
- Seguire i prompt visualizzati e le istruzioni per creare lo stack.
- Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Piano.
- Attendere il completamento del job e rivedere il piano.
Per apportare eventuali modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Eseguire quindi di nuovo l'azione Piano.
- Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
- Fare clic su
- Implementa utilizzando l'interfaccia CLI Terraform:
- Passare a GitHub.
- Duplica o scarica il repository nel computer locale.
- Seguire le istruzioni riportate nel documento
README
.
Visualizza altro
Scopri di più sulle caratteristiche di questa architettura e sulle architetture correlate.
conferme
- Author: José Cruz
- Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies
Log delle modifiche
Questo log elenca le modifiche significative:
28 ottobre 2024 |
|
Giugno 21, 2023 |
|