Data Platform - Data Lakehouse

Puoi raccogliere e analizzare in modo efficace i dati degli eventi e trasferire i dati da Internet delle cose (IoT) e le fonti dei social media, ma in che modo lo correli con l'ampia gamma di risorse di dati aziendali per sfruttare l'investimento e ottenere le informazioni dettagliate che desideri?

Sfrutta un data lakehouse cloud che combina le capacità di un data lake e di un data warehouse per elaborare una vasta gamma di dati aziendali e in streaming per l'analisi aziendale e l'apprendimento automatico.

Questa architettura di riferimento posiziona la soluzione tecnologica nel contesto aziendale complessivo:



Un data lake consente a un'azienda di memorizzare tutti i propri dati in un ambiente elastico a costi contenuti e fornendo al contempo i servizi di elaborazione, persistenza e analitica necessari per scoprire nuove informazioni aziendali. Un data lake memorizza e cura dati strutturati e non strutturati e fornisce metodi per organizzare grandi volumi di dati altamente diversi da più origini.

Con un data warehouse, eseguire la trasformazione e la pulizia dei dati prima di eseguire il commit dei dati nel warehouse. Con un data lake, acquisisci rapidamente i dati e preparali immediatamente quando le persone accedono. Un data lake supporta il reporting operativo e il monitoraggio aziendale che richiedono l'accesso immediato ai dati e l'analisi flessibile per capire cosa sta accadendo nel business.

Architettura funzionale

Questa architettura combina le capacità di un data lake e di un data warehouse per fornire una piattaforma moderna di data lakehouse che elabora i dati in streaming e altri tipi di dati da un'ampia gamma di risorse di dati aziendali. Utilizza questa architettura per sfruttare i dati per l'analisi aziendale, il machine learning, i servizi di dati e i prodotti di dati.

Un'architettura data lakehouse combina le funzionalità del data lake e del data warehouse per aumentare l'efficienza operativa e offrire funzionalità avanzate che consentono di:

  • Uso trasparente di dati e informazioni senza doverli replicare nel data lake e nel data warehouse
  • Supporto di diversi tipi di dati in un'architettura multimodello e poliglotta migliorata
  • Gestione del controllo e sicurezza dei dati capillare che utilizza un modello di sicurezza zero-trust
  • Possibilità di scollegare completamente le risorse di storage e computazione e di utilizzare solo le risorse necessarie in qualsiasi momento
  • La possibilità di sfruttare più motori di computazione, inclusi motori open source, per elaborare gli stessi dati per casi d'uso diversi al fine di ottenere la massima reintegrazione dei dati, liquidità e uso
  • Capacità di sfruttare i servizi nativi Oracle Cloud Infrastructure (OCI) gestiti da Oracle e di ridurre il carico di lavoro operativo
  • Migliore economia del cloud con il ridimensionamento automatico che regola l'infrastruttura delle risorse cloud in modo che corrisponda alla domanda effettiva
  • Modularità in modo che l'utilizzo del servizio sia basato sull'uso del caso
  • Interoperabilità con qualsiasi sistema o cloud conforme agli standard aperti
  • Supporto di un set eterogeneo di casi d'uso inclusi streaming, analitica, data science e apprendimento automatico
  • Supporto di diversi approcci architettonici, da un lakehouse centralizzato a una rete dati decentralizzata

Il diagramma riportato di seguito illustra l'architettura funzionale.



lakehouse-funzionale-oracle.zip

L'architettura si concentra sulle divisioni logiche seguenti:

  • Inclusione, trasformazione

    Inclusione e perfezionamento dei dati da utilizzare in ciascun livello di dati nell'architettura.

  • Rendi persistenti, cura e crea

    Facilita l'accesso e la navigazione dei dati per mostrare la vista aziendale corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in forme semplici relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo livello contiene uno o più pool di dati, dall'output di un processo analitico o dai dati ottimizzati per un task analitico specifico.

  • Analizza, apprendi, prevedi

    Estrae la logica business view dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un singolo livello di reporting da più origini federate.

L'architettura è dotata dei seguenti componenti funzionali:

  • Inclusione batch

    L'inclusione in batch è utile per i dati che non possono essere inclusi in tempo reale o che sono troppo costosi per adattarsi all'ingestione in tempo reale. È anche importante trasformare i dati in informazioni affidabili e affidabili che possono essere curate e mantenute per un consumo regolare. Puoi utilizzare i servizi riportati di seguito insieme o in modo indipendente per ottenere un flusso di lavoro di integrazione e trasformazione dei dati estremamente flessibile ed efficace.

    • Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. ETL (Extract Transform Load; caricamento trasformazione estrazione) sfrutta l'elaborazione scale-out completamente gestita su Spark e ELT (Extract Load Transform) sfrutta le funzionalità push-down SQL complete di Autonomous Data Warehouse per ridurre lo spostamento dei dati e migliorare il time-to-value per i dati appena inclusi. Gli utenti progettano processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e priva di codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione. Oracle Cloud Infrastructure Data Integration offre esplorazione interattiva e preparazione dei dati e aiuta i tecnici dei dati a proteggersi dalle deviazioni degli schemi definendo regole per gestire le modifiche degli schemi.

    • Oracle Data Integrator offre l'integrazione dei dati completa dai caricamenti batch ad alte prestazioni e con alti volumi, ai processi di integrazione basati sugli eventi e ai trickle-feed, ai servizi di dati abilitati per SOA. Un approccio progettuale dichiarativo garantisce uno sviluppo e una manutenzione più veloci e semplici e fornisce un approccio unico per estrarre la trasformazione del carico (ELT) che garantisce il massimo livello di prestazioni possibile per i processi di trasformazione e convalida dei dati. Le trasformazioni dei dati Oracle utilizzano un'interfaccia Web per semplificare la configurazione e l'esecuzione di ELT e consentire agli utenti di creare e pianificare dati e flussi di lavoro mediante un approccio di progettazione dichiarativa.

    • Oracle Data Transforms abilita ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati mediante un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous Data Warehouse (ADW) per caricare e trasformare i dati di diverse origini dati in un'istanza ADW.

    A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere integrazione e trasformazione dei dati estremamente flessibili ed efficaci.

  • Inclusione in tempo reale

    Oracle Cloud Infrastructure GoldenGate è un servizio completamente gestito che consente l'inclusione dei dati da origini residenti on premise o in qualsiasi cloud. Sfrutta la tecnologia CDC GoldenGate per un'acquisizione e una distribuzione dei dati non intrusive ed efficienti a Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage o Oracle Cloud Infrastructure Streaming in tempo reale e su larga scala per rendere le informazioni pertinenti disponibili ai consumatori il più rapidamente possibile.

  • Trasferimento di massa

    Il trasferimento di massa ti consente di spostare grandi volumi in batch di dati utilizzando vari metodi. Per i data lakehouse su larga scala, consigliamo i servizi Oracle Cloud Infrastructure FastConnect e di trasferimento dati.

    • Oracle Cloud Infrastructure FastConnect offre un modo semplice per creare una connessione dedicata e privata tra il tuo data center e Oracle Cloud Infrastructure. FastConnect fornisce opzioni di larghezza di banda più elevata e un'esperienza di rete più affidabile rispetto alle connessioni basate su Internet.

    • L'interfaccia della riga di comando (CLI) di Oracle Cloud Infrastructure consente di eseguire e automatizzare il trasferimento dei dati da on-premise a OCI sfruttando il circuito privato Oracle Cloud Infrastructure FastConnect. Gli SDK OCI ti consentono di scrivere codice per copiare dati e file da on premise o da altri cloud in Oracle Cloud Infrastructure Object Storage, sfruttando una vasta gamma di linguaggi di programmazione come Python, Java o Go per citarne alcuni. Le API REST ti consentono di interfacciare e controllare i servizi OCI, ad esempio spostare i dati nello storage degli oggetti utilizzando l'API del servizio di storage degli oggetti.
    • Storage Gateway è un gateway di storage cloud che consente di connettere le applicazioni on premise con OCI. Le applicazioni possono scrivere dati in una destinazione NFS con posizione condivisa che caricherà tali file nello storage degli oggetti OCI, senza richiedere modifiche all'applicazione per adottare le API REST.
    • Il trasferimento dati di Oracle Cloud Infrastructure è un servizio di migrazione dei dati offline che ti consente di spostare in tutta sicurezza i set di dati su scala petabyte dal tuo data center a Oracle Cloud Infrastructure Object Storage o allo storage di archivio. Usare la rete Internet pubblica per spostare i dati nel cloud non è sempre praticabile a causa degli elevati costi della rete, dell'inaffidabilità della connettività di rete, dei lunghi tempi di trasferimento e delle preoccupazioni per la sicurezza. Il servizio di trasferimento dati supera queste problematiche e può ridurre notevolmente il tempo necessario per la migrazione dei dati nel cloud. Il servizio di trasferimento dati è disponibile su disco o su appliance. La scelta tra una e l'altra dipende in gran parte dalla quantità di dati, con Data Transfer Appliance che supporta data set di grandi dimensioni per ogni appliance.
  • Ingresso in streaming

    L'inclusione del servizio di streaming è supportata dall'uso di servizi nativi OCI che consentono l'inclusione in tempo reale di data set su larga scala da un ampio set di produttori di dati. L'inclusione in streaming persistente e sincronizza i dati nello storage degli oggetti, che rappresenta il fulcro del data lakehouse. La sincronizzazione dei dati nello storage degli oggetti ti consente di conservare i dati cronologici che possono essere curati e ulteriormente trasformati per estrarre preziose informazioni.

    • Il servizio di streaming di Oracle Cloud Infrastructure offre una soluzione di storage completamente gestita, scalabile e duratura che consente di includere flussi di dati continui e a elevato volume che puoi utilizzare ed elaborare in tempo reale. La soluzione Streaming può essere utilizzata per la messaggistica, i log delle applicazioni a elevato volume, la telemetria operativa, i dati di click-stream Web o altri casi d'uso dei modelli di messaggistica di pubblicazione/sottoscrizione in cui i dati vengono prodotti ed elaborati in maniera continua e sequenziale. I dati sono sincronizzati con Oracle Cloud Infrastructure Object Storage e possono essere curati e ulteriormente trasformati per estrarre preziose informazioni.

    • Oracle Cloud Infrastructure Service Connector Hub è una piattaforma di bus di messaggi cloud che offre un unico pannello per descrivere, eseguire e monitorare lo spostamento dei dati tra i servizi in Oracle Cloud Infrastructure. Per questa particolare architettura di riferimento verrà utilizzata per spostare i dati dallo streaming di Oracle Cloud Infrastructure in Oracle Cloud Infrastructure Object Storage per rendere persistenti i dati grezzi e preparati nel livello di persistenza dei data lakehouse.

  • Elaborazione in streaming

    L'elaborazione dello streaming arricchisce i dati in streaming, rileva i pattern di eventi e crea un set diverso di flussi persistenti nel data lakehouse.

    GoldenGate Stream Analytics (GGSA) elabora e analizza informazioni su larga scala in tempo reale utilizzando sofisticati modelli di correlazione, arricchimento dei dati e apprendimento automatico. Gli utenti possono esplorare i dati in tempo reale attraverso grafici attivi, mappe, visualizzazioni e creare pipeline di streaming graficamente senza dover scrivere codice manualmente. Queste pipeline vengono eseguite in un ambiente di Big Data clustering scalabile e ad alta disponibilità che utilizza Spark integrato con il motore di query continuo di Oracle per gestire casi d'uso strategici in tempo reale delle aziende moderne.

    GoldenGate Stream Analytics può sfruttare il cluster Spark distribuito con il Oracle Cloud Infrastructure Big Data Service per elaborare i flussi in modo altamente scalabile e resiliente.

  • Ecosistema open source

    Puoi utilizzare l'ecosistema Open Source:

    • Per l'elaborazione in batch e in streaming utilizzando diversi motori open source più diffusi quali Hadoop, Spark, Flink o Trino
    • Con Oracle Cloud Infrastructure Streaming sia come produttore che come consumatore
    • Con Oracle Cloud Infrastructure Object Storage, puoi rendere persistenti i dati e utilizzare i dati

    Puoi utilizzare Oracle Cloud Infrastructure Object Storage come data lake per rendere persistenti i data set che desideri condividere tra i diversi servizi di Oracle Cloud Infrastructure in momenti diversi.

    Oracle Big Data Cloud esegue il provisioning di cluster Hadoop, Spark o Flink completamente configurati, sicuri, ad alta disponibilità e dedicati tra le altre tecnologie, su richiesta. Ridimensiona il cluster per adattarlo ai carichi di lavoro basati su Big Data e analitica utilizzando una vasta gamma di forme di computazione Oracle Cloud Infrastructure che supportano ogni aspetto, dai piccoli cluster di test e sviluppo ai cluster di produzione di grandi dimensioni. Adegua rapidamente alla domanda aziendale e ottimizza i costi sfruttando le configurazioni di ridimensionamento automatico in base alle metriche o alla pianificazione. Sfrutta i profili cluster per creare cluster ottimali per un carico di lavoro o una tecnologia specifica.
  • Elaborazione batch

    L'elaborazione batch trasforma i data set su larga scala memorizzati nel data lakehouse. L'elaborazione batch sfrutta i servizi nativi Oracle Cloud Infrastructure che si integrano perfettamente con Oracle Cloud Infrastructure Object Storage e ti consente di creare dati curati per casi d'uso come l'aggregazione e l'arricchimento dei dati, l'inclusione del data warehouse, l'apprendimento automatico e l'uso dei dati AI su larga scala.

    • Oracle Cloud Infrastructure Data Integration, descritto sopra, è un servizio completamente gestito, serverless, cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage.

    • Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che ti consente di eseguire applicazioni Apache Spark senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire più velocemente Big Data e applicazioni AI, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operazioni. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorse di runtime predefinita.

  • In servizio

    Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun hardware o installare alcun software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e l'ottimizzazione del database.

    Dopo il provisioning, puoi ridimensionare il numero di memorie centrali CPU o la capacità di storage del database in qualsiasi momento, senza alcun impatto sulla disponibilità o sulle prestazioni.

    Oracle Autonomous Data Warehouse può anche virtualizzare i dati che risiedono nello storage degli oggetti come tabelle partizionate esterne e ibride in modo da poter unire e utilizzare i dati derivati da altre origini con i dati del warehouse. Puoi anche spostare i dati cronologici dal warehouse allo storage degli oggetti e poi usarli senza problemi utilizzando tabelle partizionate ibride.

    Oracle Autonomous Data Warehouse può utilizzare i metadati raccolti in precedenza memorizzati nel Data Catalog per creare tabelle esterne e sincronizzare automaticamente gli aggiornamenti dei metadati nel Data Catalog con la definizione delle tabelle esterne per mantenere la coerenza, semplificare la gestione e ridurre gli sforzi.

    Le viste analitiche, una funzione di Autonomous Database, forniscono un modo rapido ed efficiente per creare query analitiche di dati memorizzati nelle tabelle e nelle viste di database esistenti. Le viste analitiche consentono di organizzare i dati utilizzando un modello dimensionale. Consentono di aggiungere con facilità aggregazioni e calcoli ai data set e di presentare i dati nelle viste su cui è possibile eseguire query mediante istruzioni SQL relativamente semplici. Questa funzione consente di modellare manualmente uno schema star o snowflake direttamente in ADW, utilizzando i dati memorizzati internamente ed esternamente e consente il consumo del modello utilizzando SQL e qualsiasi consumer di dati conforme a SQL.

    Inoltre, Autonomous Data Lake Accelerator, un componente di Autonomous Database, può utilizzare perfettamente i dati di storage degli oggetti, ridimensionare l'elaborazione per fornire query rapide, ridimensionare automaticamente l'istanza di computazione del database quando necessario e ridurre l'impatto sul carico di lavoro del database isolando le query di storage degli oggetti dall'istanza di computazione del database.

  • Storage cloud

    Oracle Cloud Infrastructure Object Storage è una piattaforma di storage su scala Internet ad alte prestazioni che offre durabilità dei dati affidabile ed economica. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici. Puoi memorizzare o recuperare i dati in tutta sicurezza e in tutta sicurezza direttamente da Internet o dall'interno della piattaforma cloud. Molteplici interfacce di gestione ti consentono di scegliere le dimensioni in base alle esigenze, senza compromettere le prestazioni o l'affidabilità dei servizi.

    Oracle Cloud Infrastructure Object Storage può anche essere utilizzato come livello di cold storage per il data warehouse memorizzando i dati utilizzati raramente e poi unendoli perfettamente con i dati più recenti utilizzando tabelle ibride in Oracle Autonomous Data Warehouse.

  • Visualizza e impara

    Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre un set completo di funzionalità per esplorare ed eseguire analitica collaborativa per l'utente, il gruppo di lavoro e l'azienda. Supporta i data scientist alle prime armi, la formazione avanzata degli analisti aziendali e l'esecuzione di modelli di Machine Learning (ML). I modelli di apprendimento automatico possono essere eseguiti sul servizio di analitica o direttamente su Oracle Autonomous Data Warehouse come modelli integrati OML per previsioni batch su larga scala che sfruttano la potenza di elaborazione, la scalabilità e l'elasticità del warehouse e dei servizi AI OCI, come Oracle Cloud Infrastructure Vision.

    Con Oracle Analytics Cloud puoi anche ottenere funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, scalabilità e applicazione di patch, e gestione automatica del ciclo di vita.

  • Impara e prevedi

    • Data Science fornisce infrastruttura, tecnologie open source, librerie, pacchetti e strumenti di data science per consentire ai team di data science di creare, formare e gestire modelli di Machine Learning in Oracle Cloud Infrastructure. Lo spazio di lavoro collaborativo e basato su progetti offre un'esperienza utente coerente end-to-end e supporta il ciclo di vita dei modelli predittivi. Data Science consente ai data scientist e ai tecnici dell'apprendimento automatico di scaricare e installare pacchetti direttamente dal repository Anaconda senza costi aggiuntivi e di innovare i propri progetti con un ecosistema di data science curato nelle librerie di apprendimento automatico.

      La funzione Job di Data Science consente ai data scientist di definire ed eseguire attività ripetibili di apprendimento automatico su un'infrastruttura completamente gestita.

      La funzione di distribuzione dei modelli di Data Science consente ai data scientist di distribuire modelli formati come endpoint HTTP completamente gestiti che possono fornire previsioni in tempo reale, integrare l'intelligence nei processi e nelle applicazioni e consentire alle aziende di reagire agli eventi rilevanti quando si verificano.

    • Oracle Machine Learning offre potenti funzionalità di apprendimento automatico strettamente integrate in Autonomous Database, con il supporto di Python e AutoML. Supporta modelli utilizzando algoritmi all'interno del database open source e scalabili che riducono la preparazione e lo spostamento dei dati. AutoML consente ai data scientist di accelerare il time-to-value delle iniziative di apprendimento automatico dell'azienda utilizzando la selezione automatica degli algoritmi, il campionamento adattivo dei dati, la selezione automatica delle funzioni e l'ottimizzazione automatica dei modelli. Con i servizi Oracle Machine Learning disponibili in Oracle Autonomous Data Warehouse, non solo puoi gestire i modelli, ma puoi anche distribuire tali modelli come endpoint REST per democratizzare le previsioni in tempo reale all'interno dell'azienda, consentendo alle aziende di reagire agli eventi rilevanti quando si verificano, anziché dopo i fatti.

  • Servizi AI

    I servizi AI di Oracle Cloud Infrastructure offrono una serie di servizi AI pronti al consumo che possono essere utilizzati per supportare una vasta gamma di casi d'uso, dall'analisi del testo alla manutenzione predittiva. Questi servizi dispongono di modelli predefiniti e ottimizzati che puoi integrare in pipeline di dati, analitica e applicazioni utilizzando le API.

    • Il rilevamento delle anomalie di Oracle Cloud Infrastructure fornisce un ricco set di strumenti per identificare eventi o osservazioni indesiderabili nei dati aziendali in tempo reale in modo da poter intraprendere azioni per evitare interruzioni del business.

    • Oracle Cloud Infrastructure AI Language esegue sofisticate analisi del testo su larga scala. Grazie a modelli pre-addestrati e personalizzati, gli sviluppatori possono elaborare testo non strutturato ed estrarre approfondimenti senza competenze di data science. I modelli pre-addestrati supportano l'analisi del sentiment, l'estrazione delle frasi chiave, la classificazione del testo e il riconoscimento delle entità denominate. È inoltre possibile addestrare modelli personalizzati per il riconoscimento di entità denominate e la classificazione del testo con set di dati specifici del dominio. Il servizio di traduzione consente di tradurre testo in 21 lingue diverse.

    • La sintesi vocale di Oracle Cloud Infrastructure sfrutta la potenza del linguaggio parlato consentendo di convertire facilmente file multimediali contenenti il linguaggio umano in trascrizioni di testo estremamente accurate. OCI Speech può essere utilizzato per trascrivere le chiamate dell'assistenza clienti, automatizzare i punteggi secondari e generare metadati per gli asset multimediali in modo da creare un archivio in cui è possibile eseguire ricerche.

    • Oracle Cloud Infrastructure Vision esegue task di riconoscimento delle immagini e analisi dei documenti come la classificazione delle immagini, il rilevamento e le facce, l'estrazione del testo e il riconoscimento delle tabelle. Puoi sfruttare modelli pre-addestrati o creare facilmente modelli di visione personalizzati per scenari specifici del settore e dei clienti. Vision Service è un servizio cloud nativo multi-tenant completamente gestito che consente di eseguire tutte le attività comuni di visione artificiale.

    • Oracle Cloud Infrastructure Document Understanding esegue task di analisi dei documenti come l'estrazione del testo e il riconoscimento delle tabelle. Il servizio OCI Document Understanding è un servizio cloud nativo completamente gestito, multi-tenant che supporta tutti i task comuni di analisi dei documenti.

  • Integrazione dei dati

    L'arricchimento dei dati può migliorare i dati utilizzati per addestrare i modelli di apprendimento automatico al fine di ottenere risultati di previsione migliori e più accurati.

    L'etichettatura dei dati di Oracle Cloud Infrastructure consente di creare e sfogliare data set, visualizzare record di dati (testo o immagini) e applicare etichette allo scopo di creare modelli AI/ML. Il servizio fornisce anche interfacce utente interattive progettate per facilitare il processo di etichettatura. Dopo avere etichettato i record, il set di dati può essere esportato come JSON delimitato da riga da utilizzare nello sviluppo del modello AI/ML.
  • Cerca

    Le funzionalità di ricerca possono essere utilizzate come funzione complementare per esporre i dati agli utenti finali che richiedono dati di analitica operativa preindicizzati e quindi a bassa latenza.

    La ricerca di Oracle Cloud Infrastructure con OpenSearch è un motore di ricerca distribuito, completamente gestito, privo di manutenzione e full-text. OpenSearch ti consente di memorizzare, cercare e analizzare rapidamente grandi volumi di dati con tempi di risposta rapidi. Il servizio supporta API OpenSearch open source e visualizzazione dei dati dei dashboard OpenSearch.
  • Analitica streaming

    L'analitica del streaming offre dashboard che forniscono l'analisi in tempo reale dei dati in streaming contestualizzati con dati master e curati memorizzati nel data lakehouse per rilevare pattern di interesse che possono poi servire agli utenti, alle applicazioni e agli oggetti.

    GoldenGate Stream Analytics elabora e analizza informazioni su larga scala in tempo reale utilizzando sofisticati modelli di correlazione, integrazione dei dati e machine learning. Gli utenti possono esplorare i dati in tempo reale attraverso grafici attivi, mappe, visualizzazioni e creare pipeline di streaming graficamente senza dover scrivere codice manualmente. Queste pipeline vengono eseguite in un ambiente di Big Data clustering scalabile e ad alta disponibilità che utilizza Spark integrato con il motore di query continuo di Oracle per gestire casi d'uso strategici in tempo reale delle aziende moderne. GoldenGate Stream Analytics può sfruttare il cluster Spark distribuito con Oracle Cloud Infrastructure Big Data Service per elaborare i flussi in modo altamente scalabile e resiliente.

  • Servizio di streaming

    I dati e le informazioni vengono serviti ai consumatori attraverso flussi che supportano un ampio set di utenti che utilizzano contemporaneamente informazioni che sono quasi in tempo reale e vengono scollegati dal sistema di analisi in streaming per aumentare la resilienza e la scalabilità.

    Il servizio di streaming di Oracle Cloud Infrastructure offre una soluzione di storage completamente gestita, scalabile e duratura che consente di includere flussi di dati continui e a elevato volume che puoi utilizzare ed elaborare in tempo reale. La soluzione Streaming può essere utilizzata per la messaggistica, i log delle applicazioni a elevato volume, la telemetria operativa, i dati di click-stream Web o altri casi d'uso dei modelli di messaggistica di pubblicazione/sottoscrizione in cui i dati vengono prodotti ed elaborati in maniera continua e sequenziale.

  • API

    Il livello API consente di utilizzare l'intelligence derivata da Data Science e Oracle Machine Learning nelle applicazioni, nei processi aziendali e negli aspetti necessari per influenzare e migliorare il funzionamento e la funzionalità. Il livello API garantisce l'utilizzo sicuro dei modelli distribuiti in Data Science negli endpoint REST di Oracle Machine Learning e la possibilità di gestire il sistema per garantire la disponibilità degli ambienti runtime. È inoltre possibile utilizzare le funzioni per eseguire una logica aggiuntiva in base alle esigenze.

    • Il gateway API Oracle Cloud Infrastructure ti consente di pubblicare le API con endpoint privati accessibili dall'interno della tua rete e che puoi esporre con indirizzi IP pubblici se vuoi che accettino traffico Internet. Gli endpoint supportano la convalida delle API, la trasformazione delle richieste e delle risposte, CORS, l'autenticazione e l'autorizzazione e il limite delle richieste. Consente all'API di monitorare l'uso e garantire gli accordi sul livello di servizio. I piani di utilizzo possono inoltre essere utilizzati per monitorare e gestire i consumer di API e i client API che accedono alle API e per impostare livelli di accesso diversi per clienti diversi, al fine di tenere traccia dell'uso dei dati utilizzato dalle API. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.

    • Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand e con funzioni sotto forma di servizio. Si basa su Oracle Cloud Infrastructure di livello enterprise e sfrutta il motore open source Fn Project.

    • Oracle REST Data Services (ORDS) è un'applicazione Java che consente agli sviluppatori con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico, senza installare e gestire i driver client, nello stesso modo in cui accede ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata. ORDS viene distribuito come funzione completamente gestita in ADW e può essere utilizzato per esporre le informazioni del lakehouse utilizzando le API ai consumer dei dati.

  • Gestione controllo dati

    Oracle Cloud Infrastructure Data Catalog fornisce visibilità su dove risiedono gli asset tecnici, ad esempio i metadati e i rispettivi attributi, e offre la possibilità di gestire un glossario aziendale mappato a tali metadati tecnici. Data Catalog può anche fornire i metadati a Oracle Autonomous Data Warehouse per facilitare la creazione di tabelle esterne nel data warehouse.

  • Sicurezza dei dati

    La sicurezza dei dati è fondamentale per esplorare e utilizzare al massimo i dati del lakehouse. Sfruttando un modello di sicurezza zero-trust con funzionalità di difesa-approfondite e RBAC e garantendo la conformità con la normativa più rigorosa, la sicurezza dei dati fornisce controlli di sicurezza preventivi, investigativi e correttivi per garantire che l'esfiltrazione dei dati e le violazioni siano prevenute.

    • Oracle Data Safe è un servizio Oracle Cloud completamente integrato incentrato sulla sicurezza dei dati. Fornisce un set completo e integrato di funzioni per proteggere i dati riservati e regolamentati nei database Oracle Cloud, come Oracle Autonomous Data Warehouse. Le funzioni includono la valutazione della sicurezza, la valutazione degli utenti, la ricerca automatica dei dati, il mascheramento dei dati e il controllo delle attività.

    • Oracle Cloud Infrastructure Audit offre visibilità sulle attività correlate alle risorse e alle tenancy di Oracle Cloud Infrastructure (OCI). Gli eventi di log di audit possono essere utilizzati per gli audit di sicurezza al fine di monitorare l'uso e le modifiche alle risorse OCI e per garantire la conformità a standard e normative.

    • Oracle Cloud Infrastructure Logging fornisce un'interfaccia singola altamente scalabile e completamente gestita per tutti i log della tenancy, inclusi i log di audit. Utilizzare Log OCI per accedere ai log da tutte le risorse OCI in modo da poterli abilitare, gestire e cercare.

    • Oracle Cloud Infrastructure Vault è un servizio di gestione della cifratura che memorizza e gestisce chiavi e segreti di cifratura per accedere in modo sicuro alle risorse. Consente di utilizzare le chiavi gestite dal cliente per Oracle Autonomous Data Warehouse e la cifratura dei data lake per aumentare la protezione dei dati in archivio. Consente ai segreti di memorizzare in modo sicuro servizi e credenziali utente per migliorare le impostazioni di sicurezza e garantire che le credenziali non vengano compromesse e utilizzate in modo inappropriato.

Architettura fisica

L'architettura fisica per questo data lakehouse supporta quanto segue:

  • I dati vengono inclusi in modo sicuro utilizzando micro batch, streaming, API e file provenienti da origini dati relazionali e non relazionali
  • I dati vengono elaborati sfruttando una combinazione di Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
  • I dati vengono memorizzati in Oracle Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage ed è organizzati in base alla loro qualità e al loro valore
  • Oracle Autonomous Data Warehouse offre ai consumatori servizi di data warehouse e lake in tutta sicurezza
  • Oracle Analytics Cloud rileva i dati agli utenti business utilizzando le visualizzazioni
  • Oracle Analytics Cloud è esposto utilizzando Oracle Cloud Infrastructure Load Balancing, protetto da Oracle Cloud Infrastructure Web Application Firewall (WAF) per fornire l'accesso mediante Internet.
  • Oracle Cloud Infrastructure Data Science viene utilizzato per creare, formare e distribuire modelli di Machine Learning (ML)
  • Il gateway API Oracle Cloud Infrastructure è sfruttato per regolare le distribuzioni dei modelli ML di Data Science
  • Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da Oracle Autonomous Data Warehouse e dallo storage degli oggetti
  • Oracle Data Safe valuta i rischi per i dati, implementa e monitora i controlli di sicurezza, valuta la sicurezza degli utenti, monitora l'attività degli utenti e soddisfa i requisiti di conformità alla sicurezza dei dati
  • Oracle Cloud Infrastructure Bastion viene utilizzato dagli amministratori per gestire le risorse del cloud privato

Il diagramma riportato di seguito illustra questa architettura di riferimento.



architettura lakehouse-oracle.zip

Il design per l'architettura fisica:

  • Sfrutta 2 VCN, uno per hub e un altro per il carico di lavoro stesso
  • La connettività on premise sfrutta sia Oracle Cloud Infrastructure FastConnect che la VPN site-to-site per la ridondanza
  • Tutto il traffico in entrata da on premise e da Internet viene instradato prima nella VCN hub e poi nella VCN del carico di lavoro
  • Tutti i dati sono protetti in transito e archiviati
  • I servizi vengono distribuiti con endpoint privati per aumentare il livello di sicurezza
  • La VCN viene suddivisa in diverse subnet private per aumentare il livello di sicurezza
  • I dati del lake sono suddivisi in vari bucket nello storage degli oggetti sfruttando un'architettura medaglione

I potenziali miglioramenti progettuali non illustrati in questa distribuzione per motivi di semplicità includono:

  • Utilizzo di una zona di atterraggio completa conforme al CIS
  • Utilizza un firewall di rete per migliorare il livello di sicurezza generale ispezionando tutto il traffico e applicando i criteri

Suggerimenti

Utilizza i seguenti suggerimenti come punto di partenza per elaborare i dati in streaming e una vasta gamma di risorse di dati aziendali per l'analisi aziendale e l'apprendimento automatico.

I requisiti potrebbero essere diversi dall'architettura descritta qui.

  • Oracle Autonomous Data Warehouse

    Questa architettura utilizza Oracle Autonomous Data Warehouse su un'infrastruttura condivisa.

    • Abilita la scalabilità automatica per fornire la potenza di elaborazione dei carichi di lavoro del database fino a tre volte.
    • Considerare la possibilità di utilizzare Oracle Autonomous Data Warehouse su un'infrastruttura dedicata se si desidera che la funzionalità di database self-service all'interno di un ambiente cloud di database privato in esecuzione sul cloud pubblico.
    • Considerare la possibilità di utilizzare la funzione delle tabelle partizionate ibride di Autonomous Data Warehouse per spostare partizioni di dati in Oracle Cloud Infrastructure Object Storage e servirli agli utenti e alle applicazioni in modo trasparente. Ti consigliamo di utilizzare questa funzione per i dati che non vengono spesso consumati e per i quali non hai bisogno delle stesse prestazioni dei dati memorizzati in Autonomous Data Warehouse.
    • Considerare la possibilità di utilizzare la funzione di tabelle esterne per utilizzare i dati memorizzati in Oracle Cloud Infrastructure Object Storage in tempo reale, senza doverli replicare in Autonomous Data Warehouse. Questa funzione si unisce in modo trasparente e trasparente ai data set curati all'esterno di Autonomous Data Warehouse, indipendentemente dal formato (parquet, avro, orc, json, csv e così via), con dati che risiedono in Autonomous Data Warehouse.
    • Prendi in considerazione l'utilizzo di Autonomous Data Lake Accelerator durante il consumo dei dati di storage degli oggetti per offrire un'esperienza migliorata e più veloce agli utenti che consumano e uniscono i dati tra il data warehouse e il data lake.
    • Si consideri la possibilità di utilizzare le viste analitiche per modellare semanticamente la stella DW o lo schema di base del fiocco di neve direttamente in ADW in modo che i dati granulari vengano aggregati automaticamente senza dover preaggregare i dati, il modello semantico viene utilizzato utilizzando SQL in modo coerente con qualsiasi client conforme a SQL, incluso Oracle Analytics Cloud, garantendo fatti e KPI vengono serviti in modo coerente indipendentemente dal client e tutti i dati possono essere utilizzati sul modello semantico, indipendentemente dal fatto che sia memorizzato in ADW o nello storage degli oggetti, rendendo questa funzionalità un livello perfetto di modellazione semantica per un'architettura lakehouse in cui fatti e dimensioni possono attraversare sia il DW che il Lago.
    • Considerare la possibilità di utilizzare le chiavi gestite dal cliente utilizzando il servizio Vault se è necessario un controllo completo delle chiavi di cifratura ADW a causa di criteri aziendali o normativi.
    • Si consideri la possibilità di utilizzare Database Vault in ADW per impedire agli utenti con privilegi non autorizzati di accedere a dati riservati e impedire così l'esfiltrazione e le violazioni dei dati.
    • Considerare la possibilità di utilizzare Autonomous Data Guard per supportare un piano di continuità aziendale tramite l'impostazione e la replica dei dati su un'istanza in standby nella stessa area o in un'altra area.
    • Considerare la possibilità di utilizzare il mascheramento dinamico dei dati con la protezione dati sensibili per fornire i dati mascherati agli utenti in base al proprio ruolo e quindi garantire l'accesso ai dati appropriato senza la necessità di duplicazione dei dati e mascheramento statico.
  • Storage degli oggetti/Data lake

    Questa architettura utilizza Oracle Cloud Infrastructure Object Storage, uno storage cloud altamente scalabile e duraturo, come lo storage del lago.

    • Prendi in considerazione l'organizzazione del tuo lago tra vari set di bucket che utilizzano un'architettura medallion (bronze, argento, oro) o un'altra logica di partizionamento per separare i dati in base alla qualità e all'arricchimento, applicare una sicurezza capillare per i consumatori che leggono i dati e applicare criteri di gestione del ciclo di vita diversi ai vari livelli.
    • Valuta la possibilità di utilizzare livelli di storage degli oggetti e criteri del ciclo di vita diversi per ottimizzare i costi dello storage dei dati del lake su larga scala.
    • Considerare la possibilità di utilizzare le chiavi gestite dal cliente utilizzando il servizio Vault se è necessario un controllo completo delle chiavi di cifratura dello storage degli oggetti a causa dei criteri aziendali o normativi.
    • Considerare la possibilità di utilizzare la replica dello storage degli oggetti per supportare un piano di continuità aziendale tramite l'impostazione della replica del bucket in un'altra area. Poiché lo storage degli oggetti è estremamente durevole e gestisce diverse copie dello stesso oggetto in una singola area per il recupero nella stessa replica del bucket di area, non è necessario.
  • Oracle Machine Learning e Oracle Cloud Infrastructure Data Science

    Questa architettura sfrutta Oracle Machine Learning e Oracle Cloud Infrastructure Data Science per eseguire e offrire previsioni in tempo reale a persone e applicazioni.

    • Prendi in considerazione l'utilizzo di AutoML in OCI Data Science o Oracle Machine Learning per accelerare lo sviluppo del modello ML.
    • Considerare la possibilità di utilizzare Open Neural Networks Exchange (ONNX) per l'interoperabilità. È possibile distribuire i modelli parte ONNX 3rd in OML ed esposti come endpoint REST o in OCI Data Science e presentati come endpoint HTTP.
    • Considera di salvare il modello in OCI Data Science come ONNX e di importarlo in OCI GoldenGate Stream Analytics se c'è la necessità di eseguire il punteggio e la previsione in una pipeline di dati in tempo reale per avere previsioni più tempestive che possono generare risultati aziendali in tempo reale.
    • Considerare la possibilità di utilizzare ambienti OCI Data Science Conda per ottimizzare la gestione e il packaging delle dipendenze Python all'interno delle sessioni notebook Jupyter. Sfrutta il repository curato da Anaconda di pacchetti all'interno di OCI Data Science per utilizzare i tuoi strumenti open source preferiti per creare, formare e distribuire modelli.
    • Prendi in considerazione l'uso di Flusso dati OCI all'interno dell'ambiente Data Science Jupyter per eseguire l'analisi dei dati esplorativa, il profiling e la preparazione dei dati su larga scala sfruttando l'elaborazione scale-out di Spark.
    • Considerare la possibilità di utilizzare l'etichettatura dei dati per etichettare dati come immagini, testo o documenti e utilizzarli per addestrare modelli ML basati su OCI Data Science o OCI AI Services e migliorare così l'accuratezza delle previsioni.
    • Valuta la possibilità di distribuire un gateway API per proteggere e gestire il consumo del modello distribuito se i partner e le entità esterne utilizzano le previsioni in tempo reale.
  • Oracle Cloud Infrastructure Data Integration

    Questa architettura utilizza Oracle Cloud Infrastructure Data Integration per supportare lo sviluppo di ETL e pipeline di dati dichiarativi e senza codice o a basso codice.

    • Sfrutta Oracle Cloud Infrastructure Data Integration per coordinare e pianificare le esecuzioni dell'applicazione Oracle Cloud Infrastructure Data Flow e poter combinare e abbinare ETL dichiarativo con una logica di codice Spark personalizzata. Utilizza le funzioni di Oracle Cloud Infrastructure Data Integration per estendere ulteriormente le funzionalità delle pipeline di dati.
    • Considerare la possibilità di utilizzare il pushdown SQL per le trasformazioni con ADW come destinazione per utilizzare un approccio ELT più efficiente, performante e sicuro rispetto a ETL.
    • Considerare la possibilità che l'integrazione dei dati OCI gestisca la deviazione dello schema delle origini dati per disporre di pipeline di dati più resilienti e a prova di futuro che sosterranno le modifiche allo schema delle origini dati.
  • Oracle Cloud Infrastructure Data Flow

    Questa architettura utilizza Oracle Cloud Infrastructure Data Flow per supportare l'elaborazione in streaming su larga scala di Spark e Spark senza la necessità di avere e gestire cluster permanenti.

    • Considerare la possibilità di utilizzare Oracle Cloud Infrastructure Data Catalog come metastore Hive per Oracle Cloud Infrastructure Data Flow al fine di memorizzare e recuperare in modo sicuro le definizioni degli schemi per gli oggetti in asset di dati non strutturati e semistrutturati come Oracle Cloud Infrastructure Object Storage.
    • Considerare la possibilità di utilizzare Delta Lake nel flusso dati OCI se per i dati del lago sono necessarie transazioni ACID e unificazione dell'elaborazione in streaming e in batch.
  • Servizio Big Data

    Questa architettura sfrutta Oracle Cloud Infrastructure Big Data Service per distribuire cluster ad alta disponibilità e scalabili di varie tecnologie open source come Spark, Hadoop, Trino o Flink in grado di elaborare batch e dati in streaming. Il servizio Big Data rende persistenti i dati in HDFS, li legge da Oracle Cloud Infrastructure Object Storage e può scambiare i set di dati con altri servizi Oracle Cloud Infrastructure come Oracle Cloud Infrastructure Data Flow e Oracle Autonomous Data Warehouse.

    • Puoi valutare la possibilità di utilizzare il ridimensionamento automatico per ridimensionare automaticamente i nodi di lavoro in orizzontale o verticale in base alle metriche o alla pianificazione per ottimizzare costantemente i costi in base alla richiesta delle risorse.
    • Considerare la possibilità di utilizzare il connettore HDFS OCI per consentire allo storage degli oggetti di leggere e scrivere i dati in e dallo storage degli oggetti, fornendo un meccanismo per produrre/consumere i dati condivisi con altri servizi OCI senza doverli replicare e duplicare.
    • Considerare la possibilità di utilizzare Delta Lake sul BDS OCI se per i dati del lago sono necessarie transazioni ACID e unificazione dell'elaborazione in streaming e in batch.
  • Oracle Cloud Infrastructure Streaming

    Questa architettura sfrutta Oracle Cloud Infrastructure Streaming per utilizzare dati in streaming provenienti da origini e per fornire dati in streaming ai consumatori.

    Prendi in considerazione di sfruttare Oracle Cloud Infrastructure Service Connector Hub per spostare i dati dallo streaming di Oracle Cloud Infrastructure e per rimanere su Oracle Cloud Infrastructure Object Storage per supportare ulteriori analisi cronologiche dei dati.

  • Oracle Analytics Cloud

    Questa architettura si basa su Oracle Analytics Cloud (OAC) per la distribuzione di Augmented Analytics agli utenti finali.

    Considerare la possibilità di sfruttare l'integrazione predefinita OAC con i servizi AI OCI (modelli di lingua e visione) e OML (qualsiasi modello) per incorporare l'intelligence nei flussi e nelle visualizzazioni di dati utilizzati dagli utenti finali e democratizzare il consumo di AI e ML.

  • Servizi Oracle Cloud Infrastructure AI

    Questa architettura può sfruttare i servizi AI di Oracle Cloud Infrastructure, a seconda dei casi d'uso distribuiti.

    • Per i casi d'uso predittivi di manutenzione e rilevamento delle anomalie, prendi in considerazione l'utilizzo del servizio Oracle Cloud Infrastructure Anomaly Detection che aiuta a identificare le anomalie in un data set multivariato sfruttando le interrelazioni tra i segnali.
    • Considerare la possibilità di utilizzare l'etichettatura dei dati per etichettare i dati di addestramento che verranno utilizzati per ottimizzare e ottenere previsioni più accurate per i servizi AI, quali Vision, Document Understanding e Language.
  • Gateway API

    Questa architettura utilizza il gateway API per esporre in tutta sicurezza i servizi dati e dedurre in tempo reale ai consumatori di dati.

    • Valutare l'opportunità di utilizzare Oracle Cloud Infrastructure Functions per aggiungere la logica di runtime eventualmente necessaria per supportare l'elaborazione API specifica che non rientra nei livelli di elaborazione dati, accesso e interpretazione.
    • Considerare la possibilità di utilizzare i piani di utilizzo per gestire l'accesso degli abbonati alle API, monitorare e gestire il consumo delle API, impostare livelli di accesso diversi per consumatori diversi e supportare la monetizzazione dei dati monitorando le metriche d'uso che è possibile fornire a un sistema di fatturazione esterno.
  • Oracle Cloud Infrastructure Data Catalog

    Per avere una vista end-to-end completa e olistica dei dati memorizzati e in flusso sulla piattaforma, valuta la possibilità di raccogliere non solo i data store che supportano il livello di persistenza dei dati, ma anche i data store di origine. Il mapping di questi metadati tecnici raccolti al glossario business e l'arricchimento con proprietà personalizzate consente di mappare i concetti di business e di documentare e gestire le definizioni di sicurezza e accesso.

    Per facilitare la creazione di tabelle esterne Oracle Autonomous Data Warehouse che virtualizzano i dati memorizzati in Oracle Cloud Infrastructure Object Storage, utilizzare i metadati raccolti in precedenza da Oracle Cloud Infrastructure Data Catalog. Ciò semplifica la creazione di tabelle esterne, applica la coerenza dei metadati tra i data store ed è meno suscettibile di errore umano.

  • Servizio di trasferimento dati di Oracle Cloud Infrastructure

    Utilizzare il servizio di trasferimento dati di Oracle Cloud Infrastructure quando non è possibile caricare i dati utilizzando la connettività Internet pubblica. Ti consigliamo di prendere in considerazione l'uso del trasferimento dati se il caricamento dei dati tramite la rete Internet pubblica richiede più di 1-2 settimane.

  • Data Safe e audit

    L'aumento del livello di sicurezza sfruttando le funzionalità di audit e avviso consentirà di prevenire l'esfiltrazione dei dati e di eseguire analisi forensi in caso di violazione dei dati.

    Considerare la possibilità di utilizzare Data Safe per l'attività di audit nel data warehouse e il servizio di audit per l'attività di audit nei dati dei lake.

    Considerare la possibilità di utilizzare Data Safe per la ricerca automatica di dati riservati su ADW e mascherarli in modo statico durante la creazione di copie ADW per ambienti non di produzione evitando così rischi per la sicurezza.

  • Approccio organizzativo

    Questa architettura è flessibile e può supportare diversi tipi di approcci organizzativi che vanno da un approccio centralizzato a un approccio completamente decentralizzato e quindi può essere adottata e utilizzata da qualsiasi organizzazione che voglia estrarre valore dai propri dati.

    Questa architettura si basa su controlli dettagliati per l'autenticazione e l'autorizzazione con IAM (Identity and Access Management) OCI.

    Considerare la possibilità di utilizzare IAM per separare le diverse linee di business e i team che utilizzano il lakehouse per decentralizzare la proprietà della creazione dei prodotti di dati e applicare la separazione dei domini di dati se l'organizzazione desidera adottare un approccio organizzativo decentralizzato.

    OCI ha funzionalità di automazione e infrastruttura come Code as key per una distribuzione dell'architettura di successo, sfruttando framework come Terraform e Ansible.

    Se la tua organizzazione sta adottando un approccio decentralizzato e implementando domini di dati nell'ambito di tale approccio, valuta di utilizzare modelli terraform predefiniti e Resource Manager OCI per inserire rapidamente e in modo coerente i domini di dati nella piattaforma dati.

Considerazioni

Durante la raccolta, l'elaborazione e la cura dei dati dell'applicazione per l'analisi e l'apprendimento automatico, prendere in considerazione le seguenti opzioni di implementazione.

Linea guida Consigliato Altre opzioni Motivazione
Raffineria dati
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Oracle Autonomous Database Data Transforms

Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL serverless e completamente gestita, scalabile e a costi contenuti.

Oracle Cloud Infrastructure GoldenGate offre una piattaforma di replica dei dati cloud nativa, serverless, completamente gestita e non intrusiva, scalabile, conveniente e può essere distribuita in ambienti ibridi.

Persistenza dati
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse è un database facile da usare e completamente autonomo, dotato di scalabilità elastica e prestazioni rapide per le query, senza procedure di amministrazione del database. Inoltre, offre accesso diretto ai dati dalle tabelle partizionate esterne o ibride dello storage degli oggetti.

Oracle Cloud Infrastructure Object Storage memorizza dati illimitati in formato raw.

Elaborazione dati
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure Servizio di Big Data
Strumenti di terze parti

Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL serverless, completamente gestita e cloud, scalabile e a costi contenuti.

Oracle Cloud Infrastructure Data Flow offre un ambiente Spark serverless per elaborare i dati su larga scala con un modello pay-per-use, estremamente elastico.

Oracle Cloud Infrastructure Big Data Service offre Hadoop-as-a-service di livello enterprise con sicurezza end-to-end, alte prestazioni e facilità di gestione e aggiornamento.

Accesso e interpretazione
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Servizi Oracle Cloud Infrastructure AI
Strumenti di terze parti

Oracle Analytics Cloud è completamente gestito e perfettamente integrato con i dati curati inOracle Autonomous Data Warehouse.

Data Science è una piattaforma self-service completamente gestita che consente ai team di data science di creare, formare e gestire modelli di Machine Learning (ML) in Oracle Cloud Infrastructure. Il servizio Data Science offre strumenti per l'infrastruttura e la data science quali AutoML e funzionalità di distribuzione dei modelli.

Oracle Machine Learning è una piattaforma self-service completamente gestita per la data science disponibile con Oracle Autonomous Data Warehouse che sfrutta la potenza di elaborazione del warehouse per creare, formare, testare e distribuire modelli ML su larga scala senza dover spostare i dati al di fuori del warehouse.

I servizi AI di Oracle Cloud Infrastructure sono un insieme di servizi che forniscono modelli predefiniti appositamente creati e addestrati per eseguire attività come dedurre potenziali anomalie o rilevare le opinioni.

Distribuisci

Il codice Terraform per questa architettura di riferimento è disponibile in GitHub. Puoi inserire il codice in Oracle Cloud Infrastructure Resource Manager con un solo clic, creare lo stack e distribuirlo. In alternativa, puoi scaricare il codice da GitHub sul tuo computer, personalizzare il codice e distribuire l'architettura utilizzando l'interfaccia CLI di Terraform.
  • Distribuisci utilizzando Oracle Cloud Infrastructure Resource Manager:
    1. Fare clic su Distribuisci su Oracle Cloud

      Se non si è già collegati, immettere le credenziali della tenancy e dell'utente.

    2. Rivedere e accettare i termini e le condizioni.
    3. Selezionare l'area in cui distribuire lo stack.
    4. Seguire i prompt visualizzati e le istruzioni per creare lo stack.
    5. Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Pianifica.
    6. Attendere il completamento del job ed esaminare il piano.

      Per apportare eventuali modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Eseguire quindi di nuovo l'azione Piano.

    7. Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack e fare clic su Azioni Terraform e selezionare Applica.
  • Eseguire la distribuzione utilizzando l'interfaccia CLI di Terraform:
    1. Vai a GitHub.
    2. Duplicare o scaricare il repository sul computer locale.
    3. Seguire le istruzioni riportate nel documento README.

Conferme

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Robert Lies

Log modifiche

Questo log elenca le modifiche significative: