Data Platform - Data Lakehouse

Architettura funzionale

Puoi combinare le capacità di un data lake e di un data warehouse per fornire una piattaforma moderna di data lakehouse che elabora lo streaming e altri tipi di dati da un'ampia gamma di risorse di dati aziendali in modo da poter sfruttare i dati per l'analisi aziendale, il machine learning, i servizi di dati e i prodotti di dati.

Un'architettura di data lakehouse combina le funzionalità sia del data lake che del data warehouse per aumentare l'efficienza operativa e fornire funzionalità avanzate che consentono di:

Utilizzo ottimale di dati e informazioni senza la necessità di replicarli in data lake e data warehouse
Supporto di diversi tipi di dati in un'architettura multimodello e poliglotta migliorata
Semplifica l'inclusione dei dati da qualsiasi consumatore utilizzando in tempo reale, streaming, batch, interfaccia di programmazione delle applicazioni (API) e meccanismi di ingestione di massa
Estrazione dell'intelligenza continua dai dati utilizzando l'intelligenza artificiale (AI), l'AI generativa e i servizi di machine learning (ML)
La capacità di infondere e fornire intelligence a qualsiasi consumatore di dati utilizzando API, interfaccia utente, streaming e meccanismi di integrazione
Governance e sicurezza dei dati dettagliata che sfrutta un modello di sicurezza zero-trust
Possibilità di scollegare completamente le risorse di storage e computazione e di utilizzare solo le risorse necessarie in qualsiasi momento
La capacità di sfruttare più motori di calcolo, inclusi i motori open source, di elaborare gli stessi dati per casi d'uso diversi per ottenere il massimo riutilizzo, liquidità e utilizzo dei dati
Possibilità di memorizzare i dati utilizzando diversi formati di file e tabelle aperti nel data lake
La possibilità di sfruttare i servizi nativi di Oracle Cloud Infrastructure (OCI) gestiti da Oracle e che riducono il sovraccarico operativo
Migliore economia del cloud con ridimensionamento automatico che regola l'infrastruttura delle risorse cloud in base alla domanda effettiva
Modularità in modo che l'uso del servizio sia basato su casi d'uso
Interoperabilità con qualsiasi sistema o cloud conforme a standard aperti
Supporto per un set eterogeneo di casi d'uso, tra cui streaming, analytics, data science e machine learning
Supporto di diversi approcci architettonici, da un lakehouse centralizzato a un data mesh decentralizzato

Il diagramma seguente illustra l'architettura funzionale.

Segue la descrizione di lakehouse-functional.png

Descrizione dell'illustrazione lakehouse-functional.png

lago-funzionale-oracolo-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

L'architettura si concentra sulle seguenti divisioni logiche:

Connetti, includi, trasforma
Si connette alle origini dati, acquisisce e perfeziona i propri dati per l'uso in ciascuno dei livelli di dati nell'architettura.
Persistere, curare, creare
Facilita l'accesso e la navigazione dei dati per mostrare la vista aziendale corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in semplici forme relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo layer contiene uno o più pool di dati, output da un processo analitico o dati ottimizzati per un task analitico specifico.
Analizza, impara, prevedi
Estrae la visione aziendale logica dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, alla migrazione all'architettura di destinazione e alla fornitura di un unico livello di reporting da più origini federate.

L'architettura ha i seguenti componenti funzionali:

Inclusione batch
L'inclusione batch è utile per dati che non possono essere inclusi in tempo reale o che sono troppo costosi per adattarsi all'inclusione in tempo reale. È anche importante trasformare i dati in informazioni affidabili e affidabili che possono essere curate e persistenti per un consumo regolare. Puoi utilizzare i seguenti servizi insieme o in modo indipendente per ottenere un flusso di lavoro di integrazione e trasformazione dei dati altamente flessibile ed efficace.
- Oracle Cloud Infrastructure Data Integration è un servizio serverless completamente gestito per la progettazione e l'esecuzione di pipeline di dati. Consente l'estrazione, la trasformazione e il caricamento senza interruzioni dei dati nelle destinazioni OCI come Autonomous AI Lakehouse e OCI Object Storage. Gli utenti possono creare flussi di integrazione attraverso un'interfaccia intuitiva e senza codice che scala automaticamente gli ambienti di esecuzione. Supporta sia ETL con elaborazione basata su Spark che ELT utilizzando SQL Pushdown per prestazioni ed efficienza. Il servizio offre anche strumenti per la preparazione dei dati e protegge dalla deriva dello schema con una gestione basata su regole.
- Oracle Data Integrator fornisce l'integrazione completa dei dati, dalle operazioni di caricamento in batch ad alte prestazioni e con alti volumi, ai processi di integrazione basati sugli eventi e basati sull'alimentazione, ai servizi di dati abilitati per SOA. Un approccio di progettazione dichiarativa garantisce sviluppo e manutenzione più rapidi e semplici e fornisce un approccio unico per estrarre la trasformazione del carico (ELT) che aiuta a garantire il massimo livello di prestazioni possibile per i processi di trasformazione e convalida dei dati. Le trasformazioni dei dati Oracle utilizzano un'interfaccia Web per semplificare la configurazione e l'esecuzione di ELT e per aiutare gli utenti a creare e pianificare dati e flussi di lavoro utilizzando un approccio di progettazione dichiarativa.
- Le trasformazioni dei dati Oracle consentono ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous AI Lakehouse per caricare e trasformare i dati da diverse origini dati in un'istanza di Oracle Autonomous AI Lakehouse.
A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere un'integrazione e una trasformazione dei dati altamente flessibili e performanti.
Ingestione basata su API
L'inclusione basata su API consente ad applicazioni e sistemi di eseguire il push dei dati degli eventi utilizzando API o webhook.
- Oracle Integration è un ambiente completamente gestito e preconfigurato che consente di integrare applicazioni cloud e on-premise, automatizzare i processi aziendali e sviluppare applicazioni visive. Utilizza un file server conforme a SFTP per memorizzare e recuperare i file e consente di scambiare documenti con partner commerciali business-to-business utilizzando un portfolio di centinaia di adattatori e ricette per connettersi con le applicazioni Oracle e di terze parti.
- Oracle Cloud Infrastructure API Gateway ti consente di pubblicare API con endpoint privati accessibili dall'interno della tua rete e che puoi esporre alla rete Internet pubblica, se necessario. Gli endpoint supportano la convalida dell'API, la trasformazione di richieste e risposte, CORS, autenticazione e autorizzazione e limitazione delle richieste.
  
  Il gateway API OCI consente l'osservabilità delle API per monitorare l'uso e garantire gli SLA. I piani di utilizzo possono anche essere utilizzati per monitorare e gestire consumer e client API e per impostare livelli di accesso API diversi per clienti diversi. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.
  
  I piani di utilizzo supportano la monetizzazione dei dati creando piani di utilizzo a più livelli per gestire consumer e client API e per tenere traccia dell'utilizzo dei dati.
- Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand, Functions-as-a-Service (FaaS). È alimentato dal motore open source di Fn Project. Le funzioni OCI consentono di distribuire il codice e di chiamarlo direttamente o attivarlo in risposta agli eventi. OCI Functions utilizza container Docker ospitati in Oracle Cloud Infrastructure Registry.
- Oracle REST Data Services (ORDS) è un'applicazione Java che consente a qualsiasi sviluppatore con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico senza installare e gestire driver client nello stesso modo in cui accedono ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata.
  
  ORDS viene distribuito come funzione completamente gestita in Oracle Autonomous AI Lakehouse e può essere utilizzato per esporre le informazioni del lakehouse utilizzando le API ai consumer di dati.
Inclusione in tempo reale

Oracle Cloud Infrastructure GoldenGate è un servizio completamente gestito che consente l'inclusione dei dati dalle origini che risiedono on-premise o in qualsiasi cloud. Sfrutta la tecnologia GoldenGate CDC per un'acquisizione ed una distribuzione dei dati non intrusiva ed efficiente a Oracle Autonomous AI Lakehouse, Oracle Cloud Infrastructure Object Storage o Oracle Cloud Infrastructure Streaming in tempo reale e su larga scala per rendere le informazioni pertinenti disponibili ai consumatori il più rapidamente possibile.
Trasferimento di massa
Il trasferimento di massa consente di spostare grandi volumi di dati in batch utilizzando metodi diversi. Per i data lakehouse su larga scala, consigliamo i servizi Oracle Cloud Infrastructure FastConnect e di trasferimento dati.
- Oracle Cloud Infrastructure FastConnect crea una connessione dedicata e privata tra il tuo data center e OCI. FastConnect offre opzioni di larghezza di banda più elevata e un'esperienza di networking più affidabile se confrontata con le connessioni basate su internet.
- L'interfaccia a riga di comando (CLI) di Oracle Cloud Infrastructure (OCI) ti consente di eseguire e automatizzare il trasferimento dei dati da on-premise a OCI utilizzando il circuito privato Oracle Cloud Infrastructure FastConnect. Gli SDK OCI consentono di scrivere codice per copiare o sincronizzare dati e file da on-premise o da altri cloud in Oracle Cloud Infrastructure Object Storage, utilizzando una vasta gamma di linguaggi di programmazione come Python, Java o Go to name. Le API REST ti consentono di interfacciarti e controllare i servizi OCI, ad esempio spostando i dati nello storage degli oggetti utilizzando l'API del servizio di storage degli oggetti.
- Oracle Cloud Infrastructure Data Transfer è un servizio di migrazione dei dati offline che ti consente di spostare in modo sicuro set di dati su scala di petabyte dal tuo data center a Oracle Cloud Infrastructure Object Storage o Archive Storage. Usare la rete Internet pubblica per spostare i dati nel cloud non è sempre praticabile a causa degli elevati costi della rete, dell'inaffidabilità della connettività di rete, dei lunghi tempi di trasferimento e delle preoccupazioni per la sicurezza. Il servizio di trasferimento dati supera queste problematiche e può ridurre notevolmente il tempo necessario per la migrazione dei dati nel cloud. Il trasferimento dei dati è disponibile tramite disco o appliance. La scelta dell'uno rispetto all'altro dipende in gran parte dalla quantità di dati, con Data Transfer Appliance che supporta set di dati più grandi per ogni appliance.
Inclusione di streaming
L'inclusione in streaming è supportata dall'uso di servizi nativi OCI che consentono l'inclusione in tempo reale di data set su larga scala da un ampio set di produttori di dati. L'inclusione in streaming persiste e sincronizza i dati nello storage degli oggetti, che è al centro del data lakehouse. La sincronizzazione dei dati nello storage degli oggetti consente di conservare i dati cronologici che possono essere curati e ulteriormente trasformati per estrarre insight preziosi.
- Lo streaming di Oracle Cloud Infrastructure offre una soluzione a storage completamente gestita, scalabile e duratura dedicato all'inclusione di flussi di dati continui e ad elevato volume che puoi utilizzare ed elaborare in tempo reale. Lo streaming può essere utilizzato per messaggistica, log di applicazioni a elevato volume, telemetria operativa, dati click-stream Web o altri casi d'uso di modelli di messaggistica di pubblicazione/sottoscrizione in cui i dati vengono prodotti ed elaborati in maniera continua e sequenziale. I dati vengono sincronizzati con Oracle Cloud Infrastructure Object Storage e possono essere curati e ulteriormente trasformati per estrarre insight preziosi.
- Oracle Cloud Infrastructure Queue è un servizio serverless completamente gestito che consente di scollegare i sistemi e abilitare operazioni asincrone. Queue gestisce i dati transazionali ad alto volume che richiedono l'elaborazione indipendente dei messaggi senza perdita o duplicazione.
- Oracle Cloud Infrastructure Service Connector Hub è una piattaforma bus di messaggi cloud che offre un unico pannello di controllo per descrivere, eseguire e monitorare lo spostamento dei dati tra i servizi in Oracle Cloud Infrastructure. Per questa particolare architettura di riferimento verrà utilizzata per spostare i dati da Oracle Cloud Infrastructure Streaming o OCI Queue in Oracle Cloud Infrastructure Object Storage per rendere persistenti i dati grezzi e preparati nel livello di persistenza del data lakehouse.
Elaborazione streaming

L'elaborazione in streaming arricchisce i dati in streaming, rileva i pattern di eventi e crea un set diverso di flussi persistenti nel data lakehouse.
- Oracle Cloud Infrastructure GoldenGate Stream Analytics è un servizio completamente gestito e scalabile che elabora e analizza informazioni su larga scala in tempo reale utilizzando sofisticati pattern di correlazione, arricchimento dei dati e machine learning. Gli utenti possono esplorare i dati in tempo reale utilizzando grafici, mappe e visualizzazioni live. Gli utenti possono creare pipeline di streaming senza alcuna codifica manuale utilizzando strumenti grafici.
- Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che consente di eseguire applicazioni Apache Spark e Spark Streaming senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire applicazioni di big data e AI più velocemente, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operations. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorsa runtime predefinita.
Ecosistema open source
Puoi utilizzare l'ecosistema Open Source:
- Per l'elaborazione in batch e in streaming sfruttando diversi motori open source popolari come Hadoop, Spark, Flink o Trino
- Con Oracle Cloud Infrastructure Streaming sia come produttore che come consumatore
- Con Oracle Cloud Infrastructure Object Storage in cui può rendere persistenti i dati e consumare i dati
Puoi utilizzare Oracle Cloud Infrastructure Object Storage come data lake per rendere persistenti i data set che desideri condividere tra i diversi servizi di Oracle Cloud Infrastructure in momenti diversi.
Il servizio Big Data esegue il provisioning di cluster Hadoop, Spark o Flink completamente configurati, sicuri, ad alta disponibilità e dedicati, tra le altre tecnologie, on-demand. Ridimensiona il cluster per adattarlo ai carichi di lavoro di big data e analytics utilizzando una gamma di forme di computazione Oracle Cloud Infrastructure che supportano qualsiasi elemento, dai piccoli cluster di test e sviluppo ai grandi cluster di produzione. Adeguati rapidamente alla domanda aziendale e ottimizza i costi sfruttando le configurazioni di ridimensionamento automatico in base alle metriche o alla pianificazione. Sfrutta i profili cluster per creare cluster ottimali per un carico di lavoro o una tecnologia specifici.
Elaborazione batch
L'elaborazione in batch trasforma i data set su larga scala memorizzati nel data lakehouse. L'elaborazione in batch sfrutta i servizi nativi di Oracle Cloud Infrastructure che si integrano perfettamente con Oracle Cloud Infrastructure Object Storage e ti consente di creare dati curati per casi d'uso come l'aggregazione e l'arricchimento dei dati, l'inclusione del data warehouse e l'uso su larga scala di machine learning e dati AI.
- Oracle Cloud Infrastructure Data Integration, descritto sopra, è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una varietà di origini dati in servizi Oracle Cloud Infrastructure di destinazione, come Autonomous AI Lakehouse e Oracle Cloud Infrastructure Object Storage.
- Oracle Cloud Infrastructure Data Flow è un servizio di big data completamente gestito che consente di eseguire applicazioni Apache Spark e Spark Streaming senza dover distribuire o gestire l'infrastruttura. Ti consente di distribuire applicazioni di big data e AI più velocemente, perché puoi concentrarti sulle tue applicazioni senza dover gestire le operations. Le applicazioni di flusso dati sono modelli riutilizzabili costituiti da un'applicazione Spark e dalle relative dipendenze, parametri predefiniti e una specifica di risorsa runtime predefinita.
- Le trasformazioni dei dati Oracle consentono l'ELT (extract-load-transform) per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous AI Lakehouse per caricare e trasformare i dati da diverse origini dati in un'istanza di Oracle Autonomous AI Lakehouse.
  
  A seconda del caso d'uso, questi componenti possono essere utilizzati in modo indipendente o insieme per ottenere un trattamento dei dati altamente flessibile e performante.
Porzioni
Oracle Autonomous AI Lakehouse è un servizio di database self-driving, self-securing e self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun hardware né installare alcun software. OCI gestisce la creazione, il backup, l'applicazione di patch, l'upgrade e il tuning del database.

Dopo il provisioning, puoi ridimensionare il numero di memorie centrali CPU o la capacità di storage del database in qualsiasi momento senza influire sulla disponibilità o sulle prestazioni.

Oracle Autonomous AI Lakehouse può anche virtualizzare i dati che risiedono nello storage degli oggetti come tabelle partizionate esterne e ibride in modo da poter unire e utilizzare i dati derivati da altre origini con i dati del warehouse. Puoi anche spostare i dati cronologici dal warehouse allo storage degli oggetti e quindi utilizzarli senza problemi utilizzando tabelle partizionate ibride.

Oracle Autonomous AI Lakehouse può utilizzare i metadati raccolti in precedenza memorizzati nel Data Catalog per creare tabelle esterne e può sincronizzare automaticamente gli aggiornamenti dei metadati nel Data Catalog con la definizione delle tabelle esterne per mantenere la coerenza, semplificare la gestione e ridurre gli sforzi.

I vettori sono supportati in Autonomous Database, in quanto è un database multi-modello che supporta diversi tipi di dati, ovvero relazionale, JSON, spaziale e grafico. Il tipo di dati vettoriale consente di caricare e memorizzare incorporamenti vettoriali, nonché di creare indici vettoriali che possono quindi essere utilizzati per le applicazioni Retrieval Augmented Generation (RAG), il tutto in un'unica istanza cloud Autonomous AI Lakehouse. Questa funzionalità multi-modello consente l'analisi utilizzando tutti i tipi di dati che possono essere uniti in un'unica query, riducendo così la complessità e il rischio di avere database in silos specializzati per tipo di dati, garantendo al contempo maggiore sicurezza, affidabilità, scalabilità e facilità di analisi di tutti i dati.

Select AI, una funzione di database AI autonomo, consente di eseguire query sui dati utilizzando il linguaggio naturale, utilizzando LLM per convertire il testo di input dell'utente in Oracle SQL. Select AI elabora il prompt del linguaggio naturale, integra il prompt con i metadati e quindi genera ed esegue una query SQL.

La condivisione dei dati, una funzione di database AI autonomo, consente di fornire e utilizzare in modo sicuro dati e metadati, da altre parti che utilizzano il database AI autonomo o una tecnologia conforme a Delta-Sharing. La condivisione dei dati semplifica il consumo dei dati dai provider di condivisione, in quanto le viste astraggono le tabelle condivise sottostanti. Inoltre, le condivisioni live, che consentono AI destinatari di utilizzare dati attivi e nuovi, possono essere utilizzate quando sia il provider che il destinatario utilizzano Autonomous AI Database.

Le viste analitiche, una funzione di database AI autonomo, forniscono un modo rapido ed efficiente per creare query analitiche di dati memorizzati nelle tabelle e viste di database esistenti. Le viste analitiche organizzano i dati utilizzando un modello dimensionale. Consentono di aggiungere con facilità aggregazioni e calcoli ai data set e di presentare i dati nelle viste su cui è possibile effettuare query mediante SQL relativamente semplici. Questa funzione consente di modellare semanticamente uno schema a stella o fiocco di neve direttamente in Oracle Autonomous AI Lakehouse, utilizzando i dati memorizzati internamente ed esternamente e consente il consumo del modello utilizzando SQL e qualsiasi consumatore di dati conforme a SQL.

Inoltre, Autonomous Data Lake Accelerator, un componente di Autonomous AI Database, può utilizzare senza problemi i dati di storage degli oggetti, ridimensionare l'elaborazione per fornire query rapide, ridimensionare automaticamente l'istanza di computazione del database quando necessario e ridurre l'impatto sul carico di lavoro del database isolando le query di storage degli oggetti dall'istanza di computazione del database.
Memoria cloud
Oracle Cloud Infrastructure Object Storage è una piattaforma di storage su scala Internet e ad alte prestazioni che offre durabilità dei dati affidabile ed economica. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici. Puoi memorizzare o recuperare in tutta sicurezza i dati direttamente da Internet o dall'interno della piattaforma cloud. Molteplici interfacce di gestione ti consentono di iniziare in modo semplice e scalabile senza problemi, senza compromettere le prestazioni o l'affidabilità del servizio.

Oracle Cloud Infrastructure Object Storage può essere utilizzato anche come livello di cold storage per il data warehouse memorizzando i dati utilizzati di rado e poi unendoli perfettamente ai dati più recenti utilizzando tabelle ibride in Oracle Autonomous AI Lakehouse.

Il controllo dell'accesso granulare a livello di oggetto può essere applicato utilizzando i criteri IAM per gli oggetti, aumentando la sicurezza dei dati per gli accessi diretti al data lake.
Visualizza e impara
Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre le funzionalità di esplorare ed eseguire l'analitica collaborativa per l'utente, il team di lavoro e l'azienda. Supporta data scientist alle prime armi, formazione avanzata degli analisti aziendali ed esecuzione di modelli di machine learning (ML). I modelli di machine learning possono essere eseguiti sul servizio di analytics o direttamente su Oracle Autonomous AI Lakehouse come modelli incorporati in OML per previsioni batch su larga scala che sfruttano la potenza di elaborazione, la scalabilità e l'elasticità del warehouse e dei servizi AI OCI, come Oracle Cloud Infrastructure Vision.

Con Oracle Analytics Cloud ottieni anche funzionalità flessibili di gestione dei servizi, tra cui configurazione rapida, facile ridimensionamento e applicazione di patch e gestione automatizzata del ciclo di vita.
Impara e prevedi
- Data Science fornisce infrastrutture, tecnologie open source, librerie, pacchetti e strumenti di data science affinché i team di data science possano creare, formare e gestire modelli di machine learning (ML) in Oracle Cloud Infrastructure. Lo spazio di lavoro collaborativo e basato su progetti offre un'esperienza utente coerente end-to-end e supporta il ciclo di vita dei modelli predittivi.
  
  La funzione Job di Data Science consente ai data scientist di definire ed eseguire task di Machine Learning ripetibili su un'infrastruttura completamente gestita.
  
  La funzione di distribuzione del modello di Data Science consente ai data scientist di distribuire modelli addestrati come endpoint HTTP completamente gestiti in grado di fornire previsioni in tempo reale, infondendo intelligence in processi e applicazioni e consentendo all'azienda di reagire agli eventi pertinenti man mano che si verificano.
- Oracle Machine Learning offre potenti funzionalità di machine learning strettamente integrate in Autonomous AI Database, con supporto per Python e AutoML. Supporta modelli che utilizzano algoritmi open source e scalabili nel database che riducono la preparazione e lo spostamento dei dati. AutoML aiuta i data scientist ad accelerare il time-to-value delle iniziative di machine learning dell'azienda utilizzando la selezione automatica degli algoritmi, il campionamento adattivo dei dati, la selezione automatica delle funzioni e l'ottimizzazione automatica dei modelli. Con i servizi di Oracle Machine Learning disponibili in Oracle Autonomous AI Lakehouse, non solo puoi gestire i modelli, ma puoi anche distribuire tali modelli come endpoint REST al fine di democratizzare le previsioni in tempo reale all'interno dell'azienda, consentendo alle aziende di reagire agli eventi pertinenti man mano che si verificano, piuttosto che dopo il fatto.
Servizi AI e AI generativa
I servizi AI di Oracle Cloud Infrastructure forniscono un set di servizi AI pronti all'uso che possono essere utilizzati per supportare una vasta gamma di casi d'uso, dall'analisi del testo alla manutenzione predittiva. Questi servizi hanno modelli predefiniti e finemente ottimizzati che puoi integrare nelle pipeline di dati, negli analytics e nelle applicazioni utilizzando le API.
- Oracle Cloud Infrastructure Language esegue sofisticati analytics e traduzioni del testo su larga scala. Con modelli pre-addestrati e personalizzati, gli sviluppatori possono elaborare testo non strutturato ed estrarre insight senza competenze di data science. Esegui analisi del sentiment, estrazione delle frasi chiave, classificazione del testo, riconoscimento di entità denominate e rileva i dati PII nel testo. Personalizza i modelli per attività specifiche del dominio e traduci facilmente il testo in varie lingue. Oracle Cloud Infrastructure Language supporta anche la traduzione dei documenti e i job asincroni per l'elaborazione efficiente dei carichi di lavoro di grandi volumi.
- Oracle Cloud Infrastructure Speech sfrutta la potenza del linguaggio parlato consentendoti di convertire facilmente i file multimediali contenenti voce umana in trascrizioni di testo altamente accurate. OCI Speech può essere usato per trascrivere la chiamata dell'assistenza clienti, automatizzare i sottotitoli e generare metadati per gli asset multimediali in modo da creare un archivio in cui è possibile effettuare ricerche. OCI Speech supporta i processi di trascrizione in batch e live.
- Oracle Cloud Infrastructure Vision è un servizio AI per l'esecuzione di analisi delle immagini su larga scala basata sul deep learning. OCI Vision esegue attività di riconoscimento delle immagini e analisi video come la classificazione delle immagini, il rilevamento di oggetti e volti ed l'estrazione di testo. Puoi sfruttare modelli pre-addestrati o creare facilmente modelli di visione personalizzati per scenari specifici del settore e del cliente. OCI Vision è un servizio cloud nativo multi-tenant completamente gestito che consente di eseguire tutte le attività comuni di visione artificiale. Grazie ai modelli predefiniti disponibili e pronti all'uso, gli sviluppatori possono creare facilmente riconoscimento delle immagini e riconoscimento del testo nelle loro applicazioni senza competenze di machine learning (ML).
- Oracle Cloud Infrastructure Document Understanding esegue task di classificazione dei documenti e analisi dei documenti, come l'estrazione di testo, valori chiave e tabelle. OCI Document Understanding è un servizio cloud nativo multi-tenant completamente gestito, utile per tutte le attività comuni di analisi dei documenti.
- Oracle Cloud Infrastructure Generative AI è una soluzione completamente gestita che fornisce un set di modelli linguistici di grandi dimensioni (LLM, large language model) all'avanguardia e personalizzabili che coprono una vasta gamma di casi d'uso, tra cui chat, generazione di testo, generazione di riepilogo e creazione di integrazioni di testo. Utilizza l'area di gioco per provare i modelli pre-addestrati pronti all'uso o creare e ospitare i tuoi modelli personalizzati ottimizzati in base AI tuoi dati su cluster AI dedicati.
Arricchimento dati
L'arricchimento dei dati può migliorare i dati utilizzati per addestrare i modelli di machine learning per ottenere risultati di previsione migliori e più accurati.
L'etichettatura dei dati di Oracle Cloud Infrastructure consente di creare e sfogliare i data set, visualizzare i record di dati (testo o immagini) e applicare etichette AI fini della creazione di modelli AI/ML. Il servizio fornisce anche interfacce utente interattive progettate per facilitare il processo di etichettatura. Dopo che i record sono stati etichettati, il data set può essere esportato come JSON delimitato da riga da utilizzare nello sviluppo di modelli AI/ML.
Cerca
Le funzionalità di ricerca possono essere utilizzate come funzione complementare per esporre i dati agli utenti finali che richiedono dati di analytics operativi preindicizzati e quindi a bassa latenza.
Oracle Cloud Infrastructure Search with OpenSearch è un motore di ricerca full-text distribuito, completamente gestito, privo di manutenzione. OpenSearch ti consente di memorizzare, cercare e analizzare rapidamente grandi volumi di dati con tempi di risposta rapidi. Il servizio supporta la visualizzazione dei dati delle API OpenSearch e dei dashboard OpenSearch open source.
Analitica streaming
Gli analytics di streaming forniscono dashboard che forniscono un'analisi in tempo reale dei dati in streaming contestualizzati con dati curati e master memorizzati nel data lakehouse per rilevare pattern di interesse che possono quindi servire a utenti, applicazioni e cose.

Oracle Cloud Infrastructure GoldenGate Stream Analytics elabora e analizza informazioni su larga scala e in tempo reale utilizzando sofisticati pattern di correlazione, arricchimento dei dati e machine learning. Gli utenti possono esplorare i dati in tempo reale attraverso grafici in tempo reale, mappe, visualizzazioni e creare graficamente pipeline di streaming senza alcuna codifica manuale. Queste pipeline vengono eseguite in un servizio completamente gestito e scalabile per affrontare casi d'uso critici in tempo reale delle aziende moderne.
Storna ETL/Writeback
L'ETL inverso, a volte indicato come write-back, consente l'attivazione dei dati nei sistemi operativi e nei dispositivi, consentendo di infondere l'intelligenza derivata dai dati, direttamente nelle applicazioni e nei dispositivi utilizzati per supportare i processi aziendali.

I dati vengono serviti ai consumatori utilizzando diversi meccanismi, vale a dire utilizzando flussi e code che supportano un ampio set di consumatori che estraggono contemporaneamente informazioni che sono quasi in tempo reale e che vengono disaccoppiate da sistema di streaming analytics al fine di aumentare la resilienza e la scalabilità, utilizzando l'integrazione di applicazioni o dati per eseguire il push dei dati utilizzando adattatori predefiniti o utilizzando funzioni serverless per richiamare praticamente qualsiasi endpoint di applicazione o dispositivo.
- Il servizio di streaming Oracle Cloud Infrastructure offre una soluzione a storage completamente gestita, scalabile e duratura dedicato all'inclusione di flussi di dati continui e ad elevato volume che puoi utilizzare ed elaborare in tempo reale. Il servizio Streaming può essere utilizzato per messaggistica, log di applicazioni a elevato volume, telemetria operativa, dati click-stream Web o altri casi d'uso in cui i dati vengono prodotti ed elaborati in maniera continua e sequenziale.
- Oracle Cloud Infrastructure Queue è un servizio serverless completamente gestito che consente di scollegare i sistemi e abilitare operazioni asincrone. Queue gestisce i dati transazionali ad alto volume che richiedono l'elaborazione indipendente dei messaggi senza perdita o duplicazione.
- Oracle Integration è un ambiente completamente gestito e preconfigurato che consente di integrare applicazioni cloud e on-premise, automatizzare i processi aziendali, sviluppare applicazioni visive, utilizzare un file server conforme a SFTP per memorizzare e recuperare i file e scambiare documenti aziendali con un partner commerciale B2B utilizzando un portfolio di centinaia di adattatori e ricette per connettersi con applicazioni Oracle e di terze parti.
- Le trasformazioni dei dati Oracle consentono ELT per le tecnologie supportate selezionate, semplificando la configurazione e l'esecuzione delle pipeline di dati utilizzando un'interfaccia utente Web che consente agli utenti di creare e pianificare in modo dichiarativo flussi di dati e flussi di lavoro. Oracle Data Transforms è disponibile come ambiente completamente gestito all'interno di Oracle Autonomous AI Lakehouse per caricare e trasformare i dati da diverse origini dati in un'istanza di Oracle Autonomous AI Lakehouse.
- Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand, function-as-a-service. È basato su Oracle Cloud Infrastructure di livello enterprise e alimentato dal motore open source di Fn Project.
API
Il livello API consente di infondere l'intelligenza derivata da Data Science e Oracle Machine Learning nelle applicazioni, nei processi aziendali e nelle cose da influenzare e migliorare il funzionamento e la funzione. Il livello API fornisce un consumo sicuro dei modelli distribuiti da Data Science agli endpoint REST di Oracle Machine Learning e la possibilità di governare il sistema per garantire la disponibilità degli ambienti runtime. È inoltre possibile utilizzare le funzioni per eseguire logiche aggiuntive in base alle esigenze.
- Oracle Cloud Infrastructure API Gateway ti consente di pubblicare API con endpoint privati accessibili dall'interno della tua rete e che puoi esporre con indirizzi IP pubblici se vuoi che accettino il traffico Internet. Gli endpoint supportano la convalida dell'API, la trasformazione di richieste e risposte, CORS, autenticazione e autorizzazione e limitazione delle richieste. Consente l'osservabilità delle API per monitorare l'uso e garantire gli SLA. I piani di utilizzo possono anche essere utilizzati per monitorare e gestire i consumer di API e i client API che accedono alle API e per impostare livelli di accesso diversi per clienti diversi in modo da tenere traccia dell'uso dei dati consumati utilizzando le API. I piani di utilizzo sono una funzione chiave per supportare la monetizzazione dei dati.
- Oracle Cloud Infrastructure Functions è una piattaforma completamente gestita, multi-tenant, altamente scalabile, on-demand, function-as-a-service. È basato su Oracle Cloud Infrastructure di livello enterprise e alimentato dal motore open source di Fn Project.
- Oracle REST Data Services (ORDS) è un'applicazione Java che consente agli sviluppatori con competenze SQL e di database di sviluppare API REST per Oracle Database. Qualsiasi sviluppatore di applicazioni può utilizzare queste API da qualsiasi ambiente linguistico, senza installare e gestire driver client, nello stesso modo in cui accedono ad altri servizi esterni utilizzando REST, la tecnologia API più utilizzata. ORDS viene distribuito come funzione completamente gestita in Oracle Autonomous AI Lakehouse e può essere utilizzato per esporre le informazioni del lakehouse utilizzando le API ai consumer di dati.
Governance dati
Oracle Cloud Infrastructure Data Catalog offre visibilità su dove risiedono gli asset tecnici come i metadati e i rispettivi attributi e offre la possibilità di gestire un glossario aziendale mappato a tali metadati tecnici. Data Catalog può anche servire metadati a Oracle Autonomous AI Lakehouse per facilitare la creazione di tabelle esterne nel data warehouse.
Sicurezza dei dati

La sicurezza dei dati è fondamentale per esplorare e utilizzare al meglio i dati del lakehouse. Sfruttando un modello di sicurezza zero-trust con funzionalità di difesa approfondita e RBAC e garantendo la conformità con la normativa più rigorosa, la sicurezza dei dati fornisce controlli di sicurezza preventivi, investigativi e correttivi per garantire che l'esfiltrazione e le violazioni dei dati vengano prevenute.
- Oracle Data Safe è un servizio Oracle Cloud completamente integrato incentrato sulla sicurezza dei dati. Fornisce un set completo e integrato di funzioni per proteggere i dati sensibili e regolamentati nei database Oracle Cloud, come Oracle Autonomous AI Lakehouse. Le funzioni includono la valutazione della sicurezza, la valutazione degli utenti, la ricerca automatica dei dati, il mascheramento dei dati e l'audit delle attività.
- Oracle Cloud Infrastructure Audit offre visibilità sulle attività relative alle risorse e alle tenancy di Oracle Cloud Infrastructure (OCI). Gli eventi di log di audit possono essere utilizzati per gli audit di sicurezza per tenere traccia dell'uso e delle modifiche alle risorse OCI e per garantire la conformità agli standard e alle normative.
- Oracle Cloud Infrastructure Logging fornisce un'interfaccia singola altamente scalabile e completamente gestita per tutti i log nella tenancy, inclusi i log di audit. Utilizzare OCI Logging per accedere ai log da tutte le risorse OCI in modo da poterli abilitare, gestire e cercare.
- Oracle Cloud Infrastructure Vault è un servizio di gestione della cifratura che memorizza e gestisce chiavi di cifratura e segreti per accedere in modo sicuro alle risorse. Consente di utilizzare le chiavi gestite dai clienti per Oracle Autonomous AI Lakehouse e la cifratura dei data lake per una maggiore protezione dei dati in archivio. Consente ai segreti di memorizzare in modo sicuro i servizi e le credenziali utente per migliorare le impostazioni di sicurezza e garantire che le credenziali non vengano compromesse e utilizzate in modo inappropriato.

Architettura fisica

L'architettura fisica di questo data lakehouse supporta i seguenti elementi:

I dati vengono inclusi in modo sicuro utilizzando micro batch, streaming, API e file provenienti da origini dati relazionali e non relazionali
I dati vengono elaborati utilizzando una combinazione di Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow
I dati vengono memorizzati in Oracle Autonomous AI Lakehouse e Oracle Cloud Infrastructure Object Storage ed sono organizzati in base alla loro qualità e al loro valore
Oracle Autonomous AI Lakehouse offre ai consumatori servizi di dati di warehouse e lake in modo sicuro
Oracle Analytics Cloud invia i dati agli utenti business utilizzando le visualizzazioni
Oracle Analytics Cloud è esposto utilizzando Oracle Cloud Infrastructure Load Balancer protetto da Oracle Cloud Infrastructure Web Application Firewall (WAF) per fornire l'accesso utilizzando Internet
Oracle Cloud Infrastructure Data Science viene utilizzato per creare, formare e distribuire modelli di machine learning (ML)
Oracle Cloud Infrastructure API Gateway viene utilizzato per governare le distribuzioni dei modelli ML di Data Science
Oracle Cloud Infrastructure Data Catalog raccoglie i metadati da Oracle Autonomous AI Lakehouse e dallo storage degli oggetti
Oracle Data Safe valuta i rischi per i dati, implementa e monitora i controlli di sicurezza, valuta la sicurezza degli utenti, monitora l'attività degli utenti e soddisfa i requisiti di conformità alla sicurezza dei dati
Oracle Cloud Infrastructure Bastion viene utilizzato dagli amministratori per gestire le risorse cloud private

Il diagramma seguente illustra questa architettura di riferimento.

Segue la descrizione di lakehouse-architecture.png

Descrizione dell'illustrazione lakehouse-architecture.png

lago-architettura-oracolo-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

Il design per l'architettura fisica:

Utilizza 2 VCN, uno per l'hub e un altro per il carico di lavoro stesso
La connettività on-premise sfrutta sia Oracle Cloud Infrastructure FastConnect che la VPN site-to-site per la ridondanza
Tutto il traffico in entrata da on-premise e da Internet viene prima instradato nella VCN hub e poi nella VCN del carico di lavoro
Tutti i dati sono sicuri in transito e in archivio
I servizi vengono distribuiti con endpoint privati per aumentare il livello di sicurezza
La VCN è separata in diverse subnet private per aumentare il livello di sicurezza
I dati lake sono suddivisi in diversi bucket nello storage degli oggetti utilizzando un'architettura medallion

I potenziali miglioramenti di progettazione non descritti in questa distribuzione per motivi di semplicità includono:

Sfruttare una zona di atterraggio conforme a CIS completa
Sfrutta un firewall di rete per migliorare la postura di sicurezza complessiva ispezionando tutto il traffico e applicando i criteri

Suggerimenti

Utilizza i suggerimenti riportati di seguito come punto di partenza per elaborare i dati in streaming e un'ampia gamma di risorse di dati aziendali per l'analisi aziendale e il machine learning.

I requisiti potrebbero essere diversi dall'architettura descritta qui.

Oracle Autonomous AI Lakehouse
Questa architettura utilizza Oracle Autonomous AI Lakehouse su un'infrastruttura condivisa.
- Abilita la scalabilità automatica per fornire ai carichi di lavoro del database una potenza di elaborazione fino a tre volte superiore.
- Prendi in considerazione l'utilizzo di Oracle Autonomous AI Lakehouse su un'infrastruttura dedicata se desideri la funzionalità di database self-service all'interno di un ambiente cloud di database privato in esecuzione sul cloud pubblico.
- Prendi in considerazione l'uso della funzione di tabelle partizionate ibride di Autonomous AI Lakehouse per spostare partizioni di dati in Oracle Cloud Infrastructure Object Storage e servirle in modo trasparente a utenti e applicazioni. Ti consigliamo di utilizzare questa funzione per dati che non vengono spesso utilizzati e per i quali non hai bisogno delle stesse prestazioni dei dati memorizzati all'interno di Autonomous AI Lakehouse.
- Prendi in considerazione l'utilizzo della funzione tabelle esterne per utilizzare i dati memorizzati in Oracle Cloud Infrastructure Object Storage in tempo reale senza doverli replicare in Autonomous AI Lakehouse. Questa funzione unisce in modo trasparente e trasparente i data set curati al di fuori di Autonomous AI Lakehouse, indipendentemente dal formato (parquet, avro, orc, json, csv e così via), con i dati che risiedono in Autonomous AI Lakehouse.
- Prendi in considerazione l'uso della funzione in-memory del database per migliorare in modo significativo le prestazioni per analytics in tempo reale e carichi di lavoro misti. Carica i dati del lakehouse in memoria che devono essere serviti con bassa latenza e che si trovano in Autonomous AI Lakehouse tabelle interne, ibride partizionate o esterne.
- Prendi in considerazione l'utilizzo di Autonomous AI Lakehouse Accelerator durante il consumo dei dati di storage degli oggetti per offrire un'esperienza migliorata e più rapida agli utenti che consumano e uniscono i dati tra il data warehouse e il data lake.
- Prendi in considerazione l'archiviazione di integrazioni vettoriali in Autonomous AI Lakehouse insieme ad altri tipi di dati come dati relazionali o dati JSON per semplificare l'ingegneria e gli analytics dei dati su tutti i dati e mettere a terra in modo efficiente gli agenti RAG utilizzando tutti i dati.
- Prendi in considerazione l'utilizzo di Select AI come acceleratore per creare SQL semplici e complessi che possono essere utilizzati nell'ingegneria dei dati, nella business intelligence, nello sviluppo delle applicazioni o in qualsiasi task che deve essere creato SQL.
- Prendi in considerazione l'utilizzo di Select AI con applicazioni low code per semplificare ulteriormente il livello dell'applicazione.
- Prendi in considerazione l'utilizzo delle viste analitiche per modellare semanticamente lo schema sottostante a stella o fiocco di neve DW direttamente in Autonomous AI Lakehouse in modo che i dati granulari vengano aggregati automaticamente senza la necessità di preaggregarli, il modello semantico viene utilizzato utilizzando SQL in modo coerente con qualsiasi client conforme a SQL, incluso Oracle Analytics Cloud, assicurando che fatti e KPI siano serviti in modo coerente indipendentemente dal client e tutti i dati possono essere utilizzati nel modello semantico, indipendentemente dal fatto che siano memorizzati in Autonomous AI Lakehouse o in OCI Object Storage, rendendo questa funzione un livello di modellazione semantica perfetto per un'architettura lakehouse in cui fatti e dimensioni possono attraversare sia il DW che il lake.
- Prendi in considerazione l'utilizzo delle chiavi gestite dal cliente utilizzando OCI Vault se è necessario un controllo completo delle chiavi di cifratura Autonomous AI Lakehouse a causa dei criteri aziendali o normativi.
- Prendi in considerazione l'utilizzo di Database Vault in Autonomous AI Lakehouse per impedire agli utenti con privilegi non autorizzati di accedere AI dati riservati e prevenire così l'esfiltrazione e le violazioni dei dati.
- Prendi in considerazione l'utilizzo di Oracle Autonomous Data Guard per supportare un piano di continuità aziendale impostando e mantenendo i dati replicati su un'istanza di standby nella stessa area o in un'altra area.
- Prendi in considerazione l'utilizzo del mascheramento dinamico dei dati con Data Redaction per servire i dati mascherati agli utenti a seconda del loro ruolo e quindi garantire un accesso appropriato ai dati senza la necessità di duplicazione dei dati e mascheramento statico.
- Prendi in considerazione l'uso delle copie Autonomous AI Lakehouse per creare rapidamente altri ambienti transitori o non transitori. Utilizzare copie aggiornabili se l'ambiente di destinazione deve disporre di dati aggiornati. Utilizza Oracle Data Safe per mascherare in modo statico i dati riservati nelle copie per una maggiore sicurezza.
- Prendi in considerazione l'uso della condivisione dei dati come un modo sicuro e semplice per consumare e fornire dati, con altre istanze di Autonomous AI Database o con qualsiasi tecnologia conforme alla condivisione Delta.
- Prendi in considerazione l'uso della condivisione dei dati in tempo reale tra le istanze di Autonomous AI Database per utilizzare e fornire i dati in tempo reale.
- Prendi in considerazione l'utilizzo della condivisione dei dati con controllo delle versioni per condividere i dati con i consumatori. Ciò evita il costo delle query sui dati, poiché i dati vengono elaborati dai consumatori e non dal fornitore.
- Prendi in considerazione l'uso di URL di richiesta preautenticati per l'accesso AI dati di sola lettura e limitato nel tempo in Autonomous AI Lakehouse per abilitare la condivisione dei dati non riservati per i casi d'uso in cui il consumer non supporta la condivisione delta.
Storage degli oggetti/Data Lake
Questa architettura utilizza Oracle Cloud Infrastructure Object Storage, uno storage cloud altamente scalabile e duraturo, come lake storage.
- Prendi in considerazione l'organizzazione del tuo lake in diversi set di bucket che utilizzano un'architettura medallion (bronzo, argento, oro) o un'altra logica di partizionamento per separare i dati in base alla loro qualità e al loro arricchimento, applicare una sicurezza capillare ai consumatori che leggono i dati e applicare criteri di gestione del ciclo di vita diversi ai vari livelli.
- Prendi in considerazione l'uso di diversi livelli di storage degli oggetti e criteri del ciclo di vita per ottimizzare i costi di archiviazione dei dati del lake su larga scala.
- Prendi in considerazione l'utilizzo di chiavi gestite dal cliente che utilizzano il servizio Vault se è necessario un controllo completo delle chiavi di cifratura dello storage degli oggetti OCI a causa dei criteri aziendali o normativi.
- Prendi in considerazione l'uso della replica dello storage degli oggetti OCI per supportare un piano di continuità aziendale impostando la replica del bucket in un'altra area. Poiché lo storage degli oggetti OCI è altamente duraturo e gestisce diverse copie dello stesso oggetto in una singola area per il recupero nella stessa replica del bucket dell'area non è necessario.
- Prendi in considerazione l'uso dei criteri di Oracle Cloud Infrastructure Identity and Access Management (IAM) per gli oggetti, l'uso di nomi o pattern di oggetti, l'aumento della sicurezza dei dati per gli accessi diretti ai data lake.
- Prendi in considerazione l'uso di endpoint privati nello storage degli oggetti OCI per garantire un accesso sicuro e privato al data lake dalla VCN della piattaforma dati.
- Prendere in considerazione l'uso di origini di rete e criteri IAM per fare riferimento a tali origini e gestire gli indirizzi IP autorizzati ad accedere ai bucket e agli oggetti del data lake.
- Prendi in considerazione l'uso di OCIFS, una utility basata su python, per installare i bucket OCI Object Storage come file system, abilitando il supporto per le applicazioni che funzionano solo con NFS e devono caricare i file nello storage degli oggetti.
Oracle Machine Learning e Oracle Cloud Infrastructure Data Science
Questa architettura sfrutta Oracle Machine Learning e Oracle Cloud Infrastructure Data Science per eseguire e fornire previsioni in tempo reale a persone e applicazioni.
- Prendi in considerazione l'utilizzo di AutoML in Oracle Cloud Infrastructure Data Science o Oracle Machine Learning per accelerare lo sviluppo di modelli ML.
- Si consideri l'utilizzo di Open Neural Networks Exchange (ONNX) per l'interoperabilità. I modelli di parte ONNX 3rd possono essere distribuiti in OML ed esposti come endpoint REST o in Data Science ed esposti come endpoint HTTP.
- Prendi in considerazione il salvataggio del modello in Data Science come ONNX e importalo in OCI GoldenGate Stream Analytics se è necessario eseguire il punteggio e la previsione in una pipeline di dati in tempo reale per avere previsioni più tempestive che possano favorire i risultati aziendali in tempo reale.
- Prendi in considerazione l'uso degli ambienti Conda di Data Science per una migliore gestione e creazione di package delle dipendenze Python all'interno delle sessioni notebook Jupyter.
- Prendi in considerazione l'utilizzo di AI Quick Actions di Oracle Cloud Infrastructure Data Science per distribuire, valutare e ottimizzare i modelli di base in Data Science. Lavora con LLM curati e open source disponibili in Model Explorer o per portare il tuo modello.
- Prendi in considerazione l'utilizzo degli operatori AI low code di Data Science, disponibili nel pacchetto Python Accelerated Data Science, per eseguire in modo rapido ed efficiente previsioni, rilevamento delle anomalie o creare funzionalità di raccomandazione.
- Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Data Flow all'interno dell'ambiente Jupyter di Data Science per eseguire analisi esplorative dei dati, profilazione dei dati e preparazione dei dati su larga scala sfruttando l'elaborazione di scale out Spark.
- Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Data Labeling per etichettare dati come immagini, testi o documenti e usalo per addestrare modelli ML basati su Data Science o Oracle Cloud Infrastructure AI Services e migliorare così l'accuratezza delle previsioni.
- Prendi in considerazione la possibilità di distribuire un gateway API OCI per proteggere e gestire il consumo del modello distribuito se le previsioni in tempo reale vengono utilizzate da partner ed entità esterne.
Oracle Cloud Infrastructure Data Integration
Questa architettura utilizza Oracle Cloud Infrastructure Data Integration per supportare lo sviluppo dichiarativo e no-code o ETL e della pipeline di dati low-code.
- Sfrutta Oracle Cloud Infrastructure Data Integration per coordinare e pianificare le esecuzioni dell'applicazione Oracle Cloud Infrastructure Data Flow ed essere in grado di combinare ETL dichiarativo con la logica del codice Spark personalizzata. Utilizza le funzioni all'interno di Oracle Cloud Infrastructure Data Integration per estendere ulteriormente le funzionalità delle pipeline di dati.
- Prendi in considerazione l'uso del pushdown SQL per le trasformazioni che hanno Autonomous AI Lakehouse come destinazione per utilizzare un approccio ELT più efficiente, performante e sicuro rispetto all'ETL.
- Prendi in considerazione la possibilità di consentire a OCI Data Integration di gestire la deviazione dello schema delle origini dati per avere pipeline di dati più resilienti e a prova di futuro che sosterranno le modifiche dello schema delle origini dati.
Oracle Cloud Infrastructure Data Flow
Questa architettura utilizza Oracle Cloud Infrastructure Data Flow per supportare l'elaborazione dello streaming Spark e Spark su larga scala senza la necessità di avere e gestire cluster permanenti.
- Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Data Catalog come metastore Hive per Oracle Cloud Infrastructure Data Flow per memorizzare e recuperare in modo sicuro le definizioni degli schemi per gli oggetti in asset di dati non strutturati e semi-strutturati come Oracle Cloud Infrastructure Object Storage.
- Prendi in considerazione l'utilizzo di Delta Lake in Data Flow se sono necessarie transazioni ACID e unificazione dello streaming e dell'elaborazione in batch per i dati dei lake.
Big Data Service
Questa architettura utilizza Oracle Cloud Infrastructure Big Data Service per distribuire cluster ad alta disponibilità e scalabili di varie tecnologie open source come Spark, Hadoop, Trino o Flink in grado di elaborare dati in batch e in streaming. Il servizio Big Data persiste i dati in HDFS, persiste e legge i dati da OCI Object Storage e può scambiare i data set con altri servizi Oracle Cloud Infrastructure come Data Flow e Oracle Autonomous AI Lakehouse.
- Prendi in considerazione l'utilizzo del ridimensionamento automatico per ridimensionare automaticamente orizzontalmente o verticalmente i nodi di lavoro in base alle metriche o alla pianificazione per ottimizzare continuamente i costi in base alla domanda di risorse.
- Prendi in considerazione l'uso del connettore HDFS OCI per lo storage degli oggetti OCI per leggere e scrivere i dati nello e dallo storage degli oggetti OCI, fornendo così un meccanismo per produrre/consumare dati condivisi con altri servizi OCI senza doverli replicare e duplicare.
- Prendi in considerazione l'uso di Delta Lake su OCI BDS se sono necessarie transazioni ACID e unificazione dello streaming e dell'elaborazione in batch per i dati dei lake.
- Se devi utilizzare altro software open source, considera l'utilizzo di Oracle Cloud Infrastructure Registry, istanze di container o Oracle Cloud Infrastructure Kubernetes Engine per distribuire qualsiasi software open source che può essere containerizzato.
Oracle Cloud Infrastructure Streaming
Questa architettura sfrutta Oracle Cloud Infrastructure Streaming per consumare i dati in streaming dalle origini e per fornire dati in streaming ai consumatori.

Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Service Connector Hub per spostare i dati da OCI Streaming e per persistere in OCI Object Storage per supportare un'ulteriore analisi dei dati cronologici.
Oracle Analytics Cloud
Questa architettura utilizza Oracle Analytics Cloud (OAC) per fornire analytics aumentati agli utenti finali.

Prendi in considerazione l'utilizzo dell'integrazione predefinita che OAC ha con Oracle Cloud Infrastructure AI Services (Language and Vision Models) e OML (qualsiasi modello) per incorporare l'intelligence nei flussi di dati e nelle visualizzazioni che gli utenti finali consumano e quindi democratizzare il consumo di AI e ML.
Oracle Cloud Infrastructure AI Services
Questa architettura può sfruttare Oracle Cloud Infrastructure AI Services, a seconda dei casi d'uso implementati.

Prendi in considerazione l'utilizzo di OCI Data Labeling per etichettare i dati dei corsi di formazione che verranno utilizzati per ottimizzare e ottenere previsioni più accurate per Oracle Cloud Infrastructure AI Services come OCI Vision, OCI Document Understanding e .
Servizi Oracle Cloud Infrastructure Generative AI
Questa architettura può sfruttare i servizi di Oracle Cloud Infrastructure Generative AI, a seconda dei casi d'uso implementati.
- Prendi in considerazione l'uso del parco giochi on-demand e delle API che utilizzano LLM pre-addestrati per gestire la generazione di testo, la conversazione, l'estrazione dei dati, il riepilogo, la classificazione, il trasferimento di stile o la somiglianza semantica e per incorporare rapidamente l'intelligenza artificiale generativa nelle tue pipeline e nei tuoi processi.
- Prendi in considerazione l'utilizzo di cluster AI dedicati per adattare e ottimizzare in modo efficiente i LLM di base AI tuoi dati, garantendo isolamento e sicurezza dei dati completi.
- Prendi in considerazione la condivisione di cluster AI dedicati all'hosting all'interno di diversi team in tutta l'organizzazione per un'efficienza dei costi. Un singolo cluster può essere utilizzato per ospitare diversi modelli personalizzati, tutti che possono essere serviti con endpoint indipendenti e possono essere protetti con criteri IAM dedicati.
OCI API Gateway
Questa architettura utilizza OCI API Gateway per esporre in modo sicuro i servizi di dati e l'inferenza in tempo reale ai consumatori di dati.
- Prendi in considerazione l'uso di Oracle Cloud Infrastructure Functions per aggiungere la logica di runtime necessaria alla fine per supportare un'elaborazione API specifica che non rientra nell'ambito dei livelli di elaborazione e accesso e interpretazione dei dati.
- Prendi in considerazione l'utilizzo dei piani di utilizzo per gestire l'accesso dei sottoscrittori alle API, monitorare e gestire il consumo delle API, impostare livelli di accesso diversi per consumatori diversi e supportare la monetizzazione dei dati monitorando le metriche di utilizzo che possono essere fornite a un sistema di fatturazione esterno.
Oracle Cloud Infrastructure Data Catalog
Per avere una visione end-to-end completa e olistica dei dati memorizzati e in flusso sulla piattaforma, prendi in considerazione la possibilità di raccogliere non solo i data store che supportano il livello di persistenza dei dati, ma anche i data store di origine. Il mapping dei metadati tecnici raccolti al glossario business e l'integrazione con proprietà personalizzate consentono di mappare i concetti business e di documentare e gestire le definizioni di sicurezza e accesso.
- Per facilitare la creazione di tabelle esterne Oracle Autonomous AI Lakehouse che virtualizzano i dati memorizzati nello storage degli oggetti OCI, utilizza i metadati raccolti in precedenza da Data Catalog. Ciò semplifica la creazione di tabelle esterne, applica la coerenza dei metadati tra i data store ed è meno soggetto a errori umani.
- Prendi in considerazione l'utilizzo del tracciamento della derivazione per Oracle Cloud Infrastructure Data Integration e Oracle Cloud Infrastructure Data Flow per avere visibilità su come i dati sono stati inclusi, trasformati e memorizzati. Per una maggiore copertura, utilizza l'inclusione basata su API per sfruttare il framework aperto OpenLineage per tenere traccia della derivazione per qualsiasi origine e sistema.
Servizio di trasferimento dati di Oracle Cloud Infrastructure
Non è fattibile usare il servizio per il trasferimento dati di Oracle Cloud Infrastructure durante il caricamento dei dati mediante la connettività Internet pubblica. Ti consigliamo di prendere in considerazione l'utilizzo del trasferimento dati se il caricamento dei dati tramite la rete Internet pubblica richiede più di 1-2 settimane.
Data Safe e audit
L'aumento della postura della sicurezza che sfrutta le funzionalità di audit e avvisi consentirà di prevenire l'esfiltrazione dei dati e di eseguire analisi forensi in caso di violazione dei dati.
- Prendi in considerazione l'uso di Oracle Data Safe per eseguire l'audit dell'attività nel data warehouse e considera l'uso di Oracle Cloud Infrastructure Audit per eseguire l'audit del traffico verso i dati del lake.
- Prendi in considerazione l'utilizzo di Oracle Data Safe per la ricerca automatica dei dati sensibili su Autonomous AI Lakehouse e per mascherarli in modo statico durante la creazione di copie Autonomous AI Lakehouse per ambienti non di produzione, evitando così i rischi per la sicurezza.
- Prendi in considerazione l'uso di Oracle Data Safe SQL Firewall con Autonomous AI Lakehouse per aumentare il livello di sicurezza dei dati, proteggendo da rischi come attacchi SQL injection o account compromessi.
Distribuzione e automazione
Questa architettura fisica viene implementata utilizzando l'automazione Infrastructure as Code (IaC) per creare le risorse per distribuire un data lakehouse

Oracle Cloud Infrastructure Resource Manager ti consente di creare stack Terraform di risorse cloud distribuibili, condividere e gestire le configurazioni dell'infrastruttura e creare file di stato su più team e piattaforme. Prendi in considerazione l'utilizzo di Oracle Cloud Infrastructure Resource Manager per creare stack di implementazione per la creazione di ambienti non di produzione, per inserire nuovi team che richiedono servizi aggiuntivi e per standardizzare e incorporare policy IAM coerenti e guardrail di sicurezza conformi ai criteri definiti dall'organizzazione in termini di sicurezza e governance.
Continuità aziendale
Questa architettura descrive una distribuzione in un'unica area e può essere estesa a due aree per supportare il disaster recovery e abilitare un piano di continuità aziendale.
Oracle Cloud Infrastructure Full Stack Disaster Recovery è un servizio di orchestrazione e gestione del disaster recovery che fornisce funzionalità complete di disaster recovery per tutti i livelli di uno stack di applicazioni, tra cui infrastruttura, middleware, database e applicazione.
Prendi in considerazione l'utilizzo di OCI Full Stack Disaster Recovery per impostare piani di switchover e failover per il data lakehouse per automatizzare le attività di disaster recovery e ridurre i passi manuali in caso di transizione pianificata o non pianificata alla standby region.
Ottimizzazione dei costi
Prendi in considerazione l'utilizzo del monitoraggio dei costi e dell'uso di Oracle Cloud Infrastructure e delle funzioni di ottimizzazione dei costi per supportare continuamente le tue operazioni finanziarie.
- Prendi in considerazione l'utilizzo dei report su costi e utilizzo per ottenere e monitorare l'uso delle risorse cloud e i relativi costi. Utilizza i report sui costi CSV FOCUS standard del settore che vengono prodotti per l'integrazione con le soluzioni per le operazioni finanziarie della 3a parte.
- Prendi in considerazione l'utilizzo dell'analisi dei costi per tenere traccia dei costi sostenuti da diversi team, progetti e ambienti.
- Prendi in considerazione l'uso di tag di registrazione dei costi per contrassegnare le risorse cloud per team, progetti o ambienti specifici.
- Prendere in considerazione l'uso dei budget per impostare limiti relativi di spesa e avvisi di impostazione per sapere quando si potrebbe superare il budget per il progetto, il team o la spesa complessiva.
Interoperabilità
Questa architettura sfrutta ampiamente gli standard di settore per interagire con lo scenario eterogeneo IT più ampio di qualsiasi organizzazione in modo che possa consumare e servire qualsiasi dato a qualsiasi applicazione, sistema o persona.
L'architettura supporta formati di file aperti come Parquet o Avro, quindi i dati possono essere memorizzati nel formato più appropriato per ogni caso d'uso. Inoltre, supporta formati di tabelle aperte come Iceberg e Delta Lake per garantire l'interoperabilità tra le tecnologie Oracle e altre tecnologie 3rd party.
- Prendi in considerazione l'utilizzo del supporto Iceberg di Oracle Autonomous AI Lakehouse per leggere le tabelle Iceberg persistenti sul data lake e servirle ai consumatori. Le tabelle Iceberg possono essere servite come tabelle esterne o caricate in Autonomous AI Lakehouse.
- Prendere in considerazione l'utilizzo del supporto del formato universale Delta Lake di Flusso di dati per leggere, elaborare e rendere persistenti i dati nel data lake. L'utilizzo di Delta Lake durante la generazione di metadati per altri formati di tabelle aperte come Iceberg e Hudi consente a diversi motori di elaborazione di leggere gli stessi dati.
Approccio organizzativo
Questa architettura è flessibile e può supportare diversi tipi di approcci organizzativi che vanno da un approccio centralizzato a un approccio completamente decentralizzato e quindi può essere adottata e utilizzata da qualsiasi organizzazione che voglia estrarre valore dai propri dati.

Questa architettura utilizza in modo estensivo controlli granulari per l'autenticazione e l'autorizzazione con OCI Identity and Access Management (IAM).

Prendi in considerazione l'utilizzo di IAM per separare le diverse linee di business e i diversi team utilizzando il lakehouse per decentralizzare la proprietà della creazione dei prodotti di dati e applicare la segregazione dei domini di dati se la tua organizzazione desidera adottare un approccio organizzativo decentralizzato.

OCI ha funzionalità di automazione e Infrastructure as Code come chiavi per una distribuzione di architettura di successo, sfruttando framework come Terraform e Ansible.

Se la tua organizzazione sta adottando un approccio decentralizzato e implementando i domini di dati in base a tale approccio, prendi in considerazione l'uso dei modelli Terraform predefiniti e di OCI Resource Manager per inserire rapidamente e in modo coerente i domini di dati nella piattaforma dati.

Considerazioni

Durante la raccolta, l'elaborazione e la cura dei dati dell'applicazione per l'analisi e il machine learning, prendere in considerazione le seguenti opzioni di implementazione.

Linee guida	Consigliato	Altre opzioni	Motivazione
Data Refinery	Oracle Cloud Infrastructure Data Integration GoldenGate dell'infrastruttura Oracle Cloud	Oracle Data Integrator Trasformazioni dei dati di Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration fornisce una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile ed efficiente in termini di costi. Oracle Cloud Infrastructure GoldenGate offre una piattaforma di replica dei dati cloud nativa, serverless, completamente gestita e non intrusiva scalabile, efficiente in termini di costi e che può essere distribuita in ambienti ibridi.
Persistenza dati	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse è un database facile da usare, completamente autonomo, dotato di scalabilità elastica e in grado di offrire prestazioni rapide e per le query, senza richiesta l'amministrazione del database. Offre inoltre l'accesso diretto ai dati da tabelle partizionate esterne o ibride di storage degli oggetti. Oracle Cloud Infrastructure Object Storage memorizza un numero illimitato di dati in formato raw.
Elaborazione dati	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow Oracle Cloud Infrastructure Servizio Big Data	Strumenti di terze parte	Oracle Cloud Infrastructure Data Integration fornisce una piattaforma ETL cloud nativa, serverless e completamente gestita, scalabile e a costi contenuti. Oracle Cloud Infrastructure Data Flow fornisce un ambiente Spark serverless per elaborare i dati su larga scala con un modello pay-per-use ed estremamente elastico. Oracle Cloud Infrastructure Big Data Service offre Hadoop-as-a-service di livello aziendale con sicurezza end-to-end, prestazioni elevate e facilità di gestione e upgradeability.
Accesso e interpretazione	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Servizi AI di Oracle Cloud Infrastructure	Strumenti di terze parte	Oracle Analytics Cloud è completamente gestito e strettamente integrato con i dati curati inOracle Autonomous AI Lakehouse. Oracle Cloud Infrastructure Data Science è una piattaforma self-service completamente gestita che consente ai team di data science di creare, formare e gestire modelli di machine learning (ML) in Oracle Cloud Infrastructure. Data ScienceData Science fornisce strumenti di infrastruttura e data science come AutoML e funzionalità di distribuzione dei modelli. Oracle Machine Learning è una piattaforma self-service completamente gestita per la data science disponibile con Oracle Autonomous AI Lakehouse che sfrutta la potenza di elaborazione del warehouse per creare, addestrare, testare e implementare modelli ML su larga scala senza la necessità di spostare i dati al di fuori del warehouse. I servizi AI di Oracle Cloud Infrastructure sono un set di servizi che forniscono modelli predefiniti creati e addestrati in modo specifico per eseguire attività come l'inferenza di potenziali anomalie o il rilevamento delle opinioni.

Distribuire

Il codice Terraform per questa architettura di riferimento è disponibile in GitHub. Puoi inserire il codice in Oracle Cloud Infrastructure Resource Manager con un solo clic, creare lo stack e distribuirlo. In alternativa, puoi scaricare il codice da GitHub nel computer, personalizzare il codice e distribuire l'architettura utilizzando l'interfaccia CLI Terraform.

Distribuisci utilizzando Oracle Cloud Infrastructure Resource Manager:
1. Fare clic su
  Se non si è già connessi, immettere la tenancy e le credenziali utente.
2. Esaminare e accettare i termini e i termini.
3. Selezionare l'area in cui si desidera distribuire lo stack.
4. Seguire i prompt visualizzati e le istruzioni per creare lo stack.
5. Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Piano.
6. Attendere il completamento del job e rivedere il piano.
  Per apportare eventuali modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Eseguire quindi di nuovo l'azione Piano.
7. Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
Distribuire utilizzando l'interfaccia CLI Terraform:
1. Vai su GitHub.
2. Duplicare o scaricare il repository nel computer locale.
3. Seguire le istruzioni del documento README.

Scopri di più

Scopri di più sulle caratteristiche di questa architettura e sulle architetture correlate.

Conferme

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

Log delle modifiche

In questo log sono elencate le modifiche significative.

28 ottobre 2024

L'ampiezza funzionale dell'architettura è stata aggiornata per includere offerte di prodotti e funzionalità estese, tra cui:
- Aggiunta della condivisione dei dati come origine dati e consumatore dati.
- Aggiunta inclusione basata su API.
- Sono state aggiunte offerte estese per l'intelligenza artificiale (lingua, sintesi vocale, visione, comprensione dei documenti) e per i servizi di intelligenza artificiale generativa.
- Aggiunto ETL/Writeback inverso per fornire intelligence derivata dai dati direttamente ad applicazioni e dispositivi.
Sono stati effettuati aggiornamenti corrispondenti alle sezioni Raccomandazioni e Considerazioni.
Numerosi aggiornamenti relativi al prodotto sono stati effettuati in tutto il testo.

Giugno 21, 2023

Aggiunta di istruzioni per distribuire l'architettura utilizzando Oracle Cloud Infrastructure Resource Manager.
Aggiornato il link GitHub.
Diagrammi dell'architettura aggiornati.