Crea un ambiente OCI Data Integration sicuro con task predefiniti provenienti dai modelli

Crea task di elaborazione dati sicuri e scalabili da origini esterne a un data store di destinazione di Oracle Autonomous Data Warehouse utilizzando il servizio Oracle Cloud Infrastructure Data Integration (OCI Data Integration).

In questa architettura di riferimento, stiamo considerando uno scenario in cui i tuoi dati aziendali vengono distribuiti su data store on premise, mentre l'azienda ha già cercato di migrare alcune applicazioni nel cloud. OCI Data Integration può estendere qualsiasi funzionalità, preesistente on premise e su altri cloud, sfruttando la connettività di rete e data store presente nel fabric OCI in modo sicuro e scalabile.

Architettura

Questa architettura illustra i diversi componenti che potrebbero essere coinvolti nello scenario precedente.

Per una strategia multicloud, è possibile incontrare tecnologie e servizi di dati in altri provider cloud per i quali OCI fornisce riferimenti all'architettura per la connettività ad altri provider cloud. I data store on-premise variano per più tecnologie, dai dati memorizzati nei file ai data set basati su processi in ERP.

Il diagramma riportato di seguito illustra l'architettura di riferimento e il percorso dei dati.



oci-data-integration-flow-oracle.zip

Di seguito sono riportati i passi per includere, elaborare e arricchire in modo sicuro i dati per diventare una parte delle informazioni di destinazione memorizzate nel database a valle o nel lakehouse.

  1. Attraverso Oracle Cloud Infrastructure FastConnect o VPN da sito a sito, è possibile includere origini dati on premise utilizzando i connettori degli asset dati di Integrazione dei dati OCI.
  2. Analogamente, le origini dati raggiungibili dai connettori OCI Data Integration Data Assets possono essere utilizzate per estrarre i set di dati che risiedono negli altri cloud (ad esempio applicazioni personalizzate, applicazioni non Oracle, database Oracle in esecuzione su cloud di terze parti, Oracle Fusion SaaS, servizi cloud di terze parti e applicazioni). Inoltre, i dati possono essere caricati in file di caricamento di massa nei bucket di Oracle Cloud Infrastructure Object Storage ogni volta che non sono accessibili direttamente da un connettore dell'asset dati di integrazione dati OCI.

    Oracle ha sviluppato soluzioni di connettività cloud specifiche per altri provider cloud come Microsoft Azure, Amazon Web Services e Google Cloud Platform. In assenza di interoperabilità verticale del cloud, la connettività ai servizi o alle applicazioni può essere effettuata in modo sicuro attraverso un gateway NAT, garantendo solo il traffico in uscita verso Internet è consentito. OCI riduce l'esposizione dei dati su Internet crittografando la connettività end-to-end agli endpoint. Tuttavia, nell'inclusione, le pipeline di integrazione dati OCI possono orchestrare altri tipi di accettazione dei dati, ad esempio lo streaming dei dati in tempo reale e le repliche dell'origine dati ad alto volume con Oracle GoldenGate. Le funzionalità di orchestrazione che consentono di richiamare le chiamate API REST ai servizi OCI possono utilizzare il rilevamento delle modifiche ai file nei bucket dello storage degli oggetti OCI e la combinazione di eventi e funzioni di integrazione, eseguire trickle sui flussi di dati di inclusione.

  3. Una volta inseriti nel fabric OCI, i dati vengono elaborati su reti VCN (Virtual Cloud Network) esclusive che possono essere ulteriormente isolate dall'accesso a Internet. I servizi di integrazione dati (OCI Data Integration) tramite i flussi di dati possono eseguire più trasformazioni in un'interfaccia priva di codice, mappando le entità di origine e destinazione e le rispettive trasformazioni. Allo stesso tempo, si verificano trasformazioni dei dati, i servizi di Data Catalog OCI eseguono la catalogazione per fornire la derivazione. I dati in archivio nei database Oracle possono essere soggetti a normative per la privacy e la conformità. Oracle Data Safe valuta le impostazioni di sicurezza del database, identificando e classificando i rischi, infine mascherando le informazioni considerate sensibili. Un'altra risorsa per la sicurezza dei dati e delle informazioni, OCI Vault, fornisce servizi per memorizzare e gestire chiavi e segreti come le informazioni e le password degli account, crittografarli e semplificare il processo complessivo di protezione dei dati.
  4. Mentre le pipeline di integrazione dei dati OCI e i flussi di dati di integrazione dei dati OCI promuovono l'arricchimento degli asset di dati all'interno, gli operatori REST possono anche proteggere l'accesso ad altri servizi OCI. In questa capacità, l'orchestrazione dell'integrazione dei dati OCI può richiamare i notebook in Data Science per l'apprendimento automatico o interrogare i servizi di intelligenza artificiale per aumentare i dati con Previsione o Rilevamento anomalie. OCI Data Integration Orchestration può attivare i motori Spark per espandere un'ampia elaborazione dati utilizzando OCI Data Flow con lo stesso fabric OCI sicuro. Tutta la gestione dell'orchestrazione, ad esempio Monitoraggio, Registrazione e Notifiche, è integrata tramite il meccanismo esatto.
  5. Integrazione dei dati OCI scrive in qualsiasi area di memorizzazione Oracle all'interno di OCI o in locale, oltre alle combinazioni di data lake OCI e a MySQL. Analytics sfrutta immediatamente le aree di memorizzazione di destinazione con risorse estese per la visualizzazione dei dati, la modellazione aziendale e la generazione di report ottimali.
  6. Consumatori, produttori e sviluppatori di dati sono organizzati in tutta sicurezza in base a criteri dettagliati per il controllo degli accessi a dati e risorse.

Il diagramma dell'architettura riportato di seguito esegue un ulteriore drill-down dell'implementazione, analizzando la separazione suggerita tra le sottoreti di rete.



oci-data-integration-arch-oracle.zip

I servizi OCI Data Integration forniscono connettività pronte all'uso a molte origini dati e i microbatch possono elaborare i dati in modo incrementale nell'ambiente OCI. Analogamente, altri servizi OCI possono essere chiamati ad arricchire e gestire ulteriormente i data set.

  • L'elaborazione batch trasforma i data set su larga scala dai sistemi di origine, sfruttando i servizi nativi OCI che si integrano perfettamente con lo storage degli oggetti OCI e ti consentono di creare dati curati per casi d'uso quali l'aggregazione e l'arricchimento dei dati, l'inclusione del data warehouse, l'apprendimento automatico e l'uso dei dati AI su larga scala.
  • OCI Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da varie origini dati nei servizi Oracle Cloud Infrastructure di destinazione, come Autonomous Data Warehouse e OCI Object Storage.
  • OCI Data Integration orchestra le dipendenze all'interno dei flussi di dati di elaborazione ma anche con i servizi Oracle Cloud Infrastructure rimanenti, come OCI Artificial Intelligence e Oracle Machine Learning per l'arricchimento dei dati o un'ulteriore classificazione e Data Safe per la sicurezza e la conformità dei dati. I criteri con controllo granulare dell'accesso mantengono l'autenticazione e l'autorizzazione service-to-service.
  • I modelli di applicazione di integrazione dati OCI forniscono un set di task di integrazione dati OCI (REST (API), SQL, Integration (data flow) e Pipelines) immediatamente disponibili per l'uso. I task sono completamente parametrizzati, consentendo loro di utilizzarli direttamente. I task possono anche essere salvati in nuovi progetti e cartelle, consentendo di modificare la progettazione in modo da includere ulteriori dettagli di implementazione.

L'architettura è dotata dei componenti elencati di seguito.

  • Area

    Un'area Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, definiti domini di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (in tutti i paesi o anche in continenti).

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile e definita dal software configurata in un'area Oracle Cloud Infrastructure. Analogamente alle reti di data center tradizionali, i VCN offrono il controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che puoi modificare dopo aver creato la VCN. Puoi segmentare una VCN nelle subnet che possono essere definite nell'area o in un dominio di disponibilità. Ogni subnet è composta da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. Puoi modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Integrazione dati

    Oracle Cloud Infrastructure Data Integration è un servizio cloud nativo completamente gestito, multi-tenant, serverless che consente di eseguire task ETL comuni come l'inclusione di dati da origini diverse, la pulizia, la trasformazione e la rimodellazione di tali dati e il caricamento efficiente in origini dati target su OCI.

    L'inclusione dei dati da varie origini (ad esempio Amazon Redshift, Azure SQL Database e Amazon S3) nello storage degli oggetti e in Autonomous Data Warehouse è il primo passo di questo processo.

  • Storage degli oggetti

    Lo storage degli oggetti garantisce un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi backup del database, dati analitici e contenuti avanzati, ad esempio immagini e video. Puoi memorizzare i dati in tutta sicurezza e poi recuperarli direttamente da Internet o dall'interno della piattaforma cloud. Puoi ridimensionare lo storage in modo trasparente senza alcun peggioramento a livello di prestazioni o affidabilità dei servizi. Utilizza lo storage standard per lo storage "hot" a cui devi accedere in modo rapido, immediato e frequente. Utilizzare lo storage di archivio per lo storage "freddo" che si mantiene per lunghi periodi di tempo e raramente può accedere.

  • Data Science

    Oracle Cloud Infrastructure Data Science è una piattaforma completamente gestita e serverless che i team di data science possono utilizzare per creare, formare e gestire modelli di apprendimento automatico su Oracle Cloud Infrastructure (OCI). Può integrarsi facilmente con altri servizi OCI come Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e molto altro ancora. Puoi creare e valutare modelli di apprendimento automatico di alta qualità che aumentano la flessibilità del business mettendo in funzione rapidamente i dati affidabili dell'azienda e puoi supportare obiettivi aziendali basati sui dati con una distribuzione più semplice dei modelli ML.

  • Oracle Machine Learning

    Oracle Machine Learning offre funzioni per creare, formare e distribuire modelli per i dati nel database. Oracle Machine Learning offre un'interfaccia notebook Zeppelin che consente ai data scientist di addestrare i modelli utilizzando la libreria client Python OML4Py. Oracle Machine Learning offre anche un approccio senza codice alla formazione dei modelli con l'interfaccia utente AutoML. La distribuzione di modelli come API REST può essere eseguita tramite i servizi Oracle Machine Learning. C'è, tuttavia, un supporto limitato per il software open source.

  • Servizi AI

    I servizi AI di Oracle Cloud Infrastructure offrono una raccolta di API di modello pre-addestrate e personalizzabili su casi d'uso che vanno da linguaggio, visione, discorso, decisione e previsione. I servizi AI forniscono previsioni dei modelli accessibili tramite endpoint dell'API REST. Questi servizi forniscono modelli pre-addestrati all'avanguardia e devono essere presi in considerazione e valutati prima di formare modelli di apprendimento automatico personalizzati utilizzando i servizi da 1 a 6. In alternativa, i servizi Oracle Machine Learning offrono una serie di modelli pre-addestrati per linguaggio (argomento, parole chiave, sommario, somiglianza) e visione.

  • Data Safe

    Oracle Data Safe è un servizio cloud regionale completamente integrato che offre un set completo di funzioni per proteggere i dati riservati e regolamentati nei database Oracle. Data Safe supporta anche database in locale, Oracle Exadata Database Service on Cloud@Customer e distribuzioni multicloud. Tutti i clienti di Oracle Database possono ridurre il rischio di violazione dei dati e semplificare la conformità utilizzando Oracle Data Safe per valutare il rischio di configurazione e utente, monitorare ed eseguire l'audit dell'attività degli utenti e per trovare, classificare e mascherare i dati riservati.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e l'ottimizzazione del database.

Suggerimenti

Utilizzare i seguenti suggerimenti come punto di partenza. I requisiti potrebbero essere diversi dall'architettura descritta qui.
  • VCN

    Quando crei una rete VCN, determina il numero di blocchi CIDR necessari e la dimensione di ogni blocco in base al numero di risorse che intendi collegare alle subnet nella VCN. Usa blocchi CIDR che si trovano nello spazio di indirizzi IP privati standard.

    Selezionare i blocchi CIDR che non si sovrappongono ad altre reti (in Oracle Cloud Infrastructure, nel data center on premise o in un altro provider cloud) a cui si intende impostare connessioni private.

    Dopo aver creato una VCN, puoi modificarne, aggiungere e rimuovere i blocchi CIDR.

    Quando si progettano le subnet, tenere in considerazione il flusso di traffico e i requisiti di sicurezza. Collegare tutte le risorse all'interno di un livello o ruolo specifico alla stessa subnet, che può essere utilizzata come limite di sicurezza.

  • Modelli OCI Data Integration

    Molte attività di gestione giornaliere possono essere facilmente automatizzate utilizzando o riutilizzando le attività dei modelli. Inoltre, i modelli ampliano le funzionalità di elaborazione e gestione dei dati di OCI Data Integration offrendo un set distinto di task personalizzati per assistere i tecnici dei dati. I casi d'uso per chiamare altri servizi OCI come Oracle Cloud Infrastructure AI Services per le classificazioni dei documenti, Oracle Data Safe per memorizzare i contenuti di mascheramento e controllare e generare report nel feed incrementale per Autonomous Data Warehouse sono modelli di base per semplificare l'uso di OCI Data Integration.

    L'elenco dei modelli attualmente disponibili è:

    • Gestione dell'area di memorizzazione oggetti Oracle

      Applicazione con task REST dedicati allo storage degli oggetti per copiare, eliminare e rinominare gli oggetti e creare ed eliminare i bucket.

    • Immagine Oracle Vision

      Applicazione con task REST per l'esecuzione dell'analisi delle immagini di Visione OCI. I task includono la classificazione delle immagini, il rilevamento degli oggetti e il rilevamento del testo delle immagini.

    • Documento Oracle Vision

      Applicazione con task REST per l'esecuzione dell'intelligenza artificiale del documento OCI Vision. I task includono la classificazione dei documenti, il rilevamento del valore chiave dei documenti, la classificazione della lingua dei documenti, il rilevamento della tabella dei documenti e il rilevamento del testo dei documenti.

    • Mascheramento di Oracle DataSafe

      Applicazione con task con parametri per generare un modello sensibile Oracle Data Safe e un mascheramento da uno schema di database Oracle di destinazione.

    • Caricare i file dallo storage degli oggetti Oracle ad ADW

      Applicazione con task per caricare tipi di file diversi dallo storage degli oggetti OCI in Autonomous Data Warehouse: JSON, Parquet, CSV, Avro.

    • Oracle Database per il caricamento incrementale di Autonomous Data Warehouse (gestito dal cliente)

      Applicazione che consente l'esecuzione di task incrementali in base alla quale viene eseguita l'ultima esecuzione in una tabella di metadati memorizzata in uno schema di destinazione di Autonomous Data Warehouse.

    • Oracle Fusion Applications mediante Oracle Business Intelligence Publisher (BIP) per il caricamento incrementale ADW

      Applicazione che consente a Oracle Fusion Applications di utilizzare i report di Oracle Business Intelligence Publisher (BIP) per eseguire estrazioni basate sull'ultima esecuzione in una tabella di metadati memorizzata in uno schema di destinazione di Autonomous Data Warehouse.

Considerazioni

Durante la raccolta, l'elaborazione e la cura dei dati dell'applicazione per l'analisi e l'apprendimento automatico, prendere in considerazione le seguenti opzioni di implementazione.

  • Elaborazione dati
    • Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL serverless, serverless e completamente gestita, scalabile e a costi contenuti.
    • Oracle Cloud Infrastructure Data Flow offre un ambiente Spark serverless per elaborare i dati su larga scala con un modello pay-per-use, estremamente elastico.
    • Oracle Cloud Infrastructure Big Data Service fornisce Hadoop-as-a-service di livello enterprise con sicurezza end-to-end, prestazioni elevate e facilità di gestione e di aggiornamento.
  • Persistenza dati
    • Oracle Autonomous Data Warehouse è un database facile da usare e completamente autonomo che si ridimensiona elasticamente e garantisce prestazioni rapide per le query, non richiede l'amministrazione del database. Inoltre, offre accesso diretto ai dati dalle tabelle partizionate esterne o ibride dello storage degli oggetti.
    • Oracle Cloud Infrastructure Object Storage memorizza dati illimitati in formato raw.
  • Raffineria dati

    Oracle Cloud Infrastructure Data Integration offre una piattaforma ETL serverless, completamente gestita e cloud nativa, scalabile ed economica.

Distribuisci

Il codice Terraform per questa architettura di riferimento è disponibile in GitHub.

  1. Vai a GitHub.
  2. Duplicare o scaricare il repository sul computer locale.
  3. Seguire le istruzioni riportate nel documento README.

Conferme

  • Author: Mario Miola