Distribuisci un data lake sfruttando Power BI su Oracle Database@Azure
Molte aziende sfruttano Microsoft Power BI con data lake su Microsoft Azure per ricavare insight aziendali utili.
È possibile espandere queste funzionalità utilizzando un'architettura medaglione che include Azure Data Factory, Azure Data Lake Storage, Azure Compute, Oracle Database@Azure (una Oracle Autonomous Database completamente gestita o un'istanza Oracle Exadata Database Service gestita in modo congiunto) e Power BI per affrontare diverse sfide chiave relative ai dati affrontate dai clienti:
- Silos di dati e integrazione: Azure Data Factory acquisisce dati da origini diverse in un data lake unificato, abbattendo i silos e fornendo un'unica fonte di informazioni affidabili.
- Qualità e coerenza dei dati: Autonomous Data Warehouse nel livello di cura garantisce dati puliti, coerenti e di alta qualità attraverso regole di deduplicazione e qualità, riducendo gli errori e migliorando il processo decisionale.
- Scalabilità e prestazioni: le risorse di calcolo scalabili di Azure e l'architettura serverless di Autonomous Data Warehouse o Oracle Exadata Database Service gestiscono l'elaborazione di dati su larga scala in modo efficiente, mantenendo al contempo prestazioni ottimali man mano che i volumi di dati e l'adozione degli utenti (concorrenza) aumentano.
- Trasformazioni complesse: Azure Compute e Autonomous Data Warehouse o Oracle Exadata Database Service eseguono trasformazioni e analisi complesse in modo efficiente, riducendo i tempi di elaborazione e concentrandosi sugli insight.
- Gestione dei costi: i modelli serverless e pay-as-you-go per i servizi Azure e Autonomous Data Warehouse o Oracle Exadata Database Service ottimizzano i costi, assicurandoti di pagare solo per ciò che utilizzi.
- Governance dei dati e compliance: I livelli strutturati di gestione dei dati facilitano una migliore governance, tracciabilità e compliance normativa.
- Analitica integrata: gli utenti sono in grado di applicare gli analytics direttamente AI propri dati utilizzando funzionalità integrate come l'intelligenza artificiale (AI), il machine learning (ML), gli analytics grafici, spaziali e di testo.
Di seguito sono riportati alcuni casi d'uso standard.
- Retail Analytics: integra i dati delle vendite online, delle transazioni in negozio e del feedback dei clienti, ottimizzando l'inventario e le strategie di marketing.
- Servizi finanziari: analizza i dati delle transazioni per il rilevamento delle frodi e la compliance normativa, mitigando i rischi.
- Healthcare Analytics: integra i dati dei pazienti provenienti da EHR, risultati di laboratorio e dispositivi indossabili, migliorando l'assistenza ai pazienti e la gestione della salute.
Questa architettura consente ai clienti aziendali di tutti i settori di sfruttare i dati in modo efficace per consentire ai propri utenti aziendali di prendere decisioni informate per ottenere risultati aziendali migliori.
Architettura logica
Il data lake analitico può includere dati da più origini e fornire approfondimenti aziendali utilizzando Power BI in esecuzione su Microsoft Azure.
- Origini dati: il data lake analitico può includere dati da più origini. Azure Data Factory può includere dati da Microsoft SQL Server e Azure Blob Storage. Oracle Database@Azure può includere dati da Oracle Cloud ERP, Oracle Cloud Infrastructure Object Storage, Azure Cosmos Database, Azure SQL Database, vari tipi di dati di archiviazione delle tabelle (Azure, PostgresSQL, Azure MariaDB) e altri tipi di database relazionali on-premise.
- Livello dati: Oracle Database@Azure acquisisce i dati di origine da Azure Data Lake Storage insieme a Azure Data Factory.
- Livello di consumo: Oracle Database@Azure fornisce informazioni dettagliate su Microsoft Power BI in esecuzione su Microsoft Azure.
Il seguente diagramma illustra l'architettura funzionale:
Architettura Medallion
In questa sezione viene illustrato come distribuire Oracle Database@Azure come data warehouse all'interno dell'architettura medaglione di Azure.
L'architettura del medaglione è un framework di gestione dei dati che struttura la gestione dei dati in un data lakehouse in fasi distinte (bronzo, argento e oro), rappresentando le diverse fasi dell'elaborazione dei dati:
- Fase Bronzo: i dati provenienti da varie fonti vengono inclusi, convalidati e curati.
- Fase Silver: i dati vengono memorizzati ed elaborati per l'analisi e il reporting.
- Fase Gold: vengono forniti dati raffinati per l'analisi e il reporting.
Il seguente diagramma descrive l'architettura.
data-lake-db-azure-medallion-oracle.zip
Le fasi del medaglione sono ulteriormente suddivise nelle seguenti aree di distribuzione:
- Framework di inclusione: consente di inserire dati provenienti da varie origini dati utilizzando Azure Data Factory. I dati non elaborati vengono memorizzati in Azure Data Lake Storage Gen 2 e Delta Lake. Questo framework garantisce la coerenza e l'accuratezza dei dati nei sistemi di origine e sink. Questo framework costituisce un solido set di script per garantire la qualità utilizzando meccanismi di audit, bilanciamento e controllo su più piattaforme.
- Convalida: i dati non elaborati vengono inclusi in Oracle Autonomous Data Warehouse Serverless o Oracle Exadata Database Service per la deduplicazione e il controllo della qualità dei dati. Questo workflow esegue il mascheramento di pulizia di base dei dati PII e PHI insieme alla convalida dei file raw mediante un framework basato su regole per eseguire i controlli dello schema. Il framework di convalida può essere implementato utilizzando Azure Data Factory.
- Flusso di lavoro rifiuto: qualsiasi record rifiutato durante la fase di inclusione a causa di errori di convalida o di altri errori di elaborazione viene posizionato nell'area intermedia di un percorso di memorizzazione di Azure Data Lake distinto. Le notifiche e-mail automatizzate che utilizzano Logic App vengono inviate al team di supporto in base agli accordi di licenza software (SLA) definiti. I dati standardizzati rimangono in Oracle Autonomous Data Warehouse Serverless o Oracle Exadata Database Service.
- Orchestrazione: un sistema di pianificazione gestisce i processi di elaborazione dei dati, la pianificazione e le dipendenze dei job. Azure Data Factory può essere utilizzato per l'orchestrazione dei job ETL. La fase di orchestrazione include Oracle Autonomous Data Warehouse Serverless o Oracle Exadata Database Service, Delta Lake e Azure Data Lake Storage Gen 2.
- Reporting/Analytics: la fase di reporting include Power BI e servizi di dati come feed esterni e monetizzazione dei dati.
L'architettura dispone dei seguenti componenti dell'infrastruttura:
- Area
Un'area geografica di Azure è un'area geografica in cui risiedono uno o più data center fisici di Azure, denominati zone di disponibilità. Le regioni sono indipendenti da altre regioni e grandi distanze possono separarle (tra paesi o addirittura continenti).
Le region di Azure e OCI sono aree geografiche localizzate. Per Oracle Database@Azure, un'area di Azure è connessa a un'area OCI, con zone di disponibilità (AZ) in Azure connesse ai domini di disponibilità (AD) in OCI. Le coppie di aree Azure e OCI vengono selezionate per ridurre al minimo distanza e latenza.
- Zona di disponibilità
Una zona di disponibilità è un centro dati fisicamente separato all'interno di un'area progettata per essere disponibile e tollerante agli errori. Le zone di disponibilità sono abbastanza vicine da avere connessioni a bassa latenza con altre zone di disponibilità.
- Rete virtuale (VNet) e sottorete
Un VNet è una rete virtuale definita in Azure. Un elemento VNet può avere più subnet di blocchi CIDR non sovrapposte che è possibile aggiungere dopo la creazione del componente VNet. È possibile segmentare un VNet in subnet, che possono essere definite in un'area o in zone di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nel file VNet. Utilizzare VNet per isolare le risorse Azure in modo logico a livello di rete.
- Azure ExpressRoute
Azure ExpressRoute consente di impostare una connessione privata tra una rete VNet e un'altra rete, ad esempio la rete in locale o una rete in un altro provider cloud. ExpressRoute è un'alternativa più affidabile e veloce alle connessioni Internet tipiche, perché il traffico su ExpressRoute non attraversa la rete Internet pubblica.
- Gateway di rete virtuale
Un gateway di rete virtuale consente il traffico tra un VNet di Azure e una rete esterna ad Azure, tramite la rete Internet pubblica o utilizzando ExpressRoute, a seconda del tipo di gateway specificato.
- Tabella di instradamento
Le tabelle di instradamento dirigono il traffico tra le subnet di Azure, VNets e le reti esterne ad Azure.
- Gruppo di sicurezza di rete
Un gruppo di sicurezza di rete contiene regole per controllare il traffico di rete tra le risorse di Azure all'interno di un VNet. Ogni regola specifica l'origine o la destinazione, la porta, il protocollo e la direzione del traffico di rete consentito o negato.
- VPN da sito a sito
Provides a site-to-site IPSec VPN between your on-premises network and your VCN over a secure, encrypted connection.
L'architettura dispone dei seguenti prodotti e servizi Oracle:
- Oracle Database@Azure
Oracle Database@Azure è il servizio Oracle Database (Oracle Exadata Database Service on Dedicated Infrastructure e Oracle Autonomous Database Serverless) in esecuzione su Oracle Cloud Infrastructure (OCI), distribuito nei data center Microsoft Azure. Il servizio offre funzioni e parità di prezzo con OCI. Acquistare il servizio su Azure Marketplace.
Oracle Database@Azure integra le tecnologie Oracle Exadata Database Service, Oracle Real Application Clusters (Oracle RAC) e Oracle Data Guard nella piattaforma Azure. Gli utenti gestiscono il servizio sulla console di Azure e con gli strumenti di automazione di Azure. Il servizio viene distribuito in Azure Virtual Network (VNet) e integrato con il sistema di gestione delle identità e degli accessi di Azure. Le metriche generiche e i log di audit di OCI e Oracle Database sono disponibili in modo nativo in Azure. Il servizio richiede agli utenti di disporre di una sottoscrizione Azure e di una tenancy OCI.
Autonomous Database è basato sull'infrastruttura Oracle Exadata, è self-managing, self-securing e self-repairing e aiuta a eliminare la gestione manuale del database e gli errori umani. Autonomous Database consente lo sviluppo di applicazioni scalabili basate sull'intelligenza artificiale con qualsiasi dato utilizzando funzionalità AI integrate utilizzando il modello di linguaggio di grandi dimensioni (LLM) e la posizione di distribuzione.
Sia Oracle Exadata Database Service che Oracle Autonomous Database Serverless vengono forniti facilmente tramite il portale nativo di Azure, consentendo l'accesso all'ecosistema Azure più ampio.
- Oracle Cloud Infrastructure Object Storage
Oracle Cloud Infrastructure Object Storage memorizza il contenuto come oggetti all'interno dei contenitori di storage denominati bucket. Ogni oggetto include i dati e i metadati descrittivi per facilitare il recupero e la gestione.
L'architettura dispone dei seguenti prodotti e servizi Microsoft:
- Azure Data Factory
Azure Data Factory (ADF) è un servizio di integrazione dei dati basato su cloud fornito da Microsoft Azure. È progettato per creare, pianificare e orchestrare i flussi di lavoro dei dati su larga scala. ADF consente alle organizzazioni di includere, trasformare e spostare i dati da varie origini a destinazioni, favorendo processi decisionali e analytics basati sui dati.
- Funzioni di Azure
Azure Functions è una soluzione serverless che consente di scrivere meno codice, mantenere meno infrastruttura e risparmiare sui costi.
- Bus di servizio Azure
Azure Service Bus è un broker di messaggi aziendali completamente gestito con code e argomenti di pubblicazione-sottoscrizione.
- Monitoraggio di Azure
Azure Monitor fornisce metriche e log dell'infrastruttura di livello base per la maggior parte dei servizi Azure. I log di diagnostica di Azure vengono emessi da una risorsa e forniscono dati completi e frequenti sul funzionamento di tale risorsa. Azure Data Factory (ADF) può scrivere i log di diagnostica in Azure Monitor.
- Azure DevOps (CICD)
Azure Data Factory si integra con GitHub e Azure DevOps Git per abilitare il controllo del codice sorgente, la gestione delle release e CI/CD. Con il controllo del codice sorgente, gli sviluppatori possono collaborare, tracciare e salvare le loro modifiche in un ramo di scelta (in questo caso, sarà diramazione DEV). Queste modifiche verranno unite nella diramazione principale e distribuite negli ambienti di livello superiore (QA, UAT, Prod), dove verranno anche testate e convalidate
- Azure Active Directory
La piattaforma Big Data sui servizi di Azure può integrarsi con i servizi esistenti di Azure Active Directory per fornire un controllo di sicurezza dettagliato. Ciò consente all'organizzazione di riutilizzare il processo Single Sign-On esistente per accedere a dati e servizi nel cloud di Azure.
- Azure ML
Azure ML è un ambiente di sviluppo integrato basato su GUI per la creazione e l'implementazione del flusso di lavoro di Machine Learning su Azure.
- Power BI
Power BI è la suite di strumenti di business analytics di Microsoft progettata per aiutare le organizzazioni a visualizzare i dati, condividere insight e prendere decisioni informate. Consente agli utenti di connettersi a una vasta gamma di origini dati, creare dashboard e report interattivi e collaborare tra i team. Power BI fa parte della Microsoft Power Platform e si integra perfettamente con altri prodotti Microsoft come Excel, Teams e servizi Azure.
Componenti chiave di Power BI:
- Power BI Service: una piattaforma basata su cloud in cui gli utenti possono condividere, pubblicare e collaborare su report e dashboard per consentire il monitoraggio e la condivisione dei dati in tempo reale tra le organizzazioni.
- Power BI Mobile: applicazioni mobile per dispositivi iOS, Android e Windows per accedere a dashboard e report in movimento.
- Power BI Embedded: servizio che consente agli sviluppatori di integrare elementi visivi e di analisi di Power BI in applicazioni, portali o siti Web personalizzati.
- Server SQL di Azure
Azure SQL Server è un servizio di database relazionale basato su cloud fornito da Microsoft Azure. Fa parte della famiglia SQL di Azure e offre un ambiente platform as a service (PaaS) completamente gestito per l'hosting e la gestione di database SQL Server nel cloud. Azure SQL Server è altamente scalabile, sicuro e offre funzionalità per alta disponibilità, backup automatizzati e disaster recovery.
- Azure PostgreSQL
Azure Database for PostgreSQL è un servizio di database relazionale gestito fornito da Microsoft Azure. È stato progettato per semplificare l'implementazione, la scalabilità e la gestione dei database PostgreSQL nel cloud, offrendo al contempo alta disponibilità, sicurezza e scalabilità. Azure Database for PostgreSQL consente agli sviluppatori di concentrarsi sulla creazione di applicazioni senza preoccuparsi della gestione dell'infrastruttura.
- Azure Cosmos
Azure Cosmos DB è un servizio di database multimodello distribuito a livello globale fornito da Microsoft Azure. È progettato per creare applicazioni altamente reattive, scalabili e disponibili a livello globale. Cosmos DB supporta più modelli di dati e API, rendendola una scelta versatile per diversi scenari applicativi.
- Azure BLOB Storage
Azure Blob Storage è la soluzione di storage degli oggetti di Microsoft Azure per il cloud, progettata per memorizzare grandi quantità di dati non strutturati. È altamente scalabile, sicuro e conveniente, il che lo rende ideale per vari casi d'uso, tra cui lo sviluppo di applicazioni, l'archiviazione dei dati e lo storage multimediale.
- Delta Lake
Delta Lake è un livello di storage open source che offre affidabilità ai data lake. È stato progettato per fornire transazioni ACID (Atomicità, Coerenza, Isolamento, Durabilità), gestione scalabile dei metadati e unifica l'elaborazione dei dati in streaming e batch. Se integrato con il servizio Azure Data Lake, Delta Lake migliora le funzionalità dei servizi di archiviazione e analisi dei dati di Azure.
- Azure Database Lake Storage
Azure Data Lake Storage (ADLS) è un servizio di storage dei dati altamente scalabile e sicuro ottimizzato per l'analisi dei Big Data. Combina la scalabilità dello storage degli oggetti con le funzionalità di prestazioni e sicurezza di un file system gerarchico, rendendolo ideale per la gestione di dati su larga scala e abilitando analytics avanzati e Machine Learning.
Confronto con Azure Blob Storage
Funzione Azure Database Lake Storage Azure Blob Storage Caso d'uso Big Data Analytics, dati gerarchici Storage degli oggetti General Purpose Spazio di nomi Gerarchico (file system) Flat (nessuna struttura di directory) Integrazione Ottimizzato per i framework Big Data Uso generico e storage delle applicazioni Controllo dell'accesso ACL e RBAC a livello di file Token RBAC e SAS
Suggerimenti
- Assicurarsi di avere accesso a una sottoscrizione e a una directory di Azure.
- Assicurati di avere accesso a una tenancy Oracle Cloud Infrastructure (OCI).
- Assicurarsi di disporre di un collegamento multicloud attivo di Oracle Database@Azure tra Azure e OCI (questa connessione viene creata per impostazione predefinita quando si esegue il provisioning di Oracle Database@Azure e viene gestita da Oracle).
- Assicurarsi di disporre di blocchi CIDR non sovrapposti tra qualsiasi Azure VNets e VCN OCI.
- Prima del provisioning, assicurarsi di disporre di un limite di servizio adeguato per Oracle Exadata Database Service o Oracle Autonomous Database Serverless.
Considerazioni
Quando distribuisci una pipeline di analisi dei dati su Microsoft Azure utilizzando Oracle Database@Azure, considera quanto segue.
- Disaster recovery (DR)
Il disaster recovery non è rappresentato in questa architettura ed è responsabilità del cliente.
- Impostazione della rete per Oracle Database@Azure
- Ambiente Azure: utilizza una rete virtuale di Azure (VNet) per la rete e crea schede VNIC (Virtual Network Interface Card) all'interno di una subnet delegata creata in precedenza.
- Ambiente OCI: Oracle Database@Azure si connette a una subnet client all'interno di una rete cloud virtuale (VCN) Oracle Cloud Infrastructure (OCI).
- Connettività client
Questa impostazione di rete consente la connettività client dalle risorse di Azure.
- Oracle Autonomous Database Serverless Networking
- Utilizzare VNet con 1 subnet di database in Azure. Utilizza una subnet /27, ma consenti una crescita futura pianificata.
- Creare e delegare la subnet del database in Oracle Database@Azure prima di distribuire Oracle Autonomous Database Serverless.
- Riutilizza (o condividi) la subnet delegata con database aggiuntivi.
- Azure ExpressRoute
Il costo di Azure ExpressRoute varia da un'area all'altra. Azure dispone di più SKU disponibili per un instradamento rapido; Oracle consiglia di utilizzare l'impostazione Locale perché non dispone di addebiti di entrata o uscita separati e inizia con la larghezza di banda minima di 1 Gbps. Le configurazioni Standard e Premium offrono una larghezza di banda inferiore, ma comportano costi di uscita separati in un'impostazione sottoposta a misurazione.
- Oracle Autonomous Database Serverless
- Integrazione
Oracle Autonomous Database dispone di servizi di integrazione integrati per oltre 100 applicazioni, database e aree di memorizzazione degli oggetti. Utilizza l'interfaccia utente grafica di Data Studio per progettare le trasformazioni dei dati per l'integrazione dei dati con Autonomous Database.
- Analitica
Oracle Autonomous Database dispone di servizi di analytics integrati che ti consentono di applicare una vasta gamma di analytics (grafici, spaziali, machine learning e AI) direttamente AI tuoi dati, riducendo la latenza analitica per fornire rapidamente insight utili.
- Costo
Le funzioni di provisioning e gestione di base per un'istanza di Oracle Autonomous Database Serverless vengono eseguite dalla pagina Oracle Database@Azure. Ulteriori funzioni di gestione sono disponibili all'interno del portale Oracle Cloud Infrastructure (OCI) disponibile utilizzando il collegamento all'Autonomous Database specifico dalla pagina Oracle Database@Azure.
Controllare l'uso delle risorse utilizzando le opzioni di configurazione riportate di seguito.- Il conteggio ECU consente di impostare il conteggio ECPU da 2 a 512.
- La ridimensionamento automatico della computazione ti consente di ridimensionare automaticamente l'allocazione della computazione fino a 512. Per impostazione predefinita, questa proprietà è selezionata.
- Lo storage consente di impostare l'allocazione dello storage da 1 TB a 383 TB o da 20 GB a 393216 GB.
- La dimensione dell'unità di storage consente di selezionare se lo storage è allocato in GB o TB.
- La ridimensionamento automatico dello storage ti consente di ridimensionare automaticamente l'allocazione dello storage fino a 383 TB o 393216 GB. Per impostazione predefinita, questa proprietà non è selezionata
- Prestazioni
- È disponibile l'alta disponibilità (HA, High Availability) per Oracle Autonomous Database Serverless.
- Verifica e misura la latenza di rete nell'ambito del test delle prestazioni delle applicazioni.
- Considerare l'affinità della regione. La latenza di rete tra applicazioni e database ospitati in data center cloud diversi deve essere inferiore a 10 ms. Si consiglia di selezionare le aree di applicazione e database vicine per ottenere prestazioni end-to-end ottimali.
- Disponibilità
Oracle Autonomous Database Serverless è disponibile in più aree geografiche di Microsoft Azure.
Vedere il collegamento Contratto di licenza di servizio (SLA) nella sezione Esplora altri.
- Integrazione
- Oracle Exadata Database Service on Dedicated Infrastructure
- Costo
- L'infrastruttura distribuita ha costi costanti e può essere arrestata in qualsiasi momento (vengono addebitate almeno 48 ore).
- I costi di runtime sono determinati dal numero di OCPU assegnate alla VM e scalabili.
- Le opzioni di licenza includono sia il modello BYOL (Bring Your Own License) che la licenza inclusa.
- Oracle Support Rewards sono disponibili per il modello BYOL
- Prestazioni
- I clienti ottengono le stesse prestazioni che potrebbero ottenere con qualsiasi altra distribuzione Exadata (Oracle Exadata Database Service, Oracle Exadata Database Service on Cloud@Customer o on-premise).
- La latenza (one way/round trip) da una VM Azure di qualsiasi tipo al servizio Oracle Database@Azure è esclusivamente la provincia dei servizi cloud di Azure. L'obiettivo è .5ms, ma può variare a causa di considerazioni di rete di Azure.
- Oracle non addebita alcun costo per l'uscita dei dati per Oracle Database@Azure, ma a seconda dell'architettura di Azure Microsoft può addebitare costi per lo spostamento dei dati.
- Disponibilità
Le distribuzioni Exadata hanno un obiettivo livello di servizio (SLO, service level objective) del 99,99%. È possibile raggiungere numeri più elevati utilizzando un'architettura MAA (Maximum Availability Architecture) che può includere l'impostazione di un sito di disaster recovery e l'utilizzo di funzionalità di backup e ripristino come Oracle Database Zero Data Loss Autonomous Recovery Service.
- Costo
Visualizza altro
Ulteriori informazioni sulle caratteristiche di questa architettura:
-
Provisioning di Oracle Autonomous Database in Oracle Database@Azure (Esercitazione)
-
Provisioning di un Autonomous Database (Documentazione)
-
Connessione di Microsoft Power BI Service a Oracle Autonomous Database mediante Microsoft Gateway (PDF)
-
Copiare i dati da Oracle Cloud Storage utilizzando Azure Data Factory
-
Service Level Agreement (SLA) di Oracle Cloud Infrastructure
Ulteriori informazioni sulle architetture correlate:
-
Scopri di più su Oracle Maximum Availability Architecture per Oracle Database@Azure
-
Scopri come selezionare le topologie di rete per Oracle Database@Azure
-
Passa a Oracle Database@Azure con Oracle Zero Downtime Migration
-
Esegui disaster recovery tra più aree per Exadata Database su Oracle Database@Azure
-
Integra Oracle Database@Azure con la tua piattaforma di streaming Azure utilizzando OCI GoldenGate
-
Implementa Oracle GoldenGate in Microsoft Azure con Oracle Database@Azure