Implante um Data Lake Aproveitando o Power BI no Oracle Database@Azure
Muitas empresas aproveitam o Microsoft Power BI com data lakes no Microsoft Azure para obter insights de negócios acionáveis.
Você pode expandir esses recursos usando uma arquitetura de medalhão que inclui o Azure Data Factory, o Azure Data Lake Storage, o Azure Compute, o Oracle Database@Azure (um Oracle Autonomous Database totalmente gerenciado ou uma instância do Oracle Exadata Database Service cogerenciada) e o Power BI para enfrentar vários desafios principais de dados enfrentados pelos clientes:
- Silos de Dados e Integração: o Azure Data Factory ingere dados de diversas fontes em um data lake unificado, quebrando silos e fornecendo uma única fonte de verdade.
- Qualidade e Consistência de Dados: O Autonomous Data Warehouse na Camada de Curadoria garante dados limpos, consistentes e de alta qualidade por meio de regras de desduplicação e qualidade, reduzindo erros e aprimorando a tomada de decisões.
- Escalabilidade e Desempenho: Os recursos de computação escaláveis do Azure e a arquitetura sem servidor do Autonomous Data Warehouse ou o Oracle Exadata Database Service lidam com processamento de dados em larga escala com eficiência, mantendo o desempenho ideal à medida que os volumes de dados e a adoção do usuário (concorrência) crescem.
- Transformações Complexas: o Azure Compute e o Autonomous Data Warehouse ou o Oracle Exadata Database Service executam transformações e análises complexas de forma eficiente, reduzindo o tempo de processamento e concentrando-se em insights.
- Gerenciamento de Custos: Os modelos sem servidor e de pagamento conforme o uso para serviços do Azure e Autonomous Data Warehouse ou Oracle Exadata Database Service otimizam custos, garantindo que você pague apenas pelo que usa.
- Governança e Conformidade de Dados: As camadas de gerenciamento de dados estruturados facilitam uma melhor governança, rastreabilidade e conformidade regulatória.
- Análise integrada: Os usuários podem aplicar análises diretamente aos seus dados usando recursos integrados, como inteligência artificial (IA), machine learning (ML), análise gráfica, espacial e de texto.
Os casos de uso típicos incluem:
- Análise de Varejo: integra dados de vendas on-line, transações na loja e feedback do cliente, otimizando estratégias de estoque e marketing.
- Serviços Financeiros: Analisa dados de transação para detecção de fraudes e conformidade regulatória, mitigando riscos.
- Análise de Assistência Médica: integra dados de pacientes de EHRs, resultados de laboratório e dispositivos vestíveis, melhorando o atendimento ao paciente e o gerenciamento de saúde.
Essa arquitetura permite que os clientes corporativos de todos os setores aproveitem os dados de forma eficaz para capacitar seus usuários de negócios a tomar decisões informadas para gerar melhores resultados de negócios.
Arquitetura Lógica
O data lake analítico pode ingerir dados de várias fontes e fornecer insights de negócios usando o Power BI em execução no Microsoft Azure.
- Fontes de Dados: O data lake analítico pode ingerir dados de várias fontes. O Azure Data Factory pode ingerir dados do Microsoft SQL Server e do Azure Blob Storage. O Oracle Database@Azure pode ingerir dados do Oracle Cloud ERP, do Oracle Cloud Infrastructure Object Storage, do Azure Cosmos Database, do Azure SQL Database, de vários tipos de dados de armazenamento de tabelas (Azure, PostgresSQL, Azure MariaDB) e de outros tipos de bancos de dados relacionais locais.
- Camada de Dados: O Oracle Database@Azure ingere dados de origem do Azure Data Lake Storage em conjunto com o Azure Data Factory.
- Camada de Consumo: O Oracle Database@Azure fornece insights para o Microsoft Power BI em execução no Microsoft Azure.
O diagrama a seguir ilustra a arquitetura funcional:
Arquitetura Medallion
Esta seção demonstra como você pode implantar o Oracle Database@Azure como data warehouse dentro da arquitetura de medalhão do Azure.
A arquitetura medallion é uma estrutura de gerenciamento de dados que estrutura o tratamento de dados em um data lakehouse em estágios distintos (bronze, prata e ouro), representando os diferentes estágios do processamento de dados:
- Estágio de bronze: Dados de várias fontes são ingeridos, validados e curados.
- Estágio Silver: Os dados são armazenados e processados para análise e geração de relatórios.
- Estágio Gold: dados refinados são fornecidos para análise e geração de relatórios.
O diagrama a seguir ilustra a arquitetura:
data-lake-db-azure-medalhão-oracle.zip
Os estágios de medalhão são divididos nas seguintes áreas de implantação:
- Estrutura de Ingestão: Sugere dados de várias origens de dados usando o Azure Data Factory. Os dados brutos são armazenados no Azure Data Lake Storage Gen 2 e no Delta Lake. Essa estrutura garante a consistência e a precisão dos dados nos sistemas de origem e de sumidouro. Essa estrutura constitui um conjunto robusto de scripts para garantir a qualidade usando mecanismos de auditoria, equilíbrio e controle entre plataformas.
- Validação: Os dados brutos são ingeridos no Oracle Autonomous Data Warehouse Serverless ou no Oracle Exadata Database Service para desduplicação e verificação da qualidade dos dados. Este workflow executa o mascaramento básico de limpeza de dados de PII e PHI, juntamente com a validação de arquivos brutos por meio de uma estrutura orientada por regras para executar verificações de esquema. A estrutura de validação pode ser implementada usando o Azure Data Factory.
- Workflow de Rejeição: Qualquer registro rejeitado durante o estágio de ingestão devido a erros de validação ou outros erros de processamento é preparado em um caminho separado do Azure Data Lake Storage. Notificações por e-mail automatizadas usando o Logic App são enviadas à equipe de suporte com base em contratos de licença de software (SLAs) definidos. Os dados padronizados permanecem no Oracle Autonomous Data Warehouse sem Servidor ou no Oracle Exadata Database Service.
- Orquestração: Um sistema de programação gerencia tarefas de processamento de dados, programação e dependências de tarefas. O Azure Data Factory pode ser usado para a orquestração de jobs de ETL. O estágio de Orquestração inclui o Oracle Autonomous Data Warehouse Serverless ou o Oracle Exadata Database Service, o Delta Lake e o Azure Data Lake Storage Gen 2.
- Relatório/Análise: O estágio de relatório inclui o Power BI e serviços de dados, como feeds externos e monetização de dados.
A arquitetura tem os seguintes componentes de infraestrutura:
- Região
Uma região do Azure é uma área geográfica na qual um ou mais data centers físicos do Azure, chamados de zonas de disponibilidade, residem. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).
As regiões do Azure e da OCI são áreas geográficas localizadas. Para o Oracle Database@Azure, uma região do Azure é conectada a uma região da OCI, com zonas de disponibilidade (AZs) no Azure conectadas a domínios de disponibilidade (ADs) na OCI. Os pares de regiões do Azure e OCI são selecionados para minimizar a distância e a latência.
- Zona de disponibilidade
Uma zona de disponibilidade é um data center fisicamente separado em uma região projetada para estar disponível e tolerante a falhas. As zonas de disponibilidade estão próximas o suficiente para ter conexões de baixa latência com outras zonas de disponibilidade.
- Rede virtual (VNet) e sub-rede
VNet é uma rede virtual que você define no Azure. Um VNet pode ter várias sub-redes de blocos CIDR não sobrepostos que você pode adicionar após criar o VNet. Você pode segmentar um VNet em sub-redes, com escopo definido para uma região ou para uma zona de disponibilidade. Cada sub-rede consiste em um intervalo contínuo de endereços que não se sobrepõem a outras sub-redes do VNet. Use VNet para isolar logicamente seus recursos do Azure no nível da rede.
- Azure ExpressRoute
O Azure ExpressRoute permite configurar uma conexão privada entre um VNet e outra rede, como sua rede local ou uma rede em outro provedor de nuvem. ExpressRoute é uma alternativa mais confiável e rápida às conexões de internet típicas, porque o tráfego em ExpressRoute não atravessa a internet pública.
- Gateway de rede virtual
Um gateway de rede virtual permite o tráfego entre um VNet do Azure e uma rede fora do Azure, seja pela internet pública ou usando ExpressRoute, dependendo do tipo de gateway especificado.
- Tabela de roteamento
As tabelas de roteamento direcionam o tráfego entre sub-redes do Azure, VNets e redes fora do Azure.
- Grupo de segurança de rede
Um grupo de segurança de rede contém regras para controlar o tráfego de rede entre os recursos do Azure em um VNet. Cada regra especifica a origem ou o destino, a porta, o protocolo e a direção do tráfego de rede que é permitido ou negado.
- VPN site a site
Fornece uma IPSec VPN site a site entre sua rede local e sua VCN por meio de uma conexão segura e criptografada.
A arquitetura tem os seguintes produtos e serviços Oracle:
- Oracle Database@Azure
O Oracle Database@Azure é o serviço Oracle Database (Oracle Exadata Database Service on Dedicated Infrastructure e Oracle Autonomous Database Serverless) executado na Oracle Cloud Infrastructure (OCI), implantado nos data centers do Microsoft Azure. O serviço oferece recursos e paridade de preços com a OCI. Compre o serviço no Azure Marketplace.
O Oracle Database@Azure integra as tecnologias Oracle Exadata Database Service, Oracle Real Application Clusters (Oracle RAC) e Oracle Data Guard à plataforma Azure. Os usuários gerenciam o serviço na console do Azure e com ferramentas de automação do Azure. O serviço é implantado na Rede Virtual do Azure (VNet) e integrado ao sistema de gerenciamento de identidade e acesso do Azure. As métricas genéricas e os logs de auditoria do OCI e do Oracle Database estão disponíveis nativamente no Azure. O serviço exige que os usuários tenham uma assinatura do Azure e uma tenancy do OCI.
O Autonomous Database foi desenvolvido na infraestrutura do Oracle Exadata, é autogerenciado, autoprotegido e autorreparável, ajudando a eliminar o gerenciamento manual do banco de dados e erros humanos. O Autonomous Database permite o desenvolvimento de aplicativos escaláveis com tecnologia de IA com qualquer dado usando recursos integrados de IA usando sua escolha de modelo de linguagem grande (LLM) e local de implantação.
O Oracle Exadata Database Service e o Oracle Autonomous Database Serverless são facilmente provisionados por meio do Portal nativo do Azure, permitindo o acesso ao ecossistema mais amplo do Azure.
- Oracle Cloud Infrastructure Object Storage
O Oracle Cloud Infrastructure Object Storage armazena conteúdo como objetos dentro de contêineres de armazenamento chamados buckets. Cada objeto inclui os dados e os metadados descritivos para permitir fácil recuperação e gerenciamento.
A arquitetura tem os seguintes produtos e serviços da Microsoft:
- Fábrica de Dados do Azure
O Azure Data Factory (ADF) é um serviço de integração de dados baseado em nuvem fornecido pelo Microsoft Azure. Ele foi projetado para criar, programar e orquestrar fluxos de trabalho de dados em escala. O ADF permite que as organizações ingiram, transformem e movam dados de várias fontes para destinos, permitindo a tomada de decisões e análises orientadas por dados.
- Funções do Azure
O Azure Functions é uma solução sem servidor que permite escrever menos código, manter menos infraestrutura e economizar custos.
- Barramento de Serviço do Azure
O barramento de serviço do Azure é um broker de mensagens empresarial totalmente gerenciado com filas e tópicos de publicação/assinatura.
- Monitor do Azure
O Azure Monitor fornece métricas e logs de infraestrutura de nível básico para a maioria dos serviços do Azure. Os logs de diagnóstico do Azure são emitidos por um recurso e fornecem dados ricos e frequentes sobre a operação desse recurso. O Azure Data Factory (ADF) pode gravar logs de diagnóstico no Azure Monitor.
- Azure DevOps (CICD)
O Azure Data Factory integra-se ao GitHub e ao Azure DevOps Git para permitir o controle de origem, o gerenciamento de versões e o CI/CD. Com o controle de origem, os desenvolvedores podem colaborar, rastrear e salvar suas alterações em uma ramificação de escolha (neste caso, será a ramificação DEV). Essas alterações serão mescladas na ramificação principal e implantadas nos ambientes de nível superior (QA, UAT, Prod), onde também serão testadas e Validadas
- Azure Active Directory
A plataforma de big data nos serviços do Azure pode integrar-se aos serviços existentes do Azure Active Directory para fornecer controle de segurança de grãos finos. Isso permite que a organização reutilize o processo de assinatura única existente para acessar dados e serviços na nuvem do Azure.
- ML do Azure
O Azure ML é um ambiente de desenvolvimento integrado baseado em GUI para construir e implementar o fluxo de trabalho de Machine Learning no Azure.
- Power BI
O Power BI é o conjunto de ferramentas de análise de negócios da Microsoft projetado para ajudar as organizações a visualizar dados, compartilhar insights e tomar decisões informadas. Ele permite que os usuários se conectem a uma ampla variedade de fontes de dados, criem painéis e relatórios interativos e colaborem entre as equipes. O Power BI faz parte da Microsoft Power Platform e integra-se perfeitamente com outros produtos da Microsoft, como Excel, Teams e serviços do Azure.
Principais componentes do Power BI:
- Power BI Service: Uma plataforma baseada em nuvem na qual os usuários podem compartilhar, publicar e colaborar em relatórios e painéis de controle para permitir o monitoramento e o compartilhamento de dados em tempo real entre as organizações.
- Power BI Mobile: Aplicativos móveis para dispositivos iOS, Android e Windows para acessar painéis e relatórios em qualquer lugar.
- Power BI Embedded: Um serviço que permite aos desenvolvedores integrar recursos visuais e análises do Power BI em aplicativos, portais ou sites personalizados.
- Servidor SQL do Azure
O Azure SQL Server é um serviço de banco de dados relacional baseado em nuvem fornecido pelo Microsoft Azure. Ele faz parte da família SQL do Azure e oferece um ambiente de plataforma como serviço (PaaS) totalmente gerenciado para hospedar e gerenciar bancos de dados do SQL Server na nuvem. O Azure SQL Server é altamente escalável, seguro e fornece recursos para alta disponibilidade, backups automatizados e recuperação de desastres.
- Azure PostgreSQL
O Azure Database for PostgreSQL é um serviço de banco de dados relacional gerenciado fornecido pelo Microsoft Azure. Ele foi projetado para simplificar a implementação, o dimensionamento e o gerenciamento de bancos de dados PostgreSQL na nuvem, oferecendo alta disponibilidade, segurança e escalabilidade. O Azure Database for PostgreSQL permite que os desenvolvedores se concentrem na criação de aplicativos sem se preocupar com o gerenciamento de infraestrutura.
- Cosmos do Azure
O Azure Cosmos DB é um serviço de banco de dados multimodelo distribuído globalmente e fornecido pelo Microsoft Azure. Ele foi projetado para criar aplicativos altamente responsivos, escaláveis e disponíveis globalmente. O Cosmos DB suporta vários modelos de dados e APIs, tornando-o uma escolha versátil para diversos cenários de aplicações.
- Armazenamento BLOB do Azure
O Azure Blob Storage é a solução de armazenamento de objetos do Microsoft Azure para a nuvem, projetada para armazenar grandes quantidades de dados não estruturados. Ele é altamente escalável, seguro e econômico, tornando-o ideal para vários casos de uso, incluindo desenvolvimento de aplicativos, arquivamento de dados e armazenamento de mídia.
- Delta Lake
O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos data lakes. Ele foi projetado para fornecer transações ACID (Atomicidade, Consistência, Isolamento, Durabilidade), tratamento de metadados escalável e unifica streaming e processamento de dados em lote. Quando integrado ao Serviço de Data Lake do Azure, o Delta Lake aprimora os recursos dos serviços de armazenamento e análise de dados do Azure.
- Azure Data Lake Storage
O Azure Data Lake Storage (ADLS) é um serviço de armazenamento de dados altamente escalável e seguro otimizado para análise de big data. Ele combina a escalabilidade do armazenamento de objetos com os recursos de desempenho e segurança de um sistema de arquivos hierárquico, tornando-o ideal para gerenciar dados em larga escala e permitir análises avançadas e machine learning.
Comparação com o Azure Blob Storage
Funcionalidade Azure Data Lake Storage Armazenamento Blob do Azure Caso de Uso Análise de big data, dados hierárquicos Armazenamento de objetos para fins gerais Name Space Hierárquico (como sistema de arquivos) Simples (sem estrutura de diretórios) Integração Otimizado para estruturas de big data Uso geral e armazenamento de aplicativos Controle de Acesso ACLs no nível de arquivo e RBAC Tokens RBAC e SAS
Recomendações
- Certifique-se de ter acesso a uma assinatura e diretório do Azure.
- Certifique-se de ter acesso a uma tenancy do Oracle Cloud Infrastructure (OCI).
- Certifique-se de ter um link multicloud ativo do Oracle Database@Azure entre o Azure e o OCI (essa conexão é criada por padrão quando você provisiona o Oracle Database@Azure e é gerenciada pela Oracle).
- Certifique-se de que você tenha blocos CIDR não sobrepostos entre qualquer VNets do Azure e VCNs do OCI.
- Certifique-se de ter o limite de serviço adequado do Oracle Exadata Database Service ou do Oracle Autonomous Database Serverless antes do provisionamento.
Considerações
Quando você implantar um pipeline de análise de dados no Microsoft Azure usando o Oracle Database@Azure, considere o seguinte.
- Recuperação de Desastre (DR)
A recuperação de desastres não é representada nesta arquitetura e é de responsabilidade do cliente.
- Configuração de Rede para o Oracle Database@Azure
- Ambiente do Azure: Usa uma Rede Virtual do Azure (VNet) para rede e cria placas de interface de rede virtual (VNICs) dentro de uma sub-rede delegada pré-criada.
- Ambiente do OCI: O Oracle Database@Azure se conecta a uma sub-rede cliente dentro de uma rede virtual na nuvem (VCN) do Oracle Cloud Infrastructure (OCI).
- Conectividade do Cliente
Esta configuração de rede permite a conectividade do cliente a partir dos recursos do Azure.
- Rede do Oracle Autonomous Database Serverless
- Use um VNet com 1 sub-rede de banco de dados no Azure. Use uma sub-rede /27, mas permita um crescimento futuro planejado.
- Crie e delegue a sub-rede do banco de dados ao Oracle Database@Azure antes de implantar o Oracle Autonomous Database Serverless.
- Reutilize (ou compartilhe) a sub-rede delegada com bancos de dados adicionais.
- Azure ExpressRoute
O custo do Azure ExpressRoute varia de uma região para outra. O Azure tem mais de uma SKU disponível para uma rota expressa; a Oracle recomenda o uso da configuração Local, porque não tem encargos de entrada ou saída separados e começa na largura de banda mínima de 1 Gbps. As configurações Standard e Premium oferecem menor largura de banda, mas incorrem em cobranças de saída separadas em uma configuração com medição de consumo.
- Oracle Autonomous Database sem Servidor
- Integração
O Oracle Autonomous Database tem serviços de integração integrados para mais de 100 aplicativos, bancos de dados e armazenamentos de objetos. Use a interface gráfica do usuário do Data Studio para projetar transformações de dados para integração de dados com o Autonomous Database.
- Analytics
O Oracle Autonomous Database tem serviços de análise integrados que permitem aplicar uma variedade de análises (gráficas, espaciais, machine learning e IA) diretamente aos seus dados, reduzindo a latência analítica para fornecer insights acionáveis rapidamente.
- Custo
As funções de provisionamento e gerenciamento básico de uma instância do Oracle Autonomous Database Serverless são feitas na página Oracle Database@Azure. Funções de gerenciamento adicionais estão disponíveis no portal do Oracle Cloud Infrastructure (OCI) disponível usando o link para o Autonomous Database específico na página Oracle Database@Azure.
Controle o uso do recurso usando as seguintes opções de configuração:- A contagem de ECPUs permite definir a contagem de ECPUs de 2 a 512.
- O dimensionamento automático do Compute permite dimensionar automaticamente sua alocação de computação para até 512. Por padrão, esta opção é selecionada.
- O Armazenamento permite definir a alocação de armazenamento de 1 TB para 383 TB ou 20 GB para 393216 GB.
- O tamanho da unidade de armazenamento permite que você selecione se seu armazenamento está alocado em GB ou TB.
- O dimensionamento automático de armazenamento permite dimensionar sua alocação de armazenamento automaticamente até 383 TB ou 393216 GB. Por padrão, esta opção não é selecionada
- Desempenho
- A alta disponibilidade (HA) é fornecida para o Oracle Autonomous Database Serverless.
- Verifique e meça a latência da rede como parte do teste de desempenho do aplicativo.
- Considere a afinidade da região. A latência de rede entre aplicativos e bancos de dados hospedados em diferentes data centers na nuvem deve ser inferior a 10 ms. Recomendamos selecionar regiões próximas de aplicativos e bancos de dados para obter o desempenho ideal de ponta a ponta.
- Disponibilidade
O Oracle Autonomous Database Serverless está disponível em várias regiões do Microsoft Azure.
Consulte o link do contrato de licença de serviço (SLA) na seção Explorar Mais.
- Integração
- Oracle Exadata Database Service on Dedicated Infrastructure
- Custo
- A infraestrutura implantada tem custo consistente e pode ser encerrada a qualquer momento (é cobrado no mínimo 48 horas).
- Os custos de tempo de execução são determinados pelo número de OCPUs designadas à VM que é escalável.
- As opções de licenciamento incluem BYOL (Bring Your Own License) e Licença Incluída.
- O Oracle Support Rewards está disponível para BYOL
- Desempenho
- Os clientes experimentam o mesmo desempenho que experimentariam com qualquer outra implantação do Exadata (Oracle Exadata Database Service, Oracle Exadata Database Service on Cloud@Customer ou on-premises).
- A latência (de ida e volta) de uma VM do Azure de qualquer tipo para o serviço Oracle Database@Azure é exclusivamente da província dos serviços de nuvem do Azure. O objetivo é .5ms, mas pode variar devido a considerações de rede do Azure.
- A Oracle não cobra taxas de saída de dados pelo Oracle Database@Azure, mas, dependendo da arquitetura do Azure, a Microsoft pode cobrar taxas de movimentação de dados.
- Disponibilidade
As implantações do Exadata têm um objetivo de nível de serviço (SLO) de 99,99%. Números mais altos podem ser alcançados usando uma arquitetura de disponibilidade máxima (MAA) que pode incluir a configuração de um site de recuperação de desastres e o uso de recursos de backup e restauração, como o Oracle Database Zero Data Loss Autonomous Recovery Service.
- Custo
Explorar Mais
Saiba mais sobre os recursos desta arquitetura:
-
Provisione um Oracle Autonomous Database no Oracle Database@Azure (Tutorial)
-
Provisionando um Autonomous Database (Documentação)
-
Como conectar o Microsoft Power BI Service ao Oracle Autonomous Database usando o Microsoft Gateway (PDF)
-
Copiar dados do Oracle Cloud Storage usando o Azure Data Factory
-
Estrutura bem arquitetada para o Oracle Cloud Infrastructure
-
Contrato de Nível de Serviço (SLA) da Oracle Cloud Infrastructure
Saiba mais sobre arquiteturas relacionadas:
-
Saiba mais sobre o Oracle Maximum Availability Architecture para Oracle Database@Azure
-
Saiba mais sobre a seleção de topologias de rede para o Oracle Database@Azure
-
Migre para o Oracle Database@Azure com Oracle Zero Downtime Migration
-
Executar Recuperação de Desastre entre Regiões para o Exadata Database no Oracle Database@Azure
-
Integre o Oracle Database@Azure à sua plataforma de streaming do Azure usando o OCI GoldenGate
-
Implemente o Oracle GoldenGate no Microsoft Azure com o Oracle Database@Azure