Implementar uma arquitetura de integração de data lake multicloud
Esta arquitetura de referência mostra como as organizações podem integrar dados de várias origens no data lake da Oracle Cloud Infrastructure (OCI).
Essa arquitetura de referência representa um caso de uso para uma organização empresarial de grande escala com uma estratégia de negócios que inclui a aquisição de novas organizações como parte de seu plano de crescimento de longo prazo. A organização está no processo de criar um data lake com uma plataforma de análise e a análise de custos é um dos módulos em escopo.
A organização implementou o Oracle Fusion Cloud Applications para finanças onde os dados da fatura são armazenados.
Recentemente, a organização adquiriu uma nova organização e está usando o Amazon Web Services (AWS) para hospedar o aplicativo de processamento de faturas. Há um requisito para trazer os dados de fatura do AWS para a Oracle Cloud Infrastructure (OCI) onde o data lake é implementado e enriquecer os dados de fatura de alto volume com informações de centro de custo/fornecedor antes de carregar no data lake. Os dados do centro de custo são obtidos do Oracle Fusion Cloud Applications e os dados do fornecedor são obtidos de um banco de dados MySQL local.
Arquitetura
Esta arquitetura de referência descreve como você pode trazer os dados de diferentes provedores de nuvem e origens de dados locais para um data lake hospedado no OCI. Esta arquitetura abrange integração em lote, integração de dados, integração em tempo real e cenários de integração baseados em eventos.
O diagrama a seguir ilustra o fluxo de dados dessa arquitetura de referência.
Descrição da ilustração oci_multicloud_datalake_flow.png
oci-multicloud-datalake-flow-oracle.zip
- Conecta e extrai dados de:
- Serviços AWS e serviços Azure por meio de adaptadores nativos.
- Origens de dados locais por meio de conectividade privada (FastConnect/VPN).
- Aplicativos Oracle SaaS por meio do conector BICC.
- Executa a transformação nos dados extraídos.
- Carrega dados no data lake do OCI por meio de adaptadores (ADB/Object Storage).
- Recebe dados em tempo real de vários sistemas de origem, como aplicativos Oracle SaaS/IOT/Serviços de streaming/mídia social/sistemas locais/outros provedores de nuvem por meio de adaptadores nativos.
- Executa lógica de transformação/orquestração.
- Carrega dados no data lake do OCI por meio de adaptadores (ADB/Object Storage).
O diagrama a seguir ilustra essa arquitetura de referência.
oci-multicloud-datalake-oracle.zip
- Consolidar dados capturando dados de vários sistemas de origem heterogêneos e integrando em um único armazenamento persistente. Isso normalmente é feito usando rotinas ETL (extrair, transformar e carregar).
- Extraindo dados de alto volume dos sistemas de origem (HDFS, banco de dados Oracle Autonomous, MySQL, Oracle Database, Azure Synapse, AWS Redshift, Object Storage, S3, Microsoft SQL, PostgreSQL etc.) que são hospedados na rede privada/pública (customer on-premises, 3rd party cloud network (Azure VNet, AWS VPC)) e depois carregados no data lake do OCI.
- Extraindo os dados do Oracle Fusion Cloud Applications por meio do conector BICC/BI Publisher e, em seguida, carregando no data lake do OCI.
- Extraindo dados de alto volume de várias origens com um padrão de orquestração.
- Implementando jobs ETL programados (diários, mensais, semanais, mensais, cron, etc.).
O Oracle Integration Cloud (OIC) é usado para os seguintes cenários:
- Recebimento de dados de aplicativos Oracle Cloud, CRM, E-commerce e aplicativos de nuvem locais/3os de terceiros em tempo real e depois carregamento no data lake.
- Carregando os dados no data lake a partir de um arquivo (menos volume) gerado por uma fonte de dados.
- Expondo APIs REST do Oracle Integration Cloud para plataformas webhook, recebendo os dados em tempo real e carregando no data lake.
- Algumas plataformas IOT (Geotab, CheckSafe etc.) têm funcionalidade do webhook e enviam dados para qualquer api https para novos eventos para que possam se conectar diretamente ao Gateway de API.
- Recebendo dados de plataformas de mídia social (Facebook, LinkedIn, Twitter, Slack etc.) e carregando no data lake do OCI.
- Publicando APIs do OIC e APIs de Aplicativos com pontos finais privados acessíveis na sua rede ou você pode expor à internet pública, se necessário. Os pontos finais suportam validação de API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação.
- Desacoplando a lógica de segurança e de negócios no desenvolvimento da API.
- Expondo APIs para as origens restritas com controles de segurança que podem alimentar os dados para o data lake downstream.
A arquitetura tem os seguintes componentes:
- Região
Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).
- Domínios de disponibilidade
Os domínios de disponibilidade são data centers independentes e independentes dentro de uma região. Os recursos físicos em cada domínio de disponibilidade são isolados dos recursos dos outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou resfriamento ou a rede interna do domínio de disponibilidade. Portanto, provavelmente uma falha em um domínio de disponibilidade não afetará os outros domínios de disponibilidade da região.
- Rede virtual na nuvem (VCN) e sub-redes
Uma VCN é uma rede personalizável e definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem total controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, que podem ter escopo em uma região ou em um domínio de disponibilidade. Cada sub-rede consiste em um intervalo ininterrupto de endereços que não se sobrepõem às outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.
- Integração
O Oracle Integration é um serviço totalmente gerenciado que permite integrar seus aplicativos, automatizar processos, obter insight sobre seus processos de negócios e criar aplicativos visuais.
- Oracle Data Integration
O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e modifica dados de uma variedade de origens de dados nos serviços do Oracle Cloud Infrastructure de destino, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage. O ETL (extract transform load) utiliza o processamento de expansão totalmente gerenciado no Spark e o ELT (extract load transform) utiliza recursos completos de push-down SQL do Autonomous Data Warehouse para minimizar a movimentação de dados e melhorar o tempo de valorização dos dados recém-incorporados. Os usuários criam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza os fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução. O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados e ajuda os engenheiros de dados a proteger-se contra divergência de esquema definindo regras para lidar com alterações de esquema.
- Oracle Business Intelligence Conector em Nuvem
O Oracle BI Cloud Connector (BICC) é uma ferramenta útil para extrair dados do Fusion e armazená-los em recursos compartilhados, como Oracle Universal Content Management (UCM) Server ou armazenamento em nuvem no formato CSV.
- OIC - Agente de Conectividade
Com o agente de conectividade do OIC, você pode criar integrações híbridas e trocar mensagens entre aplicativos em redes privadas ou locais e no Oracle Integration Cloud.
- Data Lake
Um data lake é um repositório escalável e centralizado que pode armazenar dados brutos e permite que uma empresa armazene todos os seus dados em um ambiente elástico e econômico. Um data lake fornece um mecanismo de armazenamento flexível para armazenar dados brutos.
- Object Storage
O armazenamento de objetos oferece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar de forma segura e depois recuperar dados diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento de forma integrada sem prejudicar o desempenho ou a confiabilidade do serviço. Use o armazenamento padrão para armazenamento de acesso frequente que você precisa acessar de forma rápida, imediata e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.
- Autonomous Database
O Oracle Cloud Infrastructure Autonomous Database é um ambiente de banco de dados pré-configurado totalmente gerenciado que você pode usar para cargas de trabalho de processamento de transações e data warehousing. Não é necessário configurar ou gerenciar qualquer hardware ou instalar qualquer software. O Oracle Cloud Infrastructure trata da criação do banco de dados, bem como do backup, aplicação de patches, upgrade e ajuste do banco de dados.
- Analítico
O Oracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que capacita os analistas de negócios com recursos modernos de análise com autoatendimento para preparação de dados, visualização, relatórios empresariais, análise aumentada e geração e processamento de linguagem natural. Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, dimensionamento e aplicação de patches fáceis e gerenciamento automatizado do ciclo de vida.
- Catálogo de dados
Oracle Cloud Infrastructure Data Catalog é uma solução de governança e descoberta de dados de autoatendimento totalmente gerenciada para os dados da sua empresa. Ele fornece aos engenheiros de dados, cientistas de dados, administradores e diretores executivos um único ambiente colaborativo para gerenciar os metadados técnicos, comerciais e operacionais da organização.
Recomendações
- Segurança
Todas as conexões são estabelecidas por meio de uma rede privada e todas as transações ETL são roteadas por meio do Fastconnect para o Colt for AWS, Azure Interconnect for Azure. Também é recomendável usar criptografia e decriptografia na origem e no destino. Isso garantirá a segurança em trânsito.
Considerações
Considere os pontos a seguir ao implantar essa arquitetura de referência.
- SegurançaUse políticas do OCI Identity and Access Management (IAM) para controlar quem pode acessar seus recursos de nuvem e quais operações podem ser executadas. Para proteger as senhas do banco de dados ou quaisquer outros segredos, considere o uso do serviço OCI Vault.
- Atribua menos acesso de privilégio para usuários e grupos do serviço IAM a tipos de recursos em
dis-family
. - Para minimizar a perda de dados decorrente de exclusões inadvertidas ou mal-intencionadas por um usuário autorizado, a Oracle recomenda designar a permissão
DIS_WORKSPACE_DELETE
ao conjunto mínimo possível de grupos e usuários do serviço IAM. Designe a permissãoDIS_WORKSPACE_DELETE
somente aos administradores de tenancy e compartimento. - Para proteger suas origens de dados de qualquer vulnerabilidade de segurança, forneça credenciais apenas para contas somente para leitura. O Data Integration só precisa de acesso de leitura para ingerir dados de ativos de dados.
- Atribua menos acesso de privilégio para usuários e grupos do serviço IAM a tipos de recursos em
- Custo
- Se dados em larga escala forem transferidos através dos limites da nuvem com frequência, a direção do fluxo de dados se tornará essencial. Os provedores de nuvem geralmente não cobram pela entrada de dados, mas todos os provedores cobram uma taxa de saída de dados. As taxas de saída de dados variam entre os provedores de nuvem. É crucial levar o custo de saída para considerações de design multicloud. Além disso, a residência dos dados deve ser considerada ao mover os dados.
- OCI FastConnect: O custo de FastConnect é o mesmo em todas as regiões do OCI.
- Microsoft Azure ExpressRoute: O custo do Microsoft Azure ExpressRoute varia de uma região para outra. O Azure tem mais de um SKU disponível para uma rota expressa. A Oracle recomenda o uso da definição Local porque ela não tem encargos de entrada ou saída separados e começa com a largura de banda mínima de 1 Gbps. As configurações Padrão e Premium oferecem menor largura de banda, mas incorrem em encargos de saída separados em uma configuração com medição de consumo.
- Use o serviço Archive Storage de baixo custo para armazenar dados que raramente são acessados, mas que devem ser mantidos por um período maior. Defina políticas de gerenciamento de ciclo de vida para mover dados automaticamente para o Armazenamento de Arquivos Compactados ou exclua dados após uma duração especificada.
- Alta disponibilidade
Cada circuito de interconexão (ExpressRoute e FastConnect) vem com um circuito redundante no mesmo POP, mas com um roteador físico diferente, fornecendo alta disponibilidade.
Explorar Mais
Revise esses recursos adicionais para saber mais sobre os recursos dessa arquitetura de referência.
- Estrutura de melhores práticas do Oracle Cloud Infrastructure
- Saiba mais sobre como projetar data lakes no Oracle Cloud
- O que é multicloud?
- Adaptadores de aplicativos predefinidos do OCI Data Integration
- Criando Data Warehouse Personalizado para NetSuite usando Transformações de Dados
- Serviços de Integração da OCI
- Documentação do OCI API Gateway
- Integração de Dados do OCI: Origens de Dados Compatíveis para Ativos de Dados
- Documentação do Oracle Cloud Infrastructure
- Estimador de Custos do Oracle Cloud