Estabeleça uma Solução de Dados Multicloud entre a OCI e o Microsoft Azure

As organizações podem estabelecer um data lake house ou data warehouse empresarial para armazenar dados ativos e arquivados em um local centralizado.

Essa abordagem simplifica o processo de criação de um armazenamento de dados centralizado que serve como uma solução abrangente para todas as necessidades de análise de dados.

Ao aproveitar uma solução de análise de dados multicloud, as organizações podem conduzir análises com eficiência usando um data lake house central ou data warehouse integrado com várias fontes de dados, incluindo Fusion SaaS, arquivos simples, bancos de dados locais e em nuvem, Salesforce e sites de comércio eletrônico.

O objetivo final é criar um repositório centralizado de dados que foi extraído e analisado por unidades de negócios para melhorar a visibilidade de negócios de ponta a ponta e fornecer insights orientados por dados. Os benefícios incluem:

  • Pipeline unificado de análise de dados

    Simplifique o acesso aos dados de várias fontes na nuvem e on-premises, como bancos de dados e armazenamentos de objetos.

  • Facilidade de integração

    Integração perfeita de dados em diversos sistemas, formatos, APIs, aplicativos e dispositivos para garantir colaboração segura e conformidade com protocolos de segurança sem a necessidade de codificação manual.

  • Análise de alto desempenho

    Consulta de dados eficiente, levando a decisões mais rápidas e melhor atendimento ao cliente.

  • Custo, segurança e disponibilidade

    Minimize CapEx e OpEx ao mesmo tempo em que obtém a melhor relação custo-benefício, desempenho, segurança e disponibilidade.

Arquitetura

Essa arquitetura de referência ilustra um pipeline de dados multicloud empresarial que coleta e formata dados de várias fontes, transferindo-os para o data lake ou data warehouse empresarial. Ele inclui integração em lote, integração de dados e cenários de integração em tempo real.

O Oracle Interconnect for Microsoft Azure vincula o Azure ExpressRoute e o Oracle Cloud Infrastructure FastConnect para conectar duas redes de nuvem separadas com eficiência.

O tráfego da Rede Virtual (VNet) do Azure roteia por meio de uma interconexão privada com a VCN (rede virtual na nuvem) da OCI.

O diagrama a seguir ilustra essa arquitetura de referência.



oci-azure-multicloud-data-solution-diagram-oracle.zip

O OCI Data Integration conecta e extrai dados de origens locais e na nuvem usando adaptadores nativos, acessa aplicativos Oracle SaaS usando o conector BICC, realiza transformações nos dados e os carrega em um data lake da OCI por meio de adaptadores (Oracle Autonomous Database ou OCI Object Storage).

Os serviços de integração de aplicativos da Oracle coletam dados em tempo real de diversos sistemas de origem, como aplicativos Oracle SaaS, internet das coisas (IoT), serviços de streaming, mídia social, sistemas locais e outros provedores de nuvem por meio de adaptadores nativos. Em seguida, ele executa processos de transformação e orquestração antes de carregar os dados em um data lake da OCI usando adaptadores (Oracle Autonomous Database ou OCI Object Storage).

O OCI GoldenGate captura dados do Oracle Autonomous Database e os replica para o Data Lake Gen2 e o Azure Synapse Analytics do Azure quase em tempo real por meio do OCI FastConnect. A replicação para o Synapse envolve preparar e mesclar os dados de alteração em microbatches no Azure Data Lake Storage Gen2 antes de mesclá-los na tabela de destino Synapse.

Fluxo de eventos

  1. Extração e transferência de dados
    • Os dados do cliente são transferidos da origem de dados para o OCI Object Storage diretamente ou por meio de drivers padrão específicos da origem.
    • Os arquivos simples locais são movidos para o OCI Object Storage usando o script Python do cliente ou estabelecendo uma conexão FTP com o OCI Object Storage para conectividade perfeita com o Oracle Integration Cloud Service.
    • O upload dos dados é feito com segurança em seu formato bruto para buckets do OCI Object Storage com criptografia.
  2. Ingestão e transformação de dados
    • O OCI Data Integration recupera dados do OCI Object Storage e de outras origens, os transforma de acordo com as necessidades de negócios usando o Apache Spark e um fluxo de arquitetura proposto e, em seguida, armazena os dados transformados de volta no OCI Object Storage junto com o banco de dados autônomo.
    • Esse processo segue a arquitetura Delta Lake para propriedades ACID ativas e compactação. Os dados agora estão estruturados, podem ser consultados e estão prontos para análises adicionais.
    • O OCI Logging gerencia todos os logs de processamento.
  3. Orquestração e programação
    • O OCI Data Integration gerencia processos de fluxo de dados, programando a execução de aplicativos do serviço Data Flow e notebooks do serviço Data Science conforme necessário.
    • Os desenvolvedores podem executar aplicativos do serviço Data Flow na UI ou nos notebooks do serviço Data Science para flexibilidade.
  4. Arquivamento de dados
    • As políticas de ciclo de vida do OCI Object Storage, que são definidas e implementadas pelos clientes, desempenham um papel crucial na automação do processo de arquivamento de dados. Essas políticas facilitam a transferência perfeita de dados para níveis de armazenamento mais econômicos ou a exclusão sistemática de informações desatualizadas, tudo de acordo com regras e diretrizes predefinidas. Essa automação é essencial para garantir não apenas o gerenciamento eficiente de dados, mas também a conformidade com várias políticas de retenção que as organizações devem aderir.
    • Ao utilizar essas políticas de ciclo de vida, os clientes podem otimizar seus custos de armazenamento, mantendo o controle sobre suas práticas de retenção de dados e garantindo que estejam alinhados com os requisitos legais e regulatórios.
  5. Replicação de dados para o Azure
    • O OCI GoldenGate é usado para replicação de dados para o Azure por meio de uma rede dedicada estabelecida com o Oracle Interconnect for Microsoft Azure.
    • O OCI GoldenGate integra-se estreitamente com o Azure Data Lake e o Azure Synapse Analytics para carregamento contínuo de dados.
  6. Análises e relatórios de dados
    • O Oracle Analytics Cloud e o Power BI são exemplos de ferramentas de business intelligence que podem estabelecer uma conexão com o OCI Object Storage ou o Oracle Autonomous Database.
    • Essas ferramentas reúnem os dados que foram transformados e produzem painéis fáceis de usar que mostram os principais indicadores-chave de desempenho (KPIs) de negócios.
    • Por meio desses painéis, insights valiosos podem ser obtidos a partir dos dados, facilitando a tomada de decisões bem informada.

A arquitetura tem os seguintes componentes:

  • Tenancy

    Uma tenancy é uma partição segura e isolada que a Oracle configura no Oracle Cloud quando você se inscreve no Oracle Cloud Infrastructure. Você pode criar, organizar e administrar seus recursos no Oracle Cloud em sua tenancy. Uma tenancy é sinônimo de uma empresa ou organização. Normalmente, uma empresa terá uma única locação e refletirá sua estrutura organizacional dentro dessa locação. Uma única tenancy geralmente é associada a uma única assinatura, e uma única assinatura geralmente só tem uma tenancy.

  • Região

    Região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominada domínios de disponibilidade. As regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou até mesmo continentes).

  • Compartimento

    Os compartimentos são partições lógicas entre regiões em uma tenancy do Oracle Cloud Infrastructure. Use compartimentos para organizar seus recursos no Oracle Cloud, controlar o acesso aos recursos e definir cotas de uso. Para controlar o acesso aos recursos em um determinado compartimento, você define políticas que especificam quem pode acessar os recursos e quais ações eles podem executar.

  • Domínios de disponibilidade

    Domínios de disponibilidade são data centers stand-alone e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou refrigeração ou a rede interna do domínio de disponibilidade. Portanto, uma falha em um domínio de disponibilidade não deve afetar os outros domínios de disponibilidade na região.

  • Rede virtual na nuvem (VCN) e sub-redes

    Uma VCN é uma rede personalizável definida por software que você configura em uma região do Oracle Cloud Infrastructure. Como as redes tradicionais de data center, as VCNs oferecem controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após a criação da VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • ExpressRoute

    O Azure ExpressRoute permite configurar uma conexão privada entre um VNet e outra rede, como sua rede local ou uma rede em outro provedor de nuvem.

    O Azure ExpressRoute é uma alternativa mais confiável e rápida às conexões de internet típicas porque o tráfego no Azure ExpressRoute não atravessa a internet pública.

  • Autonomous Database

    O Oracle Autonomous Database é um ambiente de banco de dados totalmente gerenciado e pré-configurado que você pode usar para processamento de transações e cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. O Oracle Cloud Infrastructure trata da criação do banco de dados, bem como do backup, da aplicação de patches, do upgrade e do ajuste do banco de dados.

  • Object Storage

    O armazenamento de objetos oferece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados de análise e conteúdo avançado, como imagens e vídeos. Você pode armazenar de forma segura e depois recuperar dados diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento sem prejudicar o desempenho ou a confiabilidade do serviço. Use o armazenamento padrão para armazenamento de acesso frequente que você precisa para acessar de forma rápida, imediata e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.

  • Integração de dados

    O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e reformula dados de uma variedade de origens de dados para serviços de destino do Oracle Cloud Infrastructure, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage. O ETL (carga de transformação de extração) aproveita o processamento de expansão totalmente gerenciado no Spark, e o ELT (transformação de carga de extração) aproveita os recursos completos de push-down SQL do Autonomous Data Warehouse para minimizar a movimentação de dados e melhorar o tempo de valorização dos dados recém-ingerados. Os usuários projetam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza os fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução. O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados e ajuda os engenheiros de dados a se protegerem contra divergências de esquema definindo regras para lidar com alterações de esquema.

  • Oracle GoldenGate Cloud Service

    O Oracle GoldenGate Cloud Service é um serviço totalmente gerenciado que permite a ingestão de dados de origens que residem on-premise ou em qualquer nuvem, aproveitando a tecnologia CDC GoldenGate para uma captura não intrusiva e eficiente de dados e entrega ao Oracle Autonomous Data Warehouse em tempo real e em escala para disponibilizar informações relevantes aos consumidores o mais rápido possível.

  • Oracle Integration

    O Oracle Integration fornece conectividade predefinida com aplicativos locais e SaaS, modelos de automação de processos prontos para execução e um construtor visual de baixo código para desenvolvimento de aplicativos web e móveis. Ele oferece acesso nativo a eventos no Oracle Cloud ERP, HCM e CX. Conecte silos analíticos específicos do aplicativo para simplificar a requisição ao recebimento, recrutamento ao pagamento, lead à fatura e outros processos críticos, fornecendo aos líderes de TI e de negócios visibilidade de ponta a ponta.

  • Azure Synapse Analytics

    O Azure Synapse Analytics é um serviço de análise que reúne integração de dados, data warehousing empresarial e análise de big data. Ele permite consultar dados em seus termos, usando opções serverless ou dedicadas, em escala. O Azure Synapse Analytics reúne esses conceitos com uma experiência unificada para ingerir, explorar, preparar, transformar, gerenciar e fornecer dados para necessidades imediatas de BI e machine learning.

  • Azure Armazenamento do Data Lake Gen2

    O Azure Data Lake Storage Gen2 é um conjunto de recursos dedicados à análise de big data, criado no Azure Blob Storage. O Data Lake Storage Gen2 converge os recursos do Azure Data Lake Storage Gen1 com o Azure Blob Storage.

    Por exemplo, o Azure Data Lake Storage Gen2 fornece semântica do sistema de arquivos, segurança no nível do arquivo e escala. Como esses recursos são criados no armazenamento Blob, você também obtém armazenamento em camadas de baixo custo com alta disponibilidade e recursos de recuperação de desastres.

  • Gateway de Aplicativo do Azure

    O Gateway de Aplicativo do Azure é um balanceador de carga de tráfego web (camada OSI 7) que permite gerenciar o tráfego para seus aplicativos web. Os balanceadores de carga tradicionais operam na camada de transporte (camada OSI 4 - TCP e UDP) e roteiam o tráfego com base no endereço IP e na porta de origem, para um endereço IP e porta de destino. O Azure Application Gateway pode tomar decisões de roteamento com base em atributos adicionais de uma solicitação HTTP; por exemplo, caminho de URI ou cabeçalhos de host.

    Por exemplo, você pode rotear o tráfego com base no URL de entrada. Portanto, se /images estiver no URL de entrada, você poderá rotear o tráfego para um conjunto específico de servidores (conhecido como pool) configurados para imagens. Se /video estiver no URL, esse tráfego será roteado para outro pool otimizado para vídeos.

Recomendações

Use as recomendações a seguir como ponto de partida. Seus requisitos podem ser diferentes da arquitetura descrita aqui.
  • Provisionamento
    • Selecione o tamanho apropriado para os circuitos virtuais OCI FastConnect e Azure ExpressRoute para atender aos requisitos de largura de banda da carga de trabalho.
    • Implante o Oracle Database na VCN e na sub-rede do OCI que estão vinculadas ao Gateway de Roteamento Dinâmico do OCI (DRG) e ao OCI FastConnect.
    • Configure medidas de roteamento e segurança ou NSG (grupo de segurança de rede) na OCI para permitir que o tráfego de rede do Azure Synapse Analytics chegue ao Oracle Database.
    • Ao configurar o Oracle Database com um ponto final privado, defina as definições de VCN para permitir tráfego exclusivamente da VCN designada, restringindo o acesso de quaisquer IPs públicos ou VCNs.

Considerações

Considere os pontos a seguir ao implantar essa arquitetura de referência.

  • Custo

    OCI FastConnect: O preço do OCI FastConnect permanece consistente em todas as regiões da OCI, sem taxas adicionais para entrada ou saída de dados.

    Azure ExpressRoute: O preço do Azure ExpressRoute difere dependendo da região.

  • Desempenho

    Nesta arquitetura de referência, o cliente exigiu replicação de dados quase em tempo real do banco de dados principal na OCI para pontos finais do Azure para seu caso de uso. Ao utilizar o OCI GoldenGate, o cliente garantiu que seus reservatórios de big data heterogêneos e multicloud fossem consistentemente atualizados com dados em tempo real de sistemas de produção operacionais e analíticos, facilitando a análise em tempo real.

  • Redes

    O Oracle Interconnect for Microsoft Azure serve como uma solução de rede alternativa e é compatível com regiões pareadas específicas do OCI Azure. Para descobrir quais regiões do Azure e da OCI suportam o Oracle Database Service for Microsoft Azure, consulte Explorar Mais para Disponibilidade Regional do Oracle Database Service for Azure.

    Nos casos em que a OCI e as regiões do Azure não suportam o Oracle Interconnect for Microsoft Azure, você pode utilizar a espinha dorsal de cada provedor de nuvem para lidar com o tráfego. Se optar pelo backbone da OCI, será necessário estabelecer uma região intermediária que englobe a região do Oracle Interconnect for Microsoft Azure na OCI e uma conexão de pareamento remoto (RPC) para a região sem suporte para o Oracle Interconnect for Microsoft Azure.

Reconhecimentos

  • Autors: GuruDixit Chepuri
  • Contribuintes: John Sulyok