Saiba mais sobre a Automação da Migração de Dados do Hadoop para a Oracle com o WANdisco LiveData Migrator

O Oracle Cloud Infrastructure Lakehouse fornece uma plataforma integrada de vários serviços de nuvem da Oracle que trabalham juntos com fácil movimentação de dados e governança unificada e oferece a capacidade de usar as melhores ferramentas comerciais e de código aberto com base em seus casos de uso e preferências.

Arquitetura

Esta arquitetura mostra o uso do WANdisco LiveData Migrator para automatizar a migração de dados para o Oracle Cloud Infrastructure Lakehouse.

O WANdisco LiveData Migrator automatiza a movimentação em larga escala de dados e metadados de data lakes, Spark e ambientes Hadoop existentes para o Oracle Cloud Infrastructure (OCI). Aproveitando os recursos LiveData da WANdisco, a migração de dados pode ocorrer enquanto os dados de origem estão sob alteração ativa, sem exigir tempo de inatividade ou interrupção nos negócios do sistema de produção, e oferece suporte à migração completa e contínua de dados.

O diagrama a seguir ilustra a arquitetura funcional da plataforma de dados moderna da OCI.

Veja a seguir a descrição da ilustração modern-data-platform.png
Descrição da ilustração modern-data-platform.png

moderna-data-platform-oracle.zip

  1. Os dados são coletados de bancos de dados operacionais, aplicativos empresariais, outros aplicativos, eventos e sensores externos.
  2. Os dados são transferidos para o Oracle Cloud Infrastructure Lakehouse por meio do Oracle GoldenGate, Oracle Cloud Infrastructure Data Integration, aplicativos parceiros, como WANdisco, e aplicativos de código-fonte aberto, como Apache e Kafka.
  3. Os dados são consumidos pelo Oracle Analytics Cloud, Oracle Cloud Infrastructure Data Science, Oracle Cloud Infrastructure AI Services e Oracle Machine Learning no OCI e em aplicativos fora do OCI.

Essa arquitetura oferece suporte aos seguintes componentes:

  • Oracle Cloud Infrastructure GoldenGate

    O Oracle Cloud Infrastructure GoldenGate é um serviço totalmente gerenciado que permite a ingestão de dados a partir de origens que residem no local ou em qualquer nuvem, aproveitando a tecnologia CDC GoldenGate para uma captura de dados e entrega não intrusiva e eficiente no Oracle Autonomous Data Warehouse em tempo real e em escala a fim de disponibilizar as informações relevantes aos consumidores o mais rápido possível.

  • Integração

    O Oracle Integration é um serviço totalmente gerenciado que permite integrar seus aplicativos, automatizar processos, obter informações sobre seus processos de negócios e criar aplicativos visuais.

  • WANdisco LiveData Migrador

    O WANdisco LiveData Migrator automatiza a movimentação em larga escala de dados e metadados dos ambientes existentes de data lakes, Spark e Hadoop no local para o OCI migra dados ao vivo em escala de um local. O LiveData Migrator não requer tempo de inatividade, ele migra as alterações feitas nos dados antes, durante e após a migração.

  • Autonomous Data Warehouse

    O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo otimizado para cargas de trabalho de data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, o upgrade e o ajuste do banco de dados.

  • Serviços de IA do Oracle Cloud Infrastructure

    O Oracle Cloud Infrastructure AI Services é um conjunto de serviços com modelos de aprendizado de máquina predefinidos que facilitam a aplicação de IA a aplicativos e operações de negócios por parte dos desenvolvedores. Os modelos podem ser treinados sob medida para obter resultados de negócios mais precisos. As equipes de uma organização podem reutilizar os modelos, os conjuntos de dados e os rótulos de dados nos serviços. O OCI AI Services permite que os desenvolvedores adicionem facilmente aprendizagem de máquina a aplicativos sem diminuir o desenvolvimento de aplicativos.

  • Oracle Machine Learning

    Os serviços do Oracle Machine Learning fornecem uma estrutura comum para o gerenciamento e a implantação do modelo de aprendizado de máquina com o Oracle Autonomous Database. Ele acelera a criação e a implantação de modelos de aprendizado de máquina para cientistas de dados, eliminando a necessidade de transferir dados para sistemas de aprendizado de máquina dedicados.

  • Data Lake do Armazenamento de Objetos

    O armazenamento de objetos fornece acesso rápido a grandes volumes de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados analíticos e conteúdo avançado, como imagens e vídeos. Você pode armazenar e, em seguida, recuperar dados diretamente da internet ou de dentro da plataforma de nuvem. Você pode escalar o armazenamento de forma integrada sem experimentar qualquer degradação no desempenho ou na confiabilidade do serviço. Use o armazenamento padrão para armazenamento "quente" que você precisa acessar de forma rápida, imediata e frequente. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.

    Um data lake é um lugar para armazenar seus dados estruturados e não estruturados, bem como um método para organizar grandes volumes de dados altamente diversos de diversas fontes. Os data lakes estão se tornando cada vez mais importantes à medida que as pessoas, especialmente em negócios e tecnologia, desejam realizar uma ampla exploração e descoberta de dados. Colocar os dados em um único lugar ou a maioria deles em um só lugar simplifica isso.

  • Catálogo de dados

    O Oracle Cloud Infrastructure Data Catalog é uma solução de governança e descoberta de dados de autoatendimento totalmente gerenciada para os dados da sua empresa. Ele fornece a engenheiros de dados, cientistas de dados, administradores e diretores executivos um único ambiente colaborativo para gerenciar os metadados técnicos, comerciais e operacionais da organização.

  • Análise

    O Oracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que capacita os analistas de negócios com recursos modernos de análise com autoatendimento para preparação de dados, visualização, relatórios empresariais, análise aumentada e geração e processamento de linguagem natural. Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, dimensionamento e aplicação de patches fáceis, além de gerenciamento automatizado do ciclo de vida.

  • Serviço Oracle Cloud Infrastructure Streaming

    O Oracle Cloud Infrastructure Streaming Service (OSS) fornece uma solução totalmente gerenciada, escalável e durável para a ingestão e o consumo de streams de dados de alto volume em tempo real. Use o Streaming para qualquer caso de uso em que os dados sejam produzidos e processados de modo contínuo e sequencial em um modelo de mensagens do padrão publicar-assinar.

Sobre o Oracle Cloud Infrastructure Lakehouse

Um data lakehouse é uma arquitetura moderna e aberta que permite armazenar, entender e analisar todos os seus dados. Ele combina o poder e a riqueza dos data warehouses com a amplitude e a flexibilidade das mais populares tecnologias de dados de código aberto que você usa hoje. O Oracle Cloud Infrastructure Lakehouse foi criado do zero no Oracle Cloud Infrastructure (OCI) com as estruturas de IA mais recentes e serviços de IA pré-criados. O Oracle Cloud Infrastructure Lakehouse fornece uma plataforma integrada de vários serviços de nuvem da Oracle que trabalham juntos com fácil movimentação de dados e governança unificada e oferece a capacidade de usar as melhores ferramentas comerciais e de código aberto com base em seus casos de uso e preferências.

As organizações podem migrar facilmente data lakes existentes ou criar novos de código-fonte aberto no Oracle Cloud Infrastructure Lakehouse com serviços totalmente gerenciados como Oracle Big Data Service e Oracle Cloud Infrastructure Data Flow. Spark, HIVE, Hbase e muitos outros serviços podem ser facilmente implantados e escalados na OCI.

O Oracle Big Data Service oferece clusters Apache Hadoop e Spark dedicados sob demanda totalmente configurados, seguros, altamente disponíveis. Ele oferece os componentes do Hadoop comumente usados, simplificando a migração de cargas de trabalho para a nuvem e garantindo a compatibilidade com soluções locais.

O Oracle Cloud Infrastructure Data Flow é um serviço Spark sem servidor totalmente gerenciado que permite que você se concentre em suas cargas de trabalho Spark com conceitos de infraestrutura zero. Ele permite a entrega rápida de aplicativos porque os desenvolvedores podem se concentrar no desenvolvimento de aplicativos, não no gerenciamento de infraestrutura.

Muitas organizações estão buscando migrar seus data lakes locais para utilizar a arquitetura Oracle Cloud Infrastructure Lakehouse. No entanto, a migração de um data lake de ambientes Hadoop locais para a nuvem pode ser um desafio sem o suporte adequado.

Sobre a Migração de Dados do Apache Hadoop com o LiveData Migrator

A migração de dados do Apache Hadoop é difícil devido ao volume de dados e à quantidade de alterações de dados que geralmente ocorrem nesses sistemas.

As abordagens tradicionais de migração de dados dependiam de ferramentas projetadas para transferência de dados estática, como dispositivos de transferência em massa ou ferramentas de código aberto como DistCp (Distributed Copy). Eles exigem que os sistemas locais sejam desativados para impedir mudanças de dados durante o processo de migração, ou exigem que os responsáveis pela migração identifiquem as alterações e desenvolvam soluções personalizadas para migrar os dados novos e alterados. Isso adiciona tempo e riscos à migração de dados, e de acordo com analistas do setor, resulta em mais de 60% das iniciativas de migração de dados para passar do tempo, exceder o orçamento ou falhar completamente.

O LiveData Migrator suporta a migração de dados do Apache Hadoop e metadados do Hive das seguintes origens:
  • Cloudera, incluindo CDP (Cloudera Data Platform)
  • CDH (Cloudera Data Hub)
  • HDP (Hortonworks Data Platform) HDFS versões 2.6 e superiores

Os sistemas de origem podem ser executados nas configurações de hardware personalizadas ou do Oracle Big Data Appliance.