Migrar o Hadoop para o Oracle Usando o Migrador WANdisco LiveData

Sobre a Migração de Dados do Hadoop

Veja a seguir as etapas típicas envolvidas em uma migração do Apache Hadoop para a Nuvem:

O diagrama a seguir ilustra a arquitetura de fluxo e os componentes.

Descrição da ilustração hadoop-lakehouse-migration.png

Descoberta: Identifique os conjuntos de dados e cargas de trabalho que devem ser migrados para a nuvem.
Planejamento: Desenvolva um plano e cronograma para as fases em que a migração será executada.
Migração de Dados: Execute a migração dos dados necessários do ambiente Hadoop local para a nuvem.
Migração de Carga de Trabalho: Execute a migração de cargas de trabalho e/ou aplicativos do ambiente local para a nuvem.
Novo Desenvolvimento de Análise: Comece a desenvolver novas análises, IA e aprendizado de máquina, aproveitando, assim, o novo ambiente de nuvem.
Medida e Ação: Execute análises para medir KPIs, avaliar desempenho, fazer previsões e permitir que a empresa aja de forma apropriada.

Para tentar simplificar sua migração para a nuvem, muitas organizações optam por seguir uma estratégia de migração "lift and shift". Essa estratégia faz o pressuposto simplista de que a migração pode ser realizada sem fazer qualquer alteração nos dados ou nos aplicativos. A lógica é "apenas movê-los como eles estão para a nuvem". Essa suposição resulta em muitos projetos ou projetos com falha que excedem seu tempo e custos. Isso exige que os sistemas existentes sejam desativados para garantir que não ocorram alterações nos dados ou exige que as organizações passem tempo desenvolvendo soluções personalizadas para lidar com alterações de dados. Outras desvantagens para essa estratégia são, primeiro, que ela exige que as organizações executem uma transição importante de todos os aplicativos e dados ao mesmo tempo, e segundo, não tira proveito dos novos recursos de nuvem.

WANdisco promove uma abordagem de dados em primeiro lugar para migrações de data lake. Uma abordagem com base nos dados em primeiro lugar se concentra em fazer com que os dados sejam movidos rapidamente e não em tentar migrar todos os aplicativos existentes ao mesmo tempo. Esse foco torna os dados disponíveis para os cientistas de dados mais rapidamente, para que eles possam começar a trabalhar com os dados migrados desde o primeiro dia. Isso permite um tempo muito mais rápido para novos insights e inovações em IA. As organizações podem demonstrar um ROI mais rápido na migração para a nuvem, enquanto as cargas de trabalho de produção locais existentes podem continuar a ser executadas de forma não afetada. Essa abordagem também oferece flexibilidade para a migração de aplicativos e cargas de trabalho. Ela evita abordagens big-bang e fornece às organizações tempo para otimizar as cargas de trabalho para o novo ambiente de nuvem, assegurando a execução ideal e aproveitando novos recursos disponíveis para elas. As organizações podem fazer o máximo de testes paralelos necessário para garantir que não experimentarão custos ocultos, e uma abordagem de dados em primeiro lugar também lhes dará tempo para determinar se alguns dos aplicativos podem não precisar ser migrados, mas em vez disso substituídos pelo novo desenvolvimento que está ocorrendo.

Definir Origens e Destinos

Durante a implantação, o WANdisco LiveData Migrator descobre automaticamente o cluster do Apache Hadoop Distributed File System (HDFS) de origem para que você só precise definir o ambiente de destino.

Implante o WANdisco LiveData Migrator.
Durante a implantação, o LiveData Migrator descobre automaticamente o cluster HDFS de origem.
Defina a configuração do sistema de arquivos para o ambiente de destino.
1. Tipo de Sistema de Arquivos: Selecione na lista de tipos de sistema de arquivos disponíveis.
  Para a Oracle, o tipo de sistema de arquivos poderá ser Oracle Cloud Infrastructure Object Storage ou Apache Hadoop se o destino for Oracle Big Data Service (Oracle BDS), que aproveita a distribuição Apache Hadoop da Oracle.
2. Nome para Exibição: Informe um nome para exibição do sistema de arquivos.
  Por exemplo, Oracle BDS Target.
3. Sistema de Arquivos Padrão (FS): Informe o endereço do sistema de arquivos.
  Por exemplo, hdfs://localhost:8020
4. Usuário: Defina o nome de usuário do sistema de arquivos para executar ações de migração. Por exemplo, hdfs.
Quando a configuração do Kerberos do HDFS de origem se aplicar ao destino, certifique-se de que a autenticação cross-realm esteja ativada entre a origem e o destino.
Defina valores de propriedade de configuração adicionais, com a chave e o valor associados, conforme necessário.
Por exemplo, para Substituições de Propriedade de Configuração, informe a chave e o valor.
- Chave: dfs.client.use.datanode.hostname; valor: true
- Chave: dfs.datanode.use.datanode.hostname; valor: true

Definir a Migração

As migrações transferem os dados existentes da origem para o destino definido. O WANdisco LiveData Migrator migra todas as alterações feitas nos dados de origem enquanto eles estão sendo migrados e garante que o destino esteja atualizado com essas alterações. Ele faz isso enquanto continua a executar a migração.

Em geral, os usuários criarão várias migrações para que possam selecionar conteúdo específico do sistema de arquivos de origem por caminho. Você também pode migrar para vários sistemas de arquivos independentes ao mesmo tempo definindo vários destinos de migração.

Para criar uma migração, forneça o nome de uma migração, selecione os sistemas de arquivos de origem e de destino e especifique o caminho no sistema de arquivos de origem a ser migrado. Opcionalmente, você pode aplicar exclusões para especificar regras para dados que devem ser excluídos de uma migração e podem aplicar outras definições de configuração opcionais.

O LiveData Migrator também suporta a migração de metadados do Hive de metastores de origem para destino. O LiveData Migrator se conecta a metastores por meio do uso de agentes de metadados locais ou remotos. Em seguida, as regras de metadados são usadas para definir os metadados a serem migrados da origem para o destino.

Ao definir as migrações, você pode especificar para iniciar automaticamente a migração e determinar se ela deve ser uma migração ao vivo, o que significa que ela aplicará continuamente quaisquer alterações contínuas da origem ao destino.

Defina as configurações de migração.
1. Informe um nome para a migração.
2. Selecione uma origem na lista. Por exemplo, CDH-SRC.
3. Selecione um alvo da lista. Por exemplo, Oracle BDS Target.
4. Digite o caminho do diretório da origem. Por exemplo, /Data_Lake_Directory.
Verifique as exclusões padrão. Clique em Gerenciar Exclusões para fazer alterações, conforme necessário.
Selecione Substituir definições.
Selecione suas opções de migração. Selecione Migração de Inicialização Automática e Migração ao Vivo.
- Migração de início automático: A migração de dados será iniciada automaticamente. Se não for selecionada, a migração deverá ser iniciada manualmente usando a opção "iniciar migração.
- Migração ao Vivo: A migração será executada continuamente, replicando todas as alterações em tempo real à medida que elas ocorrerem da origem para o destino. Se não for selecionada, uma migração única será executada.
Clique em Criar.
Os dados começarão a migrar imediatamente da origem para o destino.

Monitorar e Gerenciar a Migração

Use a interface do usuário (IU) WANdisco para monitorar e gerenciar a migração.

Faça login na interface do usuário WANdisco.
Navegue até o Painel de Controle para exibir o uso da largura de banda para os dados que estão sendo movidos, as migrações em andamento e as migrações de metadados.

Estão disponíveis métricas de migração adicionais para compreender melhor o andamento da migração, os eventos ainda a serem processados, os eventos ainda a serem migrados e os caminhos a serem verificados.
Para gerenciar migrações existentes, use a interface de usuário WANdisco e a interface de linha de comando.
As ações disponíveis incluem:
- Designar e remover exclusões de migrações existentes
- Inicie, interrompa e retome as migrações
- Excluir uma migração
- Redefinir uma migração para o estado em que ela estava antes de iniciar
- Monitorar operações com falha para ver data/hora, caminho e motivo da falha