Migrar do Big Data Appliance (BDA) ou do Big Data Cloud Service (BDCS)
Saiba como migrar do Oracle Big Data Appliance ou do Big Data Cloud Service para o Big Data Service
Recomendamos que, mesmo após a migração para o OCI, mantenha seus clusters do Big Data Appliance ou do Big Data Cloud Service (em um estado interrompido) por pelo menos três meses como backup.
Migrando Recursos com o Migrator WANdisco LiveData
Certifique-se de que a Porta 8020 seja aberta no destino.
Para obter informações sobre o WANdisco LiveData Migrator, selecione aqui.
Para migrar recursos usando o Migrador WANdisco LiveData, siga estas etapas:
Migrando Recursos com o BDR
Antes de fazer backup do cluster do Oracle Big Data Appliance, verifique o seguinte:
-
Você tem acesso de administrador ao cluster do Big Data Appliance.
-
Você precisa das credenciais de administrador do Cloudera Manager.
-
Você precisa de um usuário administrador do Hadoop com acesso total aos dados do HDFS e aos metadados do Hive que estão sendo submetidos a backup no Oracle Object Storage.
-
-
Configure o armazenamento de objetos do Oracle Cloud Infrastructure para o qual os dados do HDFS estão sendo copiados. Para obter mais informações, consulte Visão Geral do Serviço Object Storage.
-
Configure sua tenancy do Oracle Cloud Infrastructure com os seguintes detalhes
-
O administrador criou um usuário no Oracle Cloud Infrastructure e adicionou o usuário aos grupos necessários.
-
O usuário tem permissão e pode acessar a console do Oracle Cloud Infrastructure.
-
O usuário tem permissão e pode criar um bucket. Para obter mais informações, consulte Permitir que os administradores do serviço Object Storage gerenciem buckets e objetos em Políticas Comuns.
-
O usuário pode inspecionar a configuração do armazenamento de objetos do Oracle Cloud Infrastructure.
-
Para fazer backup de um cluster BDA, siga estas etapas:
Para obter mais informações, consulte Criando um Cluster.
Antes de restaurar o cluster do Oracle Big Data Appliance para o Oracle Big Data Service, você deve ter o seguinte:
-
Um backup do cluster do Big Data Appliance. Consulte Fazer Backup de Dados do BDA no Oracle Object Storage.
-
Um cluster do Big Data Service implantado. Consulte Criar um Cluster do Big Data Service no Oracle Cloud Infrastructure.
-
Acesso à chave secreta que tem privilégios para ler o bucket do Oracle Object Storage que contém o backup do cluster do Big Data Appliance.
-
Credenciais de administrador do Cloudera Manager no cluster do Big Data Service.
- Um superusuário do HDFS e administrador do Hive com direitos para restaurar dados e metadados para o cluster.
Restaurar o Backup do BDA
- Faça log-on no Cloudera Manager no cluster do Big Data Service.
- Faça log-on em
https://your-utility-node-1:7183
, em queyour-utility-node
é o endereço IP público ou privado do nó do utilitário. Se a alta disponibilidade for usada, este será o primeiro nó do utilitário no cluster. Se a alta disponibilidade não for usada, este será o único nó do utilitário. - Informe o nome de usuário
admin
e a senha especificada durante a criação do cluster.
- Faça log-on em
- Crie uma conta externa no Cloudera Manager para restauração.
Use a chave de acesso e a chave secreta para criar uma conta externa no Cloudera Manager. Você configura uma conta externa para permitir que o cluster acesse dados no Oracle Object Storage.
Para criar uma conta externa, siga estas etapas:- Faça log-on no Cloudera Manager no cluster do Oracle Big Data Service.
- Vá para Administração e selecione Contas Externas.
- Na guia Credenciais da AWS, selecione Adicionar Credenciais da Chave de Acesso e especifique o seguinte:
-
Nome: Especifique um nome para as credenciais. Por exemplo,
oracle-credential
. -
ID da Chave de Acesso da AWS: Especifique um nome para a chave de acesso. Por exemplo,
myaccesskey
. -
AWS Secret Key: Digite o valor da chave secreta gerado anteriormente quando você criou uma chave secreta do cliente.
-
- Selecione Adicionar. A página Editar S3Guard é exibida. Não selecione Ativar S3Guard.
- Selecione Salvar.
- Na página exibida, ative o acesso do cluster a S3:
- Selecione Ativar para o nome do cluster.
- Selecione a política de credencial Mais Segura e selecione Continuar.
- Na página Reiniciar Serviços Dependentes, selecione Reiniciar Agora e selecione Continuar. Os detalhes da reinicialização são exibidos. A reinicialização do cluster pode levar alguns minutos.
- Depois de reiniciar, selecione Continuar e, em seguida, selecione Concluir.
- Atualize o ponto final s3a.Observação
Ignore esta etapa se já tiver atualizado o arquivo core-site.xml.O URI do ponto final permite que o cluster do Hadoop estabeleça conexão com o armazenamento de objetos que contém os dados de origem. Especifique este URI no Cloudera Manager.
Para atualizar o ponto final, siga estas etapas:
- Faça log-on no Cloudera Manager no cluster do Oracle Big Data Service.
- Na lista de serviços à esquerda, selecione S3 Connector.
- Selecione a guia Configuração.
- Atualize a propriedade Ponto Final S3 Padrão com o seguinte:
https://your-tenancy.compat.objectstorage.your-region.oraclecloud.com
Por exemplo, https://oraclebigdatadb.compat.objectstorage.us-phoenix-1.oraclecloud.com
- Salve as alterações.
- Atualize o cluster:
- Vá para o cluster, selecione Ações, selecione Implantar Configuração do Cliente e confirme a ação.
- Quando concluir, selecione Fechar.
- Reinicie o cluster (Selecione Ações e selecione Reiniciar).
- Crie uma programação de replicação do HDFS para restauração.
Restaure os dados do HDFS cujo backup é feito no Oracle Object Storage. Restaure os dados HDFS para o diretório raiz do sistema de arquivos HDFS a fim de espelhar a origem.
Se o Hive tiver dados externos capturados no HDFS e não gerenciados pelo Hive, crie a programação de replicação do HDFS antes de criar a programação de replicação do Hive.
Para criar uma programação de replicação do HDFS:
- Faça log-in no Cloudera Manager no cluster do Oracle Big Data Service.
- Crie uma programação de replicação do HDFS:
- Vá para Backup e selecione Programações de Replicação.
- Selecione Criar Programação e selecione Replicação HDFS.
- Especifique detalhes da programação de replicação:
-
Nome: Informe um nome. Por exemplo,
hdfs-rep1
. -
Origem: Selecione a credencial definida anteriormente. Por exemplo,
oracle-credential
. -
Caminho de Origem: Especifique o local raiz em que seus dados foram submetidos a backup. Por exemplo,
s3a://BDA-BACKUP/
. -
Destino: selecione HDFS (nome do cluster).
-
Caminho de Destino: Informe
/
-
Programação: Selecione Imediata.
-
Executar como Nome de Usuário: Especifique um usuário com acesso aos dados e metadados que estão sendo restaurados. Normalmente, esse é um superusuário do Hadoop e um administrador do Sentry.Observação
Se você não tiver um usuário com acesso aos dados e metadados necessários, crie um. Não use o superusuáriohdfs
para esta etapa.Observação
: Se a criptografia do Hadoop for usada, certifique-se de que o diretório de destino seja criado com as chaves apropriadas e que o comando seja executado como usuário que tenha acesso encrypt.
-
- Selecione Salvar Cronograma. Você pode monitorar a replicação na página Programações de Replicação.
- Crie uma programação de replicação do Hive para restauração.
Para restaurar dados e metadados do Hive do Oracle Object Storage para o cluster do Hadoop, crie uma programação de replicação do Hive no Cloudera Manager.
Para criar uma programação de replicação do Hive, siga estas etapas:
- Faça log-on no Cloudera Manager no cluster do Oracle Big Data Service.
- Crie a programação de replicação:
- Vá para Backup e selecione Programações de Replicação.
- Selecione Criar Programação e selecione Replicação do Hive.
- Especifique os detalhes da programação de replicação do Hive:
-
Nome: Informe um nome. Por exemplo,
hive-rep1
. -
Origem: Especifique a credencial definida anteriormente. Por exemplo,
oracle-credential
. -
Destino: selecione Hive (nome do cluster).
-
Caminho Raiz da Nuvem: Selecione o local raiz em que você fez backup dos dados. Por exemplo,
s3a://BDA-BACKUP/
. -
Caminho de Destino do HDFS: Informe
/
-
Bancos de Dados: Selecione Replicar Tudo.
-
Opção de Replicação: Selecione Metadados e Dados.
-
Programação: Selecione Imediata.
-
Executar como nome de usuário: especifique um usuário com acesso aos dados e metadados que serão restaurados. Normalmente, esse é um superusuário do Hadoop e do Hive e um administrador do Sentry.Observação
Se você não tiver um usuário com acesso aos dados e metadados necessários, crie um. Não use o superusuáriohdfs
para esta etapa.
-
- Selecione Salvar Cronograma. Você pode monitorar a replicação na página Programações de Replicação.
Spark
Revise o job do spark e atualize-o com base nos novos detalhes do cluster.
Yarn
- No cluster de origem, copie o Cloudera Manager. (Vá para YARN, selecione Configuração e selecione o conteúdo Alocações Justas do Scheduler (Implantadas) na mesma posição do cluster de destino.)
- Se não for possível copiar, crie a fila manualmente. (No Cloudera Manager, vá para Clusters e selecione Configuração de pool de recursos dinâmicos.)
Sentry
- Migre os dados do HDFS e os Metadados do Hive usando BDR, Wandisco ou Hadoop Distcp.
- Para exportar os dados do sentry do banco de dados do sentry de origem e restaurar no banco de dados do sentry de Destino, você precisa da ferramenta de migração meta do Sentry. Consulte a nota Doc ID 2879665.1 do Suporte Técnico da Oracle para obter as ferramentas de migração meta do Sentry.
Migrando Dados Usando a Ferramenta Rclone
Para configurar e configurar o Rclone para copiar e sincronizar arquivos com os sistemas de arquivos distribuídos OCI Object Storage e Hadoop, consulte Copiar Dados para o Oracle Cloud Usando o Rclone para Criar Insights no Oracle Analytics Cloud
Migrando Recursos com a Ferramenta Distcp
Você também pode migrar dados e metadados do BDA e importá-los para o Big Data Service usando a ferramenta Distcp. Distcp é uma ferramenta de código aberto que pode ser usada para copiar grandes conjuntos de dados entre sistemas de arquivos distribuídos dentro e entre clusters.
Para preparar o cluster BDA ou BDCS para exportação, siga estas etapas:
Para exportar dados do HDFS, siga estas etapas:
Migre dados do HDFS de forma incremental usando o distcp para enviar dados da origem para o destino após um intervalo de tempo e uma adição, atualização ou exclusão nos dados de origem.
- Certifique-se de que o nome do snapshot no cluster de origem e de destino seja o mesmo.
- Não exclua/altere os dados do HDFS no cluster de destino. Isso pode causar erros mencionados na próxima seção.
Para exportar metadados do Hive, siga estas etapas:
Agora você importa os dados e metadados exportados para o Big Data Service.
- Configure um novo ambiente de destino no Big Data Service com a mesma versão do BDA ou BDCS Hadoop (Hadoop 2.7.x) do cluster de origem.Observação
Observação:-
- Defina o cluster do Big Data Service no OCI com o mesmo tamanho do cluster BDA ou BDCS de origem. No entanto, você deve revisar suas necessidades de computação e armazenamento antes de decidir o tamanho do cluster de destino.
- Para saber as formas de VM do Oracle Cloud Infrastructure, consulte Formas do Serviço Compute. O BDA ou BDCS não suporta todas as formas.
- Se algum software diferente da pilha BDA ou BDCS estiver instalado no sistema de origem usando o script de inicialização ou algum outro método, você deverá instalar e manter esse software no sistema de destino também.
-
- Copie o arquivo de chave privada PEM (
oci_api_key.pem
) para todos os nós do cluster do Big Data Service e defina as permissões apropriadas. - Exporte os artefatos do cluster BDA ou BDCS de origem.
Para importar dados para o HDFS, siga estas etapas:
Importar os arquivos de metadados e executar as permissões
- Importe arquivos de metadados do Armazenamento de Objetos para
/metadata
no HDFS.hadoop distcp -libjars ${LIBJARS} \ -Dfs.client.socket-timeout=3000000 -Dfs.oci.client.auth.fingerprint=<fingerprint> \ -Dfs.oci.client.auth.pemfilepath=<oci_pem_key> \ -Dfs.oci.client.auth.passphrase=<passphrase> \ -Dfs.oci.client.auth.tenantId=<OCID for Tenancy> \ -Dfs.oci.client.auth.userId=<OCID for User> \ -Dfs.oci.client.hostname=<HostName. Example: https://objectstorage.us-phoenix-1.oraclecloud.com/> \ -Dfs.oci.client.multipart.allowed=true \ -Dfs.oci.client.proxy.uri=<http://proxy-host>:port \ -Dmapreduce.map.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.reduce.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.task.timeout=6000000 \ -skipcrccheck -m 40 -bandwidth 500 \ -update -strategy dynamic -i oci://<bucket>@<tenancy>/metadata/ /metadata
- Mover arquivos para o diretório local.
hdfs dfs -get /metadata/Metadata*
- Execute os arquivos em paralelo no plano de fundo ou em vários terminais.
bash Metadataaa & bash Metadataab & bash Metadataac &...
Para importar metadados, siga estas etapas:
Faça o seguinte:
Validando a Migração
- Verifique se você vê o mesmo conjunto de tabelas hive no cluster de destino que no cluster de origem.
- Conecte-se ao shell hive.
hive
- Execute o seguinte comando para listar as tabelas:
show tables;
- Conecte-se ao shell hive.