Migrar do Big Data Cloud Compute Edition
Saiba como migrar do Oracle Big Data Cloud Compute Edition (BDCE ou BDC) para o Big Data Service
A migração é feita em várias etapas. Você pode migrar seus artefatos para o OCI Big Data Service do BDC no Oracle Cloud Infrastructure Classic ou BDC no Oracle Cloud Infrastructure. Em um nível alto, você faz o seguinte:
-
Exporte seus recursos de nuvem existentes do BDC para o Object Storage.
- Importar os recursos de nuvem exportados do Object Storage para o Big Data Service
Pré-requisitos
- Você é um usuário válido para um compartimento no Big Data Service
- Você está habilitado para fazer o seguinte:
- Acessar a console do OCI usando suas credenciais
- Crie um bucket no Oracle Object Storage para que você possa copiar os dados do HDFS. Para obter informações sobre o Oracle Object Storage, consulte Visão Geral do Object Storage.
- Inspecionar a configuração do OCI Object Store
Para obter mais informações, consulte Conceitos Básicos do Serviço Big Data.
- Você tem os seguintes valores de parâmetro do OCI com você:
Valor Detalhes ID da Tenancy O OCID da tenancy. Por exemplo, ocid1.tenancy.oc1..aaaaaaaa5syd62crbj5xpfajpmopoqasxy7jwxk6ihopm5vk6bxkncyp56kc
. Para obter mais informações, consulte Onde Obter o OCID da Tenancy e o OCID do UsuárioID de Usuário O OCID do usuário. Por exemplo, ocid1.user.oc1..aaaaaaaa3pnl7qz4c2x2mpq4v4g2mp3wktxoyahwysmjrapgzjoyd3edxltp
. Para obter mais informações, consulte Onde Obter o OCID da Tenancy e o OCID do Usuáriochave de assinatura de API Obrigatório para um usuário do aplicativo. Por exemplo, 03:8c:ef:51:c8:fe:6b:22:0c:5d:3c:43:a8:ff:58:d9
. Para obter informações sobre como gerar e fazer upload da chave de assinatura da API, consulte os seguintes tópicos:Senha da chave de assinatura (Opcional) Obrigatório se você tiver gerado o par de chaves com uma frase-senha. Impressão Digital da chave de assinatura A impressão digital e a frase-senha da chave de assinatura são criadas ao gerar e fazer upload da chave de assinatura da API. Para obter mais informações, consulte Como Obter a Impressão Digital da Chave. Nome do bucket e da tenancy Por exemplo, oci://myBucket@myTenancy/ Para obter informações sobre buckets, consulte Colocando Dados no Serviço Object Storage.
URL de Armazenamento na Nuvem do OCI O nome do host. Por exemplo, https://objectstorage.us-phoenix-1.oraclecloud.com. Para obter mais informações, consulte Criar um Cluster.
Exportando Recursos
Artefato no BDC | Artefatos Exportados | Artefatos no OCI Big Data Service (BDS) |
---|---|---|
Dados no HDFS |
Copiado para o OCI Object Store em Por exemplo: |
Copie os dados exportados do Armazenamento de Objetos do OCI para os diretórios HDFS do BDS de destino. |
Dados no OCI-Classic Object Store Observação: Este artefato não se aplica ao Oracle Big Data Cloud no Oracle Cloud Infrastructure. |
Copiado para o OCI Object Store em Por exemplo: |
|
Metadados do Hive | Gere as instruções DDL do Hive no cluster do BDC. | Copie as instruções DDL do Hive do cluster BDC para o cluster BDS e execute-as. |
Notebooks do Zeppelin | Exporte as definições de notebook do Zeppelin como um arquivo .tar.gz de /user/zeppelin/notebook no HDFS. Isso é feito usando um script fornecido pela Oracle. |
Atualmente, a importação de Notebooks do Zeppelin não é suportada no BDS. |
Arquivos de Configuração HDFS, YARN, Spark | Exporte os arquivos de configuração como um arquivo .tar.gz usando um script de utilitário fornecido pela Oracle. |
Como o BDS otimizou as definições de configuração para HDFS, YARN e Spark, você não precisa importar os arquivos de configuração e as versões do BDC. |
Versões de vários componentes de código-fonte aberto | Exporte os detalhes da versão do serviço usando a API REST do Ambari. Os clientes também podem obter detalhes da versão do Ambari (Admin -> Pilha e Versões). |
Migrando Recursos com o Migrator WANdisco LiveData
Certifique-se de que a Porta 8020 seja aberta no destino.
Para obter informações sobre o WANdisco LiveData Migrator, selecione aqui.
Para migrar recursos usando o Migrador WANdisco LiveData, siga estas etapas:
Migrando Recursos com a Ferramenta Distcp
Você também pode migrar dados e metadados do Big Data Cloud Compute Edition e importá-los para o Big Data Service usando a ferramenta Distcp. Distcp é uma ferramenta de código aberto que pode ser usada para copiar grandes conjuntos de dados entre sistemas de arquivos distribuídos dentro e entre clusters.
Saiba como preparar o cluster BDC para exportação.
Para exportar dados do HDFS, siga estas etapas:
Para exportar metadados do Hive, siga estas etapas:
Você pode exportar configurações de serviço do cluster de origem e usá-las como referência para o cluster de destino para qualquer alteração de configuração personalizada usada no cluster de origem.
Para exportar notebooks zepplin, configurações de serviço e versões, siga estas etapas:
-
Interrompa os serviços Hive, Zeppelin e Spark.
-
Prepare-se para executar o script de exportação.
-
Execute o script de exportação.
-
Inicie os serviços Hive, Zeppelin e Spark.
Você deve revisar e atualizar o código para usar as APIs mais recentes no Spark. O Spark e o Hive usam catálogos diferentes no BDS. Para acessar a tabela do Hive, o catálogo deve ser atualizado.
<property>
<name>metastore.catalog.default</name>
<value>hive</value>
</property>
No Big Data Service, por padrão, o Hive cria tabelas ACID. O Spark não funciona em tabelas ACID. Você deve criar tabelas externas para acessar o Hive e o Spark.
Compare o arquivo de configuração criado com exportBDC.py
no BDC com o arquivo de configuração spark nas alterações de configuração personalizadas do Big Data Service.
Agora você importa os dados e metadados exportados para o Big Data Service.
- Configure um novo ambiente de destino no Big Data Service com a mesma versão do BDC Hadoop (Hadoop 2.7.x) do cluster de origem.Observação
Observação:-
- Defina o cluster do Big Data Service no OCI com o mesmo tamanho do cluster do BDC de origem. No entanto, você deve revisar suas necessidades de computação e armazenamento antes de decidir o tamanho do cluster de destino.
- Para saber as formas de VM do Oracle Cloud Infrastructure, consulte Formas do Serviço Compute. O BDC não suporta todas as formas.
- Se qualquer software que não seja a pilha do BDC estiver instalado no sistema de origem usando o script de inicialização ou algum outro método, você deverá instalar e manter esse software no sistema de destino também.
-
- Copie o arquivo de chave privada PEM (
oci_api_key.pem
) para todos os nós do cluster do Big Data Service e defina as permissões apropriadas. - Exporte os artefatos do cluster do BDC de origem. Para obter mais informações, consulte Exportar Dados e Metadados do Oracle Big Data Cloud.
Para importar dados para o HDFS, siga estas etapas:
Importar os arquivos de metadados e executar as permissões
- Importe arquivos de metadados do Armazenamento de Objetos para
/metadata
no HDFS.hadoop distcp -libjars ${LIBJARS} \ -Dfs.client.socket-timeout=3000000 -Dfs.oci.client.auth.fingerprint=<fingerprint> \ -Dfs.oci.client.auth.pemfilepath=<oci_pem_key> \ -Dfs.oci.client.auth.passphrase=<passphrase> \ -Dfs.oci.client.auth.tenantId=<OCID for Tenancy> \ -Dfs.oci.client.auth.userId=<OCID for User> \ -Dfs.oci.client.hostname=<HostName. Example: https://objectstorage.us-phoenix-1.oraclecloud.com/> \ -Dfs.oci.client.multipart.allowed=true \ -Dfs.oci.client.proxy.uri=<http://proxy-host>:port \ -Dmapreduce.map.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.reduce.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.task.timeout=6000000 \ -skipcrccheck -m 40 -bandwidth 500 \ -update -strategy dynamic -i oci://<bucket>@<tenancy>/metadata/ /metadata
- Mover arquivos para o diretório local.
hdfs dfs -get /metadata/Metadata*
- Execute os arquivos em paralelo no plano de fundo ou em vários terminais.
bash Metadataaa & bash Metadataab & bash Metadataac &...
Para importar metadados, siga estas etapas:
Faça o seguinte:
Validando a Migração
- Conecte-se ao shell hive.
hive
- Execute o seguinte comando para listar as tabelas:
show tables;
- Execute estes comandos para consultar a tabela:
SELECT * FROM airports LIMIT 10;
- Execute o comando a seguir para verificar os dados do HDFS e do Object Store.
hadoop fs -du -s /tmp/hivemigrate
- Verifique a integridade do cluster enviando todos os jobs relevantes e obtendo os resultados esperados. Escolha um job executado no BDC e execute-o no cluster do BDS.Observação
A execução bem-sucedida de um job depende não apenas da localização dos dados, mas também das definições de configuração, comoHADOOP_CLASS_PATH
, localização dos jars do cliente e assim por diante.