Opções de Migração de Dados

O Oracle fornece várias opções para migrar dados HDFS, migração de dados em massa usando o Oracle Data Transfer Appliance e migração de metadados de cluster.

Migração HDFS

Você pode migrar dados de um HDFS externo para o Oracle Cloud Infrastructure de algumas formas diferentes.

A principal consideração é o volume de dados que precisa ser movido e se é prático mover os dados "durante a conexão" e os recursos que seriam necessários para mover os dados. Se houver largura de banda suficiente e recursos do cluster de origem para suportá-lo, duas opções são relevantes:

  • DistCp para o Object Storage
  • DistCp para HDFS

Para a cópia do Object Storage, apenas o cluster de origem precisa de conectividade com a internet e o Conector HDFS (Apache Hadoop) ou a configuração de Compatibilidade S3 (Cloudera e Hortonworks). Se você usar a Compatibilidade S3, os dados só poderão ser copiados na região inicial do tenancy.

Depois que os pré-requisitos estiverem no local, você transferirá os dados executando o DistCp em um destino HDFS de origem em um bucket do Object Storage. A sintaxe a seguir demonstra uma cópia para o Armazenamento de Objetos da região (Ashburn) dos EUA (substitua as variáveis pelos valores corretos):

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

Da mesma forma, o destino HDFS e o destino S3 podem ser alternados para copiar dados do Object Storage para o HDFS. Esse método funciona para Cloudera, Hortonworks e Apache Hadoop.

A segunda opção é estabelecer um cluster Hadoop no Oracle Cloud Infrastructure, certifique-se de que o cluster de origem e o cluster do Oracle Cloud Infrastructure tenham conectividade e execute o DistCp entre os clusters. Essa abordagem também funciona para Apache Hadoop, Cloudera e Hortonworks.

Para clusters do MapR, você migra dados configurando o espelhamento remoto de volume entre os clusters.

Appliance de Transferência de Dados

O Oracle Data Transfer Appliance é outra opção de transferência de dados quando a movimentação de dados por meio da conexão não é viável.

A largura de banda ou restrições de recursos podem existir no cluster de origem, ou a proximidade com uma região do Oracle Cloud Infrastructure pode limitar a disponibilidade do FastConnect. O conjunto de dados também pode ser tão grande que demoraria muito para ser copiado. Nesses casos, o Oracle pode enviar a você um Data Transfer Appliance que você pode implantar no seu centro de dados e usar como um destino do DistCp para dados HDFS.

Migração de Metadados do Cluster

A abordagem para migrar metadados de cluster para o Oracle Cloud Infrastructure varia entre o Cloudera, o Hortonworks, o MapR e o Apache.

Cloudera

Para clusters do Cloudera, três tipos de bancos de dados são suportados para metadados do cluster: Postgres, MySQL e Oracle.

As etapas para fazer backup de Bancos de Dados do Cloudera Manager estão incluídas na documentação do Cloudera Enterprise. Você poderá, então, importar esses dados para um cluster que está executando o Cloudera no Oracle Cloud Infrastructure.

Hortonworks

Para Hortonworks, os mesmos bancos de dados são suportados como do Cloudera. Para Amarelo, você pode exportar um blueprint do cluster existente e usá-lo para configurar a implantação do Hortonworks do Oracle Cloud Infrastructure.

MapR

Siga as etapas nas Melhores Práticas do MapR para Backup da documentação do MapR. Você pode importar esses dados para um cluster do Oracle Cloud Infrastructure MapR.

Apache

Para o Apache Hadoop, os mesmos bancos de dados são suportados para Cloudera e Hortonworks, usando os mesmos procedimentos de Ambari, Hive e HBase.