Opções de Migração de Dados

O Oracle fornece várias opções para migrar dados HDFS, migração de dados em massa usando o Oracle Data Transfer Appliance e migração de metadados de cluster.

Diretrizes de Migração de Dados

Depois de decidir quais dados precisam ser movidos e como eles serão estruturados no Oracle Cloud Infrastructure, determine o método a ser usado para mover os dados de seu local atual para o Oracle Cloud Infrastructure. Um componente crítico desse processo é a conexão com o Oracle Cloud Infrastructure. O throughput depende do tamanho da conexão.

O Oracle Cloud Infrastructure suporta muitos níveis de conectividade. As conexões podem variar de qualquer lugar de 10 Mbps a 10 Gbps. Considerando o tamanho do conjunto de dados e o throughput de conexão, a migração dos dados pode ser tão simples quanto uma cópia direta, ou você pode precisar de appliances especializados (como o serviço de Transferência de Dados) para mover os dados.

A tabela a seguir apresenta uma expectativa razoável de quanto tempo levará para mover os dados para o Oracle Cloud Infrastructure, com base na largura de banda da conexão e no tamanho do conjunto de dados.
  Tempo Aproximado de Upload de Dados
Tamanho do Conjunto de Dados 10Mbps 100Mbps 1 Gbps 10 Gbps Serviço de Transferência de Dados
10 TB 92 dias 9 dias 22 horas 2 horas 1 semana
100 TB 1,018 dias 101 dias 10 dias 24 horas 1 semana
500 TB 5,092 dias 509 dias 50 dias 5 dias 1 semana
1 PB 10,185 dias 1,018 dias 101 dias 10 dias 2 semanas

Serviço de Transferência de Dados

O Oracle oferece soluções de transferência de dados off-line que permitem migrar dados para o Oracle Cloud Infrastructure. Você também pode exportar dados atualmente residentes no Oracle Cloud Infrastructure para seu data center off-line. A movimentação de dados pela internet pública nem sempre é viável por causa de alto custo de rede, conectividade de rede não confiável, tempos de transferência longos e preocupações de segurança.Nossas soluções de transferência tratam esses pontos pain, são fáceis de usar e fornecem upload de dados mais rápido em comparação com a transferência de dados excedente.
  • Transferência de dados baseada em disco - Envie seus dados como arquivos no disco de mercadoria criptografado para um site de transferência da Oracle. Os operadores no site de transferência da Oracle fazem upload dos arquivos em seu bucket designado de Armazenamento de Objetos ou Armazenamento de Arquivos Compactados em sua locação.
  • Transferência de dados baseada em appliance - Envie seus dados como arquivos em appliances de armazenamento seguros, com alta capacidade, fornecidos pela Oracle para um site de transferência da Oracle. Os operadores do site de transferência da Oracle fazem upload dos dados em seu bucket designado de Armazenamento de Objetos ou Armazenamento de Arquivos Compactados em sua locação.

Migração HDFS

Você pode migrar dados de um HDFS externo para o Oracle Cloud Infrastructure de algumas formas diferentes.

A principal consideração é o volume de dados que precisa ser movido e se é prático mover os dados "durante a conexão" e os recursos que seriam necessários para mover os dados. Se houver largura de banda suficiente e recursos do cluster de origem para suportá-lo, duas opções são relevantes:

  • DistCp para o Object Storage
  • DistCp para HDFS

Para a cópia do Object Storage, apenas o cluster de origem precisa de conectividade com a internet e o Conector HDFS (Apache Hadoop) ou a configuração de Compatibilidade S3 (Cloudera e Hortonworks). Se você usar a Compatibilidade S3, os dados só poderão ser copiados na região inicial do tenancy.

Depois que os pré-requisitos estiverem no local, você transferirá os dados executando o DistCp em um destino HDFS de origem em um bucket do Object Storage. A sintaxe a seguir demonstra uma cópia para o Armazenamento de Objetos da região (Ashburn) dos EUA (substitua as variáveis pelos valores corretos):

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

Da mesma forma, o destino HDFS e o destino S3 podem ser alternados para copiar dados do Object Storage para o HDFS. Esse método funciona para Cloudera, Hortonworks e Apache Hadoop.

A segunda opção é estabelecer um cluster Hadoop no Oracle Cloud Infrastructure, certifique-se de que o cluster de origem e o cluster do Oracle Cloud Infrastructure tenham conectividade e execute o DistCp entre os clusters. Essa abordagem também funciona para Apache Hadoop, Cloudera e Hortonworks.

Para clusters do MapR, você migra dados configurando o espelhamento remoto de volume entre os clusters.

Appliance de Transferência de Dados

O Oracle Data Transfer Appliance é outra opção de transferência de dados quando a movimentação de dados por meio da conexão não é viável.

A largura de banda ou restrições de recursos podem existir no cluster de origem, ou a proximidade com uma região do Oracle Cloud Infrastructure pode limitar a disponibilidade do FastConnect. O conjunto de dados também pode ser tão grande que demoraria muito para ser copiado. Nesses casos, o Oracle pode enviar a você um Data Transfer Appliance que você pode implantar no seu centro de dados e usar como um destino do DistCp para dados HDFS.

Migração de Metadados do Cluster

A abordagem para migrar metadados de cluster para o Oracle Cloud Infrastructure varia entre o Cloudera, o Hortonworks, o MapR e o Apache.

Cloudera

Para clusters do Cloudera, três tipos de bancos de dados são suportados para metadados do cluster: Postgres, MySQL e Oracle.

As etapas para fazer backup de Bancos de Dados do Cloudera Manager estão incluídas na documentação do Cloudera Enterprise. Você poderá, então, importar esses dados para um cluster que está executando o Cloudera no Oracle Cloud Infrastructure.

Hortonworks

Para Hortonworks, os mesmos bancos de dados são suportados como do Cloudera. Para Amarelo, você pode exportar um blueprint do cluster existente e usá-lo para configurar a implantação do Hortonworks do Oracle Cloud Infrastructure.

MapR

Siga as etapas nas Melhores Práticas do MapR para Backup da documentação do MapR. Você pode importar esses dados para um cluster do Oracle Cloud Infrastructure MapR.

Apache

Para o Apache Hadoop, os mesmos bancos de dados são suportados para Cloudera e Hortonworks, usando os mesmos procedimentos de Ambari, Hive e HBase.