Opções de Migração de Dados
O Oracle fornece várias opções para migrar dados HDFS, migração de dados em massa usando o Oracle Data Transfer Appliance e migração de metadados de cluster.
Diretrizes de Migração de Dados
Depois de decidir quais dados precisam ser movidos e como eles serão estruturados no Oracle Cloud Infrastructure, determine o método a ser usado para mover os dados de seu local atual para o Oracle Cloud Infrastructure. Um componente crítico desse processo é a conexão com o Oracle Cloud Infrastructure. O throughput depende do tamanho da conexão.
O Oracle Cloud Infrastructure suporta muitos níveis de conectividade. As conexões podem variar de qualquer lugar de 10 Mbps a 10 Gbps. Considerando o tamanho do conjunto de dados e o throughput de conexão, a migração dos dados pode ser tão simples quanto uma cópia direta, ou você pode precisar de appliances especializados (como o serviço de Transferência de Dados) para mover os dados.
Tempo Aproximado de Upload de Dados | |||||
---|---|---|---|---|---|
Tamanho do Conjunto de Dados | 10Mbps | 100Mbps | 1 Gbps | 10 Gbps | Serviço de Transferência de Dados |
10 TB | 92 dias | 9 dias | 22 horas | 2 horas | 1 semana |
100 TB | 1,018 dias | 101 dias | 10 dias | 24 horas | 1 semana |
500 TB | 5,092 dias | 509 dias | 50 dias | 5 dias | 1 semana |
1 PB | 10,185 dias | 1,018 dias | 101 dias | 10 dias | 2 semanas |
Serviço de Transferência de Dados
- Transferência de dados baseada em disco - Envie seus dados como arquivos no disco de mercadoria criptografado para um site de transferência da Oracle. Os operadores no site de transferência da Oracle fazem upload dos arquivos em seu bucket designado de Armazenamento de Objetos ou Armazenamento de Arquivos Compactados em sua locação.
- Transferência de dados baseada em appliance - Envie seus dados como arquivos em appliances de armazenamento seguros, com alta capacidade, fornecidos pela Oracle para um site de transferência da Oracle. Os operadores do site de transferência da Oracle fazem upload dos dados em seu bucket designado de Armazenamento de Objetos ou Armazenamento de Arquivos Compactados em sua locação.
Migração HDFS
Você pode migrar dados de um HDFS externo para o Oracle Cloud Infrastructure de algumas formas diferentes.
A principal consideração é o volume de dados que precisa ser movido e se é prático mover os dados "durante a conexão" e os recursos que seriam necessários para mover os dados. Se houver largura de banda suficiente e recursos do cluster de origem para suportá-lo, duas opções são relevantes:
- DistCp para o Object Storage
- DistCp para HDFS
Para a cópia do Object Storage, apenas o cluster de origem precisa de conectividade com a internet e o Conector HDFS (Apache Hadoop) ou a configuração de Compatibilidade S3 (Cloudera e Hortonworks). Se você usar a Compatibilidade S3, os dados só poderão ser copiados na região inicial do tenancy.
Depois que os pré-requisitos estiverem no local, você transferirá os dados executando o DistCp em um destino HDFS de origem em um bucket do Object Storage. A sintaxe a seguir demonstra uma cópia para o Armazenamento de Objetos da região (Ashburn) dos EUA (substitua as variáveis pelos valores corretos):
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Da mesma forma, o destino HDFS e o destino S3 podem ser alternados para copiar dados do Object Storage para o HDFS. Esse método funciona para Cloudera, Hortonworks e Apache Hadoop.
A segunda opção é estabelecer um cluster Hadoop no Oracle Cloud Infrastructure, certifique-se de que o cluster de origem e o cluster do Oracle Cloud Infrastructure tenham conectividade e execute o DistCp entre os clusters. Essa abordagem também funciona para Apache Hadoop, Cloudera e Hortonworks.
Para clusters do MapR, você migra dados configurando o espelhamento remoto de volume entre os clusters.
Appliance de Transferência de Dados
O Oracle Data Transfer Appliance é outra opção de transferência de dados quando a movimentação de dados por meio da conexão não é viável.
A largura de banda ou restrições de recursos podem existir no cluster de origem, ou a proximidade com uma região do Oracle Cloud Infrastructure pode limitar a disponibilidade do FastConnect. O conjunto de dados também pode ser tão grande que demoraria muito para ser copiado. Nesses casos, o Oracle pode enviar a você um Data Transfer Appliance que você pode implantar no seu centro de dados e usar como um destino do DistCp para dados HDFS.
Migração de Metadados do Cluster
A abordagem para migrar metadados de cluster para o Oracle Cloud Infrastructure varia entre o Cloudera, o Hortonworks, o MapR e o Apache.
Cloudera
Para clusters do Cloudera, três tipos de bancos de dados são suportados para metadados do cluster: Postgres, MySQL e Oracle.
As etapas para fazer backup de Bancos de Dados do Cloudera Manager estão incluídas na documentação do Cloudera Enterprise. Você poderá, então, importar esses dados para um cluster que está executando o Cloudera no Oracle Cloud Infrastructure.
Hortonworks
Para Hortonworks, os mesmos bancos de dados são suportados como do Cloudera. Para Amarelo, você pode exportar um blueprint do cluster existente e usá-lo para configurar a implantação do Hortonworks do Oracle Cloud Infrastructure.
MapR
Siga as etapas nas Melhores Práticas do MapR para Backup da documentação do MapR. Você pode importar esses dados para um cluster do Oracle Cloud Infrastructure MapR.
Apache
Para o Apache Hadoop, os mesmos bancos de dados são suportados para Cloudera e Hortonworks, usando os mesmos procedimentos de Ambari, Hive e HBase.