Options de migration des données

Oracle propose plusieurs options de migration de données HDFS, de migration de données en masse à l'aide d'Oracle Data Transfer Appliance, et de migration des métadonnées de cluster.

Instructions relatives à la migration des données

Une fois que vous avez déterminé les données à déplacer et comment elles seront structurées dans Oracle Cloud Infrastructure, déterminez la méthode à utiliser pour déplacer les données de leur emplacement actuel vers Oracle Cloud Infrastructure. La connexion à Oracle Cloud Infrastructure est un composant critique de ce processus. Le débit dépend de la taille de la connexion.

Oracle Cloud Infrastructure prend en charge de nombreux niveaux de connectivité. Les connexions peuvent être comprises entre 10 Mbps et 10 Gbits/s. En tenant compte de la taille de l'ensemble de données et du débit de connexion, la migration des données peut être aussi simple qu'une copie directe, ou vous aurez peut-être besoin d'appliances spécialisées (comme le service Data Transfer) pour déplacer les données.

Le tableau suivant présente une prévision raisonnable du temps qu'il faudra pour déplacer les données vers Oracle Cloud Infrastructure, en fonction de la bande passante de connexion et de la taille du jeu de données.
  Temps approximatif de téléchargement des données
Taille de l'ensemble de données 10Mbps 100Mbps 1 Gbits/s 10 Gbits/s Data Transfer Service
10 TO 92 jours 9 jours 22 heures 2 heures 1 semaine
100 TO 1,018 jours 101 jours 10 jours 24 heures 1 semaine
500 TO 5,092 jours 509 jours 50 jours 5 jours 1 semaine
1 PB 10,185 jours 1,018 jours 101 jours 10 jours 2 semaines

Data Transfer Service

Oracle propose des solutions de transfert de données hors ligne vous permettant de migrer des données vers Oracle Cloud Infrastructure. Vous pouvez également exporter les données résidant actuellement dans Oracle Cloud Infrastructure vers le centre de données hors ligne. Il est toujours possible de déplacer des données sur l'Internet public en raison de charges réseau, d'une connectivité réseau peu fiable, de longs temps de transfert et de questions de sécurité.Nos solutions de transfert traitent ces points de peintures, sont faciles à utiliser et fournissent un téléchargement de données plus rapide par rapport au transfert de données sur réseau.
  • Transfert de données basé sur disque : vous envoyez vos données sous forme de fichiers sur un disque commun chiffré vers un site de transfert Oracle. Opérateurs du site de transfert Oracle téléchargeant les fichiers dans le bucket Object Storage ou Archive Storage indiqué dans votre location.
  • Transfert de données basé sur des appareils : vous envoyez vos données sous forme de fichiers sur des appareils de stockage fournis par Oracle sécurisés à un site de transfert Oracle. Opérateurs du site de transfert Oracle téléchargeant les données vers le bucket Object Storage ou Archive Storage indiqué dans votre location.

Migration HDFS

Vous pouvez migrer des données d'un HDFS externe vers Oracle Cloud Infrastructure de différentes manières.

L'examen principal montre le volume de données à déplacer et s'il est pratique de déplacer les données sur le réseau en fonction du temps et des ressources nécessaires pour déplacer les données. Si les ressources de bande passante et de cluster source sont suffisantes pour les prendre en charge, deux options s'appliquent :

  • DistCp vers Object Storage
  • DistCp vers HDFS

Pour la copie Object Storage, seul le cluster source a besoin de connectivité Internet, et soit le connecteur HDFS (Apache Hadoop), soit la configuration de compatibilité S3 (Cloudera et Hortonworks). Si vous utilisez la compatibilité S3, les données peuvent être copiées uniquement dans la région de répertoire de base pour la location.

Une fois les prérequis appliqués, vous pouvez transférer des données en exécutant DistCp sur une cible HDFS source, dans un bucket Object Storage. La syntaxe suivante présente une copie dans le stockage d'objets région région Ashburn (Etats-Unis) (remplace les variables par vos valeurs correctes) :

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

Inversement, la cible HDFS et la cible S3 peuvent être permutées pour copier des données d'Object Storage vers HDFS. Cette méthode fonctionne pour Cloudera, Hortonworks et Apache Hadoop.

La deuxième option consiste à établir un cluster Hadoop dans Oracle Cloud Infrastructure, à vous assurer que le cluster source et le cluster Oracle Cloud Infrastructure ont une connectivité, et à exécuter DistCp entre les clusters. Cette approche fonctionne également pour Apache Hadoop, Cloudera et Hortonworks.

Pour les clusters MapR, vous migrez les données en configurant le volume mis en miroir à distance entre les clusters.

Data Transfer Appliance

Oracle Data Transfer Appliance est une autre option pour le transfert de données lorsque le déplacement de données sur le réseau n'est pas possible.

Les contraintes de bande passante ou de ressource peuvent exister sur le cluster source, ou la proximité avec une région Oracle Cloud Infrastructure peut limiter la disponibilité de FastConnect. L'ensemble de données peut également être trop volumineux pour être copié. Dans ce cas, Oracle peut vous envoyer une appliance de transfert de données que vous pouvez déployer dans votre centre de données et utiliser en tant que cible DistCp pour les données HDFS.

Migration des métadonnées du cluster

L'approche de migration des métadonnées de cluster vers Oracle Cloud Infrastructure varie entre Cloudera, Hortonworks, MapR et Apache.

Cloudera

Pour les clusters Cloudera, trois types de base de données sont pris en charge pour les métadonnées de cluster : Postgres, MySQL et Oracle.

Les étapes de sauvegarde des bases de données Cloudera Manager sont incluses dans la documentation Cloudera Enterprise. Vous pouvez ensuite importer ces données dans un cluster exécutant Cloudera sur Oracle Cloud Infrastructure.

Hortonworks

Pour Hortonworks, les mêmes bases de données sont prises en charge pour Cloudera. Pour Ambari, vous pouvez exporter un modèle de base à partir du cluster existant et l'utiliser pour configurer le déploiement Oracle Cloud Infrastructure Hortonworks.

MapR

Suivez les étapes de la documentation MapR Best Practices for Backing Up MapR. Vous pouvez ensuite importer ces données dans un cluster Oracle Cloud Infrastructure MapR.

Apache

Pour Apache Hadoop, les mêmes bases de données sont prises en charge pour Cloudera et Hortonworks, en suivant les mêmes procédures que pour Ambari, Hive et HBase.