Options de migration des données
Oracle propose plusieurs options de migration de données HDFS, de migration de données en masse à l'aide d'Oracle Data Transfer Appliance, et de migration des métadonnées de cluster.
Instructions relatives à la migration des données
Une fois que vous avez déterminé les données à déplacer et comment elles seront structurées dans Oracle Cloud Infrastructure, déterminez la méthode à utiliser pour déplacer les données de leur emplacement actuel vers Oracle Cloud Infrastructure. La connexion à Oracle Cloud Infrastructure est un composant critique de ce processus. Le débit dépend de la taille de la connexion.
Oracle Cloud Infrastructure prend en charge de nombreux niveaux de connectivité. Les connexions peuvent être comprises entre 10 Mbps et 10 Gbits/s. En tenant compte de la taille de l'ensemble de données et du débit de connexion, la migration des données peut être aussi simple qu'une copie directe, ou vous aurez peut-être besoin d'appliances spécialisées (comme le service Data Transfer) pour déplacer les données.
Temps approximatif de téléchargement des données | |||||
---|---|---|---|---|---|
Taille de l'ensemble de données | 10Mbps | 100Mbps | 1 Gbits/s | 10 Gbits/s | Data Transfer Service |
10 TO | 92 jours | 9 jours | 22 heures | 2 heures | 1 semaine |
100 TO | 1,018 jours | 101 jours | 10 jours | 24 heures | 1 semaine |
500 TO | 5,092 jours | 509 jours | 50 jours | 5 jours | 1 semaine |
1 PB | 10,185 jours | 1,018 jours | 101 jours | 10 jours | 2 semaines |
Data Transfer Service
- Transfert de données basé sur disque : vous envoyez vos données sous forme de fichiers sur un disque commun chiffré vers un site de transfert Oracle. Opérateurs du site de transfert Oracle téléchargeant les fichiers dans le bucket Object Storage ou Archive Storage indiqué dans votre location.
- Transfert de données basé sur des appareils : vous envoyez vos données sous forme de fichiers sur des appareils de stockage fournis par Oracle sécurisés à un site de transfert Oracle. Opérateurs du site de transfert Oracle téléchargeant les données vers le bucket Object Storage ou Archive Storage indiqué dans votre location.
Migration HDFS
Vous pouvez migrer des données d'un HDFS externe vers Oracle Cloud Infrastructure de différentes manières.
L'examen principal montre le volume de données à déplacer et s'il est pratique de déplacer les données sur le réseau en fonction du temps et des ressources nécessaires pour déplacer les données. Si les ressources de bande passante et de cluster source sont suffisantes pour les prendre en charge, deux options s'appliquent :
- DistCp vers Object Storage
- DistCp vers HDFS
Pour la copie Object Storage, seul le cluster source a besoin de connectivité Internet, et soit le connecteur HDFS (Apache Hadoop), soit la configuration de compatibilité S3 (Cloudera et Hortonworks). Si vous utilisez la compatibilité S3, les données peuvent être copiées uniquement dans la région de répertoire de base pour la location.
Une fois les prérequis appliqués, vous pouvez transférer des données en exécutant DistCp sur une cible HDFS source, dans un bucket Object Storage. La syntaxe suivante présente une copie dans le stockage d'objets région région Ashburn (Etats-Unis) (remplace les variables par vos valeurs correctes) :
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Inversement, la cible HDFS et la cible S3 peuvent être permutées pour copier des données d'Object Storage vers HDFS. Cette méthode fonctionne pour Cloudera, Hortonworks et Apache Hadoop.
La deuxième option consiste à établir un cluster Hadoop dans Oracle Cloud Infrastructure, à vous assurer que le cluster source et le cluster Oracle Cloud Infrastructure ont une connectivité, et à exécuter DistCp entre les clusters. Cette approche fonctionne également pour Apache Hadoop, Cloudera et Hortonworks.
Pour les clusters MapR, vous migrez les données en configurant le volume mis en miroir à distance entre les clusters.
Data Transfer Appliance
Oracle Data Transfer Appliance est une autre option pour le transfert de données lorsque le déplacement de données sur le réseau n'est pas possible.
Les contraintes de bande passante ou de ressource peuvent exister sur le cluster source, ou la proximité avec une région Oracle Cloud Infrastructure peut limiter la disponibilité de FastConnect. L'ensemble de données peut également être trop volumineux pour être copié. Dans ce cas, Oracle peut vous envoyer une appliance de transfert de données que vous pouvez déployer dans votre centre de données et utiliser en tant que cible DistCp pour les données HDFS.
Migration des métadonnées du cluster
L'approche de migration des métadonnées de cluster vers Oracle Cloud Infrastructure varie entre Cloudera, Hortonworks, MapR et Apache.
Cloudera
Pour les clusters Cloudera, trois types de base de données sont pris en charge pour les métadonnées de cluster : Postgres, MySQL et Oracle.
Les étapes de sauvegarde des bases de données Cloudera Manager sont incluses dans la documentation Cloudera Enterprise. Vous pouvez ensuite importer ces données dans un cluster exécutant Cloudera sur Oracle Cloud Infrastructure.
Hortonworks
Pour Hortonworks, les mêmes bases de données sont prises en charge pour Cloudera. Pour Ambari, vous pouvez exporter un modèle de base à partir du cluster existant et l'utiliser pour configurer le déploiement Oracle Cloud Infrastructure Hortonworks.
MapR
Suivez les étapes de la documentation MapR Best Practices for Backing Up MapR. Vous pouvez ensuite importer ces données dans un cluster Oracle Cloud Infrastructure MapR.
Apache
Pour Apache Hadoop, les mêmes bases de données sont prises en charge pour Cloudera et Hortonworks, en suivant les mêmes procédures que pour Ambari, Hive et HBase.