Migration à partir de Big Data Appliance (BDA) ou de Big Data Cloud Service (BDCS)
Découvrez comment migrer d'Oracle Big Data Appliance ou Big Data Cloud Service vers Big Data Service
Nous vous recommandons de conserver vos clusters Big Data Appliance ou Big Data Cloud Service (à l'état arrêté) pendant au moins trois mois en tant que sauvegarde, même après la migration vers OCI.
Migration de ressources à l'aide de l'outil de migration WANdisco LiveData
Assurez-vous que le port 8020 s'ouvre sur la destination.
Pour plus d'informations sur WANdisco LiveData Migrator, sélectionnez ici.
Pour migrer des ressources à l'aide de l'outil de migration WANdisco LiveData, procédez comme suit :
Migrer des ressources à l'aide de BDR
Avant de sauvegarder votre cluster Oracle Big Data Appliance, vérifiez les points suivants :
-
Vous disposez d'un accès administrateur au cluster Big Data Appliance.
-
Vous avez besoin des informations d'identification d'administrateur pour Cloudera Manager.
-
Vous avez besoin d'un administrateur Hadoop disposant d'un accès complet aux données HDFS et aux métadonnées Hive qui sont sauvegardées sur Oracle Object Storage.
-
-
Configurez la banque d'objets Oracle Cloud Infrastructure vers laquelle les données HDFS sont copiées. Pour plus d'informations, reportez-vous à Présentation d'Object Storage.
-
Configurez votre location Oracle Cloud Infrastructure avec les détails suivants
-
L'administrateur a créé un utilisateur dans Oracle Cloud Infrastructure et l'a ajouté aux groupes requis.
-
L'utilisateur dispose de droits d'accès et peut accéder à la console Oracle Cloud Infrastructure.
-
L'utilisateur dispose de droits d'accès et peut créer un bucket. Pour plus d'informations, reportez-vous à Autoriser les administrateurs Object Storage à gérer des buckets et des objets dans Stratégies courantes.
-
L'utilisateur peut inspecter la configuration de la banque d'objets Oracle Cloud Infrastructure.
-
Pour sauvegarder un cluster BDA, procédez comme suit :
Pour plus d'informations, reportez-vous à Création d'un cluster.
Avant de restaurer le cluster Oracle Big Data Appliance vers Oracle Big Data Service, vous devez disposer des éléments suivants :
-
Sauvegarde du cluster Big Data Appliance. Reportez-vous à Sauvegarde des données BDA vers Oracle Object Storage.
-
Cluster Big Data Service déployé. Reportez-vous à Création d'un cluster Big Data Service sur Oracle Cloud Infrastructure.
-
Accès à la clé secrète qui dispose des privilèges nécessaires pour lire le bucket Oracle Object Storage contenant la sauvegarde de cluster Big Data Appliance.
-
Informations d'identification d'administrateur pour Cloudera Manager sur le cluster Big Data Service.
- Superutilisateur HDFS et administrateur Hive disposant des droits nécessaires pour restaurer les données et les métadonnées dans le cluster.
Restaurer la sauvegarde BDA
- Connectez-vous à Cloudera Manager sur le cluster Big Data Service.
- Connectez-vous à
https://your-utility-node-1:7183
, oùyour-utility-node
est l'adresse IP publique ou privée du noeud utilitaire. Si la haute disponibilité est utilisée, il s'agit du premier noeud utilitaire du cluster. Si la haute disponibilité n'est pas utilisée, il s'agit du seul noeud utilitaire. - Entrez le nom utilisateur
admin
et le mot de passe indiqués lors de la création du cluster.
- Connectez-vous à
- Créez un compte externe dans Cloudera Manager pour la restauration.
Utilisez la clé d'accès et la clé secrète pour créer un compte externe dans Cloudera Manager. Vous configurez un compte externe pour autoriser le cluster à accéder aux données dans Oracle Object Storage.
Pour créer un compte externe, procédez comme suit :- Connectez-vous à Cloudera Manager sur le cluster Oracle Big Data Service.
- Accédez à Administration et sélectionnez Comptes externes.
- Dans l'onglet Informations d'identification AWS, sélectionnez Ajouter des informations d'identification de clé d'accès et indiquez les informations suivantes :
-
Nom : indiquez le nom des informations d'identification. Par exemple,
oracle-credential
. -
AWS Access Key ID : indiquez le nom de la clé d'accès. Par exemple,
myaccesskey
. -
Clé secrète AWS : entrez la valeur de clé secrète générée précédemment lors de la création d'une clé secrète client.
-
- Choisissez Ajouter. La page Edit S3Guard apparaît. Ne sélectionnez pas Activer S3Guard.
- Sélectionnez Sauvegarder.
- Dans la page qui apparaît, activez l'accès du cluster à S3 :
- Sélectionnez Enable pour le nom du cluster.
- Sélectionnez la stratégie d'informations d'identification More Secure et cliquez sur Continue.
- Dans la page Restart Dependent Services, sélectionnez Restart Now, puis Continue. Les détails de redémarrage sont affichés. Le redémarrage du cluster peut prendre quelques minutes.
- Après le redémarrage, sélectionnez Continue, puis Finish.
- Mettez à jour l'adresse s3a.Remarque
Ignorez cette étape si vous avez déjà mis à jour le fichier core-site.xml.L'URI endpoint permet au cluster Hadoop de se connecter à la banque d'objets contenant les données source. Indiquez cet URI dans Cloudera Manager.
Pour mettre à jour l'adresse, procédez comme suit :
- Connectez-vous à Cloudera Manager sur le cluster Oracle Big Data Service.
- Dans la liste des services sur la gauche, sélectionnez S3 Connector.
- Sélectionnez l'onglet Configuration.
- Mettez à jour la propriété d'adresse S3 par défaut avec les éléments suivants :
https://your-tenancy.compat.objectstorage.your-region.oraclecloud.com
Par exemple, https://oraclebigdatadb.compat.objectstorage.us-phoenix-1.oraclecloud.com
- Enregistrez vos modifications.
- Mettez à jour le cluster :
- Accédez à votre cluster, sélectionnez Actions, sélectionnez Déployer la configuration client, puis confirmez l'action.
- Lorsque vous avez terminé, sélectionnez Close.
- Redémarrez le cluster (sélectionnez Actions et redémarrez).
- Créez une programmation de réplication HDFS pour la restauration.
Restaurez les données HDFS sauvegardées dans Oracle Object Storage. Restaurez les données HDFS dans le répertoire racine du système de fichiers HDFS pour mettre la source en miroir.
Si Hive dispose de données externes capturées dans HDFS et non gérées par Hive, créez la programmation de réplication HDFS avant de créer la programmation de réplication Hive.
Pour créer une programmation de réplication HDFS, procédez comme suit :
- Connectez-vous à Cloudera Manager sur le cluster Oracle Big Data Service.
- Créez une programmation de réplication HDFS :
- Accédez à Backup et sélectionnez Replication Schedules.
- Sélectionnez Create Schedule et sélectionnez HDFS Replication.
- Indiquez les détails de la programmation de réplication :
-
Nom : entrez un nom. Par exemple,
hdfs-rep1
. -
Source : sélectionnez les informations d'identification que vous avez définies précédemment. Par exemple,
oracle-credential
. -
Chemin source : indiquez l'emplacement racine où vos données ont été sauvegardées. Par exemple,
s3a://BDA-BACKUP/
. -
Destination : sélectionnez HDFS (nom du cluster).
-
Chemin de la destination : entrez
/
-
Programmer : sélectionnez immédiatement.
-
Run As Username (Exécuter en tant que nom utilisateur) : indiquez un utilisateur ayant accès aux données et métadonnées en cours de restauration. Il s'agit généralement d'un superutilisateur Hadoop et d'un administrateur Sentry.Remarque
Si vous n'avez pas d'utilisateur ayant accès aux données et métadonnées requises, vous devez en créer un. N'utilisez pas le superutilisateurhdfs
pour cette étape.Remarque :
si le cryptage Hadoop est utilisé, assurez-vous que le répertoire de destination est créé avec les clés appropriées et que la commande est exécutée en tant qu'utilisateur disposant d'un accès encrypt.
-
- Sélectionnez Save Schedule. Vous pouvez surveiller la réplication sur la page Programmations de réplication.
- Créez une programmation de réplication Hive pour la restauration.
Pour restaurer des données et métadonnées Hive à partir d'Oracle Object Storage vers le cluster Hadoop, créez une programmation de réplication Hive dans Cloudera Manager.
Pour créer une programmation de réplication Hive, procédez comme suit :
- Connectez-vous à Cloudera Manager sur le cluster Oracle Big Data Service.
- Créez la programmation de réplication :
- Accédez à Backup et sélectionnez Replication Schedules.
- Sélectionnez Create Schedule et sélectionnez Hive Replication.
- Indiquez les détails de la programmation de réplication Hive :
-
Nom : entrez un nom. Par exemple,
hive-rep1
. -
Source : indiquez les informations d'identification que vous avez définies précédemment. Par exemple,
oracle-credential
. -
Destination : sélectionnez Hive (nom du cluster).
-
Chemin racine du cloud : sélectionnez l'emplacement racine où vous avez sauvegardé vos données. Par exemple,
s3a://BDA-BACKUP/
. -
Chemin de la destination HDFS : entrez
/
-
Bases de données : sélectionnez Tout répliquer.
-
Option de réplication : sélectionnez Metadata and Data.
-
Programmer : sélectionnez immédiatement.
-
Run As Username (Exécuter en tant que nom utilisateur) : indiquez un utilisateur ayant accès aux données et métadonnées qui seront restaurées. Il s'agit généralement d'un superutilisateur Hadoop et Hive, et d'un administrateur Sentry.Remarque
Si vous n'avez pas d'utilisateur ayant accès aux données et métadonnées requises, vous devez en créer un. N'utilisez pas le superutilisateurhdfs
pour cette étape.
-
- Sélectionnez Save Schedule. Vous pouvez surveiller la réplication sur la page Programmations de réplication.
Spark
Vérifiez le travail sparkline et mettez-le à jour en fonction des nouveaux détails du cluster.
Yarn
- A partir du cluster source, copiez Cloudera Manager. (Accédez à YARN, sélectionnez Configuration et sélectionnez le contenu Fair Scheduler Allocations (Deployment) à la même position que le cluster cible.)
- Si vous ne pouvez pas copier, créez la file d'attente manuellement. (Dans Cloudera Manager, accédez à Clusters et sélectionnez Dynamic Resource Pool Configuration.)
Sentinelle
- Migrez les données HDFS et les métadonnées Hive à l'aide de BDR, Wandisco ou Hadoop Distcp.
- Pour exporter les données de la sentinelle à partir de la base de données de la sentinelle source et les restaurer dans la base de données de la sentinelle de destination, vous avez besoin de l'outil de migration des métadonnées Sentry. Contactez le support technique Oracle pour obtenir la note ID de document 2879665.1 relative aux outils de migration des métadonnées Sentry.
Migration de données à l'aide de l'outil Rclone
Pour configurer Rclone afin de copier et de synchroniser des fichiers vers des systèmes de fichiers distribués OCI Object Storage et Hadoop, reportez-vous à Copie de données vers Oracle Cloud à l'aide de Rclone pour créer des informations dans Oracle Analytics Cloud.
Migration de ressources à l'aide de l'outil Distcp
Vous pouvez également migrer des données et des métadonnées à partir de BDA et les importer vers Big Data Service à l'aide de l'outil Distcp. Distcp est un outil open source qui peut être utilisé pour copier des ensembles de données volumineux entre des systèmes de fichiers distribués au sein et entre des clusters.
Pour préparer le cluster BDA ou BDCS à l'exportation, procédez comme suit :
Pour exporter des données à partir de HDFS, procédez comme suit :
Migrez les données HDFS de manière incrémentielle à l'aide de distcp pour envoyer les données de la source vers la cible après un intervalle de temps et après un ajout, une mise à jour ou une suppression dans les données source.
- Assurez-vous que le nom de l'instantané dans le cluster source et le cluster cible sont identiques.
- Ne supprimez/modifiez pas les données HDFS dans le cluster cible. Cela peut entraîner des erreurs mentionnées dans la section suivante.
Pour exporter des métadonnées Hive, procédez comme suit :
Vous importez à présent les données et métadonnées exportées vers Big Data Service.
- Configurez un nouvel environnement cible sur Big Data Service avec la même version Hadoop BDA ou BDCS (Hadoop 2.7.x) que le cluster source.Remarque
Remarque :-
- Définissez le cluster Big Data Service sur OCI avec la même taille que le cluster BDA ou BDCS source. Toutefois, vous devez passer en revue vos besoins en matière de calcul et de stockage avant de décider de la taille du cluster cible.
- Pour les formes de machine virtuelle Oracle Cloud Infrastructure, reportez-vous à Formes de calcul. BDA ou BDCS ne prend pas en charge toutes les formes.
- Si un logiciel autre que la pile BDA ou BDCS est installé sur le système source à l'aide du script de démarrage ou d'une autre méthode, vous devez également installer et maintenir ce logiciel sur le système cible.
-
- Copiez le fichier de clé privée PEM (
oci_api_key.pem
) sur tous les noeuds du cluster Big Data Service et définissez les droits d'accès appropriés. - Exportez les artefacts à partir du cluster BDCS ou BDA source.
Pour importer des données dans HDFS, procédez comme suit :
Importer les fichiers de métadonnées et exécuter les autorisations
- Importez les fichiers de métadonnées de la banque d'objets vers
/metadata
dans HDFS.hadoop distcp -libjars ${LIBJARS} \ -Dfs.client.socket-timeout=3000000 -Dfs.oci.client.auth.fingerprint=<fingerprint> \ -Dfs.oci.client.auth.pemfilepath=<oci_pem_key> \ -Dfs.oci.client.auth.passphrase=<passphrase> \ -Dfs.oci.client.auth.tenantId=<OCID for Tenancy> \ -Dfs.oci.client.auth.userId=<OCID for User> \ -Dfs.oci.client.hostname=<HostName. Example: https://objectstorage.us-phoenix-1.oraclecloud.com/> \ -Dfs.oci.client.multipart.allowed=true \ -Dfs.oci.client.proxy.uri=<http://proxy-host>:port \ -Dmapreduce.map.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.reduce.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.task.timeout=6000000 \ -skipcrccheck -m 40 -bandwidth 500 \ -update -strategy dynamic -i oci://<bucket>@<tenancy>/metadata/ /metadata
- Déplacez les fichiers vers le répertoire local.
hdfs dfs -get /metadata/Metadata*
- Exécutez les fichiers en parallèle en arrière-plan ou sur plusieurs terminaux.
bash Metadataaa & bash Metadataab & bash Metadataac &...
Pour importer des métadonnées, procédez comme suit :
Procédez comme suit :
Validation de la migration
- Vérifiez que vous voyez le même ensemble de tables de ruche dans le cluster cible que dans le cluster source.
- Connectez-vous à la coque de la ruche.
hive
- Pour répertorier les tables, exécutez la commande suivante :
show tables;
- Connectez-vous à la coque de la ruche.