Migrer à partir du boîtier de mégadonnées (BDA) ou du service de mégadonnées Cloud (BDCS)
Découvrez comment migrer d'Oracle Big Data Appliance ou de Big Data Cloud Service vers le service de mégadonnées
Nous vous recommandons de conserver vos grappes Big Data Appliance ou Big Data Cloud Service (à l'état arrêté) pendant au moins trois mois en tant que sauvegarde, même après la migration vers OCI.
Migration de ressources à l'aide de WANdisco LiveData Migrator
Assurez-vous que le port 8020 s'ouvre à destination.
Pour plus d'informations sur WANdisco LiveData Migrator, sélectionnez ici.
Pour migrer des ressources à l'aide de WANdisco LiveData Migrator, procédez comme suit :
Migration de ressources à l'aide de BDR
Avant de sauvegarder votre grappe Oracle Big Data Appliance, assurez-vous des éléments suivants :
-
Vous disposez d'un accès administrateur à votre grappe de boîtier de mégadonnées.
-
Vous avez besoin des données d'identification de l'administrateur pour Cloudera Manager.
-
Vous avez besoin d'un utilisateur administrateur Hadoop avec un accès complet aux données HDFS et aux métadonnées Hive qui sont en cours de sauvegarde dans le service Oracle Object Storage.
-
-
Configurez le magasin d'objets Oracle Cloud Infrastructure dans lequel les données HDFS sont copiées. Pour plus d'informations, voir Aperçu du stockage d'objets.
-
Configurez votre location Oracle Cloud Infrastructure avec les détails suivants
-
L'administrateur a créé un utilisateur dans Oracle Cloud Infrastructure et l'a ajouté aux groupes requis.
-
L'utilisateur dispose d'une autorisation et peut accéder à la console Oracle Cloud Infrastructure.
-
L'utilisateur dispose d'une autorisation et peut créer un seau. Pour plus d'informations, voir Permettre aux administrateurs du stockage d'objets de gérer les seaux et les objets dans Politiques communes.
-
L'utilisateur peut inspecter la configuration du magasin d'objets Oracle Cloud Infrastructure.
-
Pour sauvegarder un cluster BDA, procédez comme suit :
Pour plus d'informations, voir Création d'une grappe.
Avant de restaurer votre grappe Oracle Big Data Appliance dans Oracle Big Data Service, vous devez disposer des éléments suivants :
-
Sauvegarde de votre grappe du boîtier de mégadonnées. Voir Sauvegarder les données BDA dans le service Oracle Object Storage.
-
Une grappe déployée du service de mégadonnées. Voir Créer une grappe pour le service de mégadonnées sur Oracle Cloud Infrastructure.
-
Accès à la clé secrète qui dispose des privilèges de lecture du compartiment du service de stockage d'objets d'Oracle qui contient la sauvegarde de la grappe du boîtier de mégadonnées.
-
Données d'identification d'administrateur pour Cloudera Manager dans votre grappe du service de mégadonnées.
- Un superutilisateur HDFS et un administrateur Hive ayant les droits de restaurer les données et les métadonnées dans la grappe.
Restaurer la sauvegarde BDA
- Connectez-vous à Cloudera Manager sur la grappe du service de mégadonnées.
- Connectez-vous à
https://your-utility-node-1:7183
, oùyour-utility-node
est l'adresse IP publique ou privée du noeud d'utilitaire. Si la haute disponibilité est utilisée, il s'agit du premier noeud d'utilitaire du cluster. Si la haute disponibilité n'est pas utilisée, il s'agit du seul noeud d'utilitaire. - Entrez le nom d'utilisateur
admin
et le mot de passe spécifiés lors de la création de la grappe.
- Connectez-vous à
- Créez un compte externe dans Cloudera Manager pour la restauration.
Utilisez la clé d'accès et la clé secrète pour créer un compte externe dans Cloudera Manager. Vous configurez un compte externe pour permettre à la grappe d'accéder aux données du service Oracle Object Storage.
Pour créer un compte externe, procédez comme suit :- Connectez-vous à Cloudera Manager sur la grappe Oracle Big Data Service.
- Allez à Administration et sélectionnez Comptes externes.
- Dans l'onglet AWS Credentials, sélectionnez Add Access Key Credentials et indiquez les informations suivantes :
-
Name (Nom) : Indiquez un nom pour les données d'identification. Par exemple,
oracle-credential
. -
ID clé d'accès AWS : Spécifiez un nom pour la clé d'accès. Par exemple,
myaccesskey
. -
Clé secrète AWS : Entrez la valeur de la clé secrète générée précédemment lorsque vous avez créé une clé secrète de client.
-
- Sélectionnez Add. La page Modifier S3Guard s'affiche. Ne sélectionnez pas Activer S3Guard.
- Sélectionnez Save.
- Dans la page qui s'affiche, activez l'accès à la grappe à S3 :
- Sélectionnez Enable pour le nom de la grappe.
- Sélectionnez la stratégie More Secure Credential et cliquez sur Continue.
- Dans la page Restart Dependent Services, sélectionnez Restart Now, puis Continue. Les détails du redémarrage s'affichent. Le redémarrage de la grappe peut prendre quelques minutes.
- Après le redémarrage, sélectionnez Continue, puis Finish.
- Mettez à jour le point d'extrémité s3a.Note
Ignorez cette étape si vous avez déjà mis à jour le fichier core-site.xml.L'URI de point d'extrémité permet à votre grappe Hadoop de se connecter au magasin d'objets qui contient vos données sources. Indiquez cet URI dans Cloudera Manager.
Pour mettre à jour le point d'extrémité, procédez comme suit :
- Connectez-vous à Cloudera Manager sur la grappe Oracle Big Data Service.
- Dans la liste de services à gauche, sélectionnez S3 Connector.
- Sélectionnez l'onglet Configuration.
- Mettez à jour la propriété de point d'extrémité S3 par défaut avec les éléments suivants :
https://your-tenancy.compat.objectstorage.your-region.oraclecloud.com
Par exemple, https://oraclebigdatadb.compat.objectstorage.us-phoenix-1.oraclecloud.com
- Enregistrer les modifications.
- Mettez à jour la grappe :
- Accédez à votre grappe, sélectionnez Actions, sélectionnez Deploy Client Configuration, puis confirmez l'action.
- Lorsque vous avez terminé, sélectionnez Close.
- Redémarrez la grappe (Sélectionnez Actions et sélectionnez Redémarrer).
- Créez un programme de réplication HDFS pour la restauration.
Restaurez les données HDFS sauvegardées dans le service de stockage d'objets d'Oracle. Restaurez les données HDFS dans le répertoire racine du système de fichiers HDFS pour mettre en miroir la source.
Si Hive contient des données externes saisies dans HDFS et non gérées par Hive, créez le programme de réplication HDFS avant de créer le programme de réplication Hive.
Pour créer un programme de réplication HDFS :
- Connectez-vous à Cloudera Manager sur la grappe Oracle Big Data Service.
- Créez un programme de réplication HDFS :
- Allez à Backup et sélectionnez Replication Schedules.
- Sélectionnez Create Schedule et sélectionnez HDFS Replication.
- Spécifiez les détails du programme de réplication :
-
Nom : Entrez un nom. Par exemple,
hdfs-rep1
. -
Source : Sélectionnez les données d'identification que vous avez définies précédemment. Par exemple,
oracle-credential
. -
Source Path (Chemin source) : Indiquez l'emplacement racine où vos données ont été sauvegardées. Par exemple,
s3a://BDA-BACKUP/
. -
Destination : Sélectionnez HDFS (nom de la grappe).
-
Chemin de destination : Entrez
/
-
Schedule : Sélectionnez Immediate.
-
Run As Username (Exécuter en tant que nom d'utilisateur) : Spécifiez un utilisateur ayant accès aux données et métadonnées en cours de restauration. Il s'agit généralement d'un superutilisateur Hadoop et d'un administrateur Sentry.Note
Si vous n'avez pas d'utilisateur ayant accès aux données et métadonnées requises, vous devez en créer une. N'utilisez pas le superutilisateurhdfs
pour cette étape.Note
: Si le chiffrement Hadoop est utilisé, assurez-vous que le répertoire de destination est créé avec les clés appropriées et que la commande est exécutée en tant qu'utilisateur disposant d'un accès de chiffrement.
-
- Sélectionnez Save Schedule. Vous pouvez surveiller la réplication dans la page Replication Schedules.
- Créez un programme de réplication Hive pour la restauration.
Pour restaurer les données et les métadonnées Hive du service Oracle Object Storage dans la grappe Hadoop, créez un programme de réplication Hive dans Cloudera Manager.
Pour créer un programme de réplication Hive, procédez comme suit :
- Connectez-vous à Cloudera Manager sur la grappe Oracle Big Data Service.
- Créez le programme de réplication :
- Allez à Backup et sélectionnez Replication Schedules.
- Sélectionnez Create Schedule et sélectionnez Hive Replication.
- Spécifiez les détails du programme de réplication Hive :
-
Nom : Entrez un nom. Par exemple,
hive-rep1
. -
Source : Indiquez les données d'identification que vous avez définies précédemment. Par exemple,
oracle-credential
. -
Destination : Sélectionnez Hive (nom de la grappe).
-
Chemin racine du nuage : Sélectionnez l'emplacement racine où vous avez sauvegardé vos données. Par exemple,
s3a://BDA-BACKUP/
. -
Chemin de destination HDFS : Entrez
/
-
Bases de données : Sélectionnez Répliquer tout.
-
Option de réplication : Sélectionner les métadonnées et les données.
-
Schedule : Sélectionnez Immediate.
-
Run As Username (Exécuter en tant que nom d'utilisateur) : Spécifiez un utilisateur ayant accès aux données et métadonnées qui seront restaurées. Il s'agit généralement d'un superutilisateur Hadoop et Hive et d'un administrateur Sentry.Note
Si vous n'avez pas d'utilisateur ayant accès aux données et métadonnées requises, vous devez en créer une. N'utilisez pas le superutilisateurhdfs
pour cette étape.
-
- Sélectionnez Save Schedule. Vous pouvez surveiller la réplication dans la page Replication Schedules.
Spark
Vérifiez la tâche spark et mettez-la à jour en fonction des détails de la nouvelle grappe.
Fil
- Dans le cluster source, copiez Cloudera Manager. (Accédez à YARN, sélectionnez Configuration et sélectionnez Fair Scheduler Allocations (Deployed) content to the target cluster's same position.)
- Si vous ne pouvez pas copier, créez la file d'attente manuellement. (Dans Cloudera Manager, allez dans Clusters et sélectionnez Dynamic Resource Pool Configuration.)
Sentry
- Migrez les données HDFS et les métadonnées Hive à l'aide de BDR, Wandisco ou Hadoop Distcp.
- Pour exporter les données de sentinelle à partir de la base de données de sentinelle source et les restaurer dans la base de données de sentinelle de destination, vous avez besoin de l'outil de migration méta Sentry. Communiquez avec Oracle Support pour la note MOS ID document 2879665.1 pour les outils de migration de métadonnées Sentry.
Migration des données à l'aide de l'outil Rclone
Pour configurer et configurer Rclone pour copier et synchroniser des fichiers vers le service de stockage d'objets pour OCI et les systèmes de fichiers distribués Hadoop, voir Copier des données vers Oracle Cloud à l'aide de Rclone pour créer des données clés dans Oracle Analytics Cloud
Migration de ressources à l'aide de l'outil Distcp
Vous pouvez également migrer des données et des métadonnées à partir de BDA et les importer dans le service de mégadonnées à l'aide de l'outil Distcp. Distcp est un outil à code source libre qui peut être utilisé pour copier des jeux de données volumineux entre des systèmes de fichiers répartis dans et entre des grappes.
Pour préparer la grappe BDA ou BDCS à exporter, procédez comme suit :
Pour exporter des données à partir de HDFS, procédez comme suit :
Migrez les données HDFS de manière incrémentielle à l'aide de distcp pour envoyer des données de la source vers la cible après un intervalle de temps et un ajout, une mise à jour ou une suppression dans les données sources.
- Assurez-vous que le nom de l'instantané dans la grappe source et la grappe cible est identique.
- Ne supprimez/modifiez pas les données HDFS dans la grappe cible. Cela peut entraîner des erreurs mentionnées dans la section suivante.
Pour exporter des métadonnées Hive, procédez comme suit :
Vous importez maintenant les données et métadonnées exportées dans le service de mégadonnées.
- Configurez un nouvel environnement cible dans le service de mégadonnées avec la même version BDA ou BDCS de Hadoop (Hadoop 2.7.x) que la grappe source.Note
Notez ce qui suit :-
- Définissez la grappe du service de mégadonnées sur OCI de la même taille que la grappe BDA ou BDCS source. Toutefois, vous devez vérifier vos besoins en matière de calcul et de stockage avant de décider de la taille du cluster cible.
- Pour les formes de machine virtuelle d'Oracle Cloud Infrastructure, voir Formes de calcul. BDA ou BDCS ne prend pas en charge toutes les formes.
- Si un logiciel autre que la pile BDA ou BDCS est installé sur le système source à l'aide du script d'amorçage ou d'une autre méthode, vous devez également installer et tenir à jour ce logiciel sur le système cible.
-
- Copiez le fichier de clé privée PEM (
oci_api_key.pem
) sur tous les noeuds de la grappe du service de mégadonnées et définissez les autorisations appropriées. - Exportez les artefacts de la grappe BDA ou BDCS source.
Pour importer des données dans HDFS :
Importer les fichiers de métadonnées et exécuter les autorisations
- Importez les fichiers de métadonnées du magasin d'objets vers
/metadata
dans HDFS.hadoop distcp -libjars ${LIBJARS} \ -Dfs.client.socket-timeout=3000000 -Dfs.oci.client.auth.fingerprint=<fingerprint> \ -Dfs.oci.client.auth.pemfilepath=<oci_pem_key> \ -Dfs.oci.client.auth.passphrase=<passphrase> \ -Dfs.oci.client.auth.tenantId=<OCID for Tenancy> \ -Dfs.oci.client.auth.userId=<OCID for User> \ -Dfs.oci.client.hostname=<HostName. Example: https://objectstorage.us-phoenix-1.oraclecloud.com/> \ -Dfs.oci.client.multipart.allowed=true \ -Dfs.oci.client.proxy.uri=<http://proxy-host>:port \ -Dmapreduce.map.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.reduce.java.opts="$DISTCP_PROXY_OPTS" \ -Dmapreduce.task.timeout=6000000 \ -skipcrccheck -m 40 -bandwidth 500 \ -update -strategy dynamic -i oci://<bucket>@<tenancy>/metadata/ /metadata
- Déplacez les fichiers vers le répertoire local.
hdfs dfs -get /metadata/Metadata*
- Exécutez les fichiers en parallèle en arrière-plan ou dans plusieurs terminaux.
bash Metadataaa & bash Metadataab & bash Metadataac &...
Pour importer des métadonnées :
Effectuez les étapes suivantes :
Validation de la migration
- Vérifiez que vous voyez le même jeu de tables de ruches dans le cluster cible que dans le cluster source.
- Connectez-vous à la coque de ruche.
hive
- Exécutez la commande suivante pour lister les tables :
show tables;
- Connectez-vous à la coque de ruche.