Migrer Hadoop vers Oracle à l'aide du service Migrator WANdisco LiveData

A propos de la migration des données Hadoop

Voici les étapes standard d'une migration d'Apache Hadoop vers le cloud :

Le diagramme suivant illustre l'architecture et les composants du flux.

Description de l'image hadoop-lakehouse-migration.png

Description de l'illustration hadoop-lakehouse-migration.png ci-après

Repérage : identifiez les ensembles de données et les charges de travail à migrer vers le cloud.
Planification : élaborer un plan et une chronologie pour les phases d'exécution de la migration.
Migration des données : effectuez la migration des données requises de l'environnement Hadoop sur site vers le cloud.
Migration de charge globale : effectuez la migration des charges de travail et/ou des applications de l'environnement sur site vers le cloud.
Nouveau développement d'analyses : commencez à développer de nouvelles analyses, une IA et un apprentissage automatique, puis tirez parti du nouvel environnement cloud.
Mesure et action : effectuez des analyses pour mesurer les indicateurs clés de performance, évaluer les performances, établir des prévisions et permettre à l'entreprise d'agir de manière appropriée.

Pour tenter de simplifier la migration vers le cloud, de nombreuses entreprises choisissent de suivre une stratégie de migration " transfert et transfert ". Cette stratégie suppose de manière simplifiée que la migration peut être effectuée sans apporter de modifications aux données ou aux applications. La logique est " juste de les déplacer lorsqu'ils sont dans le Cloud ". Cette hypothèse entraîne de nombreux projets ou projets en échec qui dépassent leur temps et leurs coûts. Il nécessite soit que les systèmes existants soient mis hors service pour s'assurer qu'aucun changement de données ne se produise, soit que les organisations passent du temps à développer des solutions personnalisées pour gérer les changements de données. D'autres inconvénients de cette stratégie sont, d'abord, qu'elle exige que les entreprises effectuent un basculement en même temps de l'ensemble des applications et des données. Deuxièmement, elle ne tire pas parti des nouvelles fonctionnalités cloud.

WANdisco favorise une approche axée sur les données pour les migrations de lac de données. Une approche axée sur les données consiste à transférer les données rapidement et à ne pas tenter de migrer toutes les applications existantes en même temps. Cette approche accélère la mise à disposition des données par les data scientists afin qu'ils puissent commencer à utiliser les données migrées dès le premier jour. Cela permet de consacrer beaucoup plus de temps aux nouvelles informations et innovations en matière d'IA. Les entreprises peuvent démontrer un retour sur investissement plus rapide dans la migration vers le cloud, tandis que les charges de travail de production sur site existantes peuvent continuer à être exécutées sans incidence. Cette approche offre également une flexibilité pour la migration des applications et de la charge globale. Elle permet d'éviter toute approche Big Bang et donne aux entreprises du temps nécessaire pour optimiser les charges de travail du nouvel environnement cloud, en s'assurant de son exécution optimale et en tirant parti des nouvelles fonctionnalités qui leur sont offertes. Les entreprises peuvent effectuer autant de tests parallèles que nécessaire pour s'assurer qu'elles ne subiront aucun coût caché, et une approche axée sur les données leur donne également le temps de déterminer si certaines applications n'ont pas besoin d'être migrées du tout, mais plutôt de les remplacer par le nouveau développement qui a eu lieu.

Définir des sources et des cibles

Pendant le déploiement, WANdisco LiveData Migrator repère automatiquement le cluster Apache Hadoop Distributed File System (HDFS) source, de sorte que vous n'avez qu'à définir l'environnement cible.

Déployez WANdisco LiveData Migrator.
Lors du déploiement, LiveData Migrator repère automatiquement le cluster HDFS source.
Définissez la configuration du système de fichiers pour l'environnement cible.
1. Type de système de fichiers : effectuez une sélection dans la liste des types de système de fichiers disponibles.
  Pour Oracle, le type de système de fichiers peut être Oracle Cloud Infrastructure Object Storage ou Apache Hadoop si la cible est Oracle Big Data Service (Oracle BDS), qui tire parti de la distribution Apache Hadoop d'Oracle.
2. Nom d'affichage : entrez un nom d'affichage pour le système de fichiers.
  Par exemple, Oracle BDS Target.
3. Système de fichiers par défaut : entrez l'adresse du système de fichiers.
  Par exemple, hdfs://localhost:8020
4. Utilisateur : Définissez le nom d'utilisateur du système de fichiers pour effectuer des actions de migration. Par exemple, hdfs.
Lorsque la configuration Kerberos du HDFS source s'applique à la cible, assurez-vous que l'authentification inter-domaine est activée entre la source et la cible.
Définissez des valeurs de propriété de configuration supplémentaires, avec la clé et la valeur associées, le cas échéant.
Par exemple, pour les remplacements de propriété de configuration, entrez la clé et la valeur.
- Clé : dfs.client.use.datanode.hostname ; valeur : true
- Clé : dfs.datanode.use.datanode.hostname ; valeur : true

Définir la migration

Les migrations transfèrent les données existantes de la source vers la cible définie. WANdisco LiveData Migrator migre les modifications apportées aux données source pendant leur migration et s'assure que la cible est à jour avec ces modifications. Pour ce faire, il continue à effectuer la migration.

Les utilisateurs créent généralement plusieurs migrations afin qu'ils puissent sélectionner un contenu spécifique à partir du système de fichiers source par chemin. Vous pouvez également effectuer une migration vers plusieurs systèmes de fichiers indépendants en même temps en définissant plusieurs cibles de migration.

Pour créer une migration, indiquez un nom de migration, sélectionnez les systèmes de fichiers source et cible et indiquez le chemin d'accès au système de fichiers source à migrer. Vous pouvez éventuellement appliquer des exclusions pour spécifier des règles pour les données qui doivent être exclues d'une migration et appliquer d'autres paramètres de configuration facultatifs.

LiveData Migrator prend également en charge la migration des métadonnées Hive de la source vers les métastores cible. LiveData Migrator se connecte aux métastores via l'utilisation d'agents de métadonnées locaux ou distants. Les règles de métadonnées sont ensuite utilisées pour définir les métadonnées à migrer de la source vers la cible.

Lors de la définition des migrations, vous pouvez spécifier de démarrer automatiquement la migration et de déterminer s'il s'agit d'une migration en direct, ce qui signifie qu'elle appliquera en permanence toutes les modifications en cours de la source vers la cible.

Définissez les paramètres de migration.
1. Entrez le nom de la migration.
2. Sélectionnez une source dans la liste. Par exemple, CDH-SRC.
3. Sélectionnez une cible dans la liste. Par exemple, Oracle BDS Target.
4. Entrez le chemin du répertoire pour la source. Par exemple, /Data_Lake_Directory.
Vérifiez les exclusions par défaut. Cliquez sur Gérer les exclusions pour apporter des modifications, si nécessaire.
Sélectionnez les paramètres Overwrite.
Sélectionnez vos options de migration. Sélectionnez Démarrage automatique de la migration et Migration en direct.
- Démarrage automatique de la migration : la migration des données démarrera automatiquement. Si cette option n'est pas sélectionnée, la migration doit être démarrée manuellement à l'aide de l'option start migration.
- Migration en direct : la migration s'exécutera en continu, répliquant toutes les modifications en temps réel lorsqu'elles surviennent de la source vers la cible. Si cette option n'est pas sélectionnée, une migration unique est effectuée.
Cliquez sur Créer.
Les données commenceront à migrer immédiatement de la source vers la cible.

Surveiller et gérer la migration

Utilisez l'interface utilisateur WANdisco pour surveiller et gérer la migration.

Connectez-vous à l'interface utilisateur WANdisco.
Accédez au tableau de bord pour afficher l'utilisation de la bande passante pour les données déplacées, les migrations en cours et les migrations de métadonnées.

D'autres mesures de migration sont disponibles pour mieux comprendre la progression de la migration, les événements à traiter, les événements à migrer et les chemins à analyser.
Pour gérer les migrations existantes, utilisez l'interface utilisateur et l'interface de ligne de commande WANdisco.
Les actions disponibles sont les suivantes :
- Affecter et supprimer des exclusions de migrations existantes
- Démarrer, arrêter et reprendre les migrations
- Supprimer une migration
- Réinitialiser une migration à l'état dans lequel elle se trouvait avant de commencer
- Surveiller les opérations ayant échoué pour voir la date/heure, le chemin et le motif de l'échec