En savoir plus sur l'automatisation de la migration des données Hadoop vers Oracle avec WANdisco LiveData Migrator

Oracle Cloud Infrastructure Lakehouse fournit une plate-forme intégrée de plusieurs services cloud Oracle qui fonctionnent conjointement avec la migration facile de données et la gouvernance unifiée. Elle offre également la possibilité d'utiliser les meilleurs outils commerciaux et open source en fonction de vos cas d'emploi et de vos préférences.

Architecture

Cette architecture montre l'utilisation de WANdisco LiveData Migrator pour automatiser la migration des données vers Oracle Cloud Infrastructure Lakehouse.

WANdisco LiveData Migrator automatise le déplacement à grande échelle des données et des métadonnées à partir des lacs de données sur site, des environnements Spark et Hadoop existants vers Oracle Cloud Infrastructure (OCI). En tirant parti des fonctionnalités LiveData de WANdisco, la migration des données peut se produire pendant que les données sources sont en cours de modification, sans nécessiter de temps d'arrêt du système de production ni de perturbation de l'activité, et prend en charge la migration complète et continue des données.

Le diagramme suivant illustre l'architecture fonctionnelle de la plate-forme de données moderne d'OCI.

Description de l'image modern-data-platform.png
Description de l'illustration modern-data-platform.png ci-après

modern-data-platform-oracle.zip

  1. Les données sont collectées à partir de bases de données opérationnelles, d'applications d'entreprise, d'autres applications, d'événements et de capteurs externes.
  2. Les données sont transférées vers Oracle Cloud Infrastructure Lakehouse via Oracle GoldenGate, Oracle Cloud Infrastructure Data Integration, les applications partenaires, telles que WANdisco, et les applications open source, telles qu'Apache et Kafka.
  3. Les données sont utilisées par Oracle Analytics Cloud, Oracle Cloud Infrastructure Data Science, Oracle Cloud Infrastructure AI Services et Oracle Machine Learning dans OCI et les applications en dehors d'OCI.

Cette architecture prend en charge les composants suivants :

  • Oracle Cloud Infrastructure GoldenGate

    Oracle Cloud Infrastructure GoldenGate est un service entièrement géré qui permet l'assimilation des données à partir de sources résidant sur site ou dans n'importe quel cloud, exploitant la technologie CDC GoldenGate pour une capture des données et une livraison non intrusives et efficaces vers Oracle Autonomous Data Warehouse en temps réel et à grande échelle afin de mettre les informations pertinentes à la disposition des consommateurs aussi rapidement que possible.

  • Intégration

    Oracle Integration est un service entièrement géré qui permet d'intégrer vos applications, d'automatiser les processus, d'obtenir des informations sur vos processus métier et de créer des applications visuelles.

  • WANdisco LiveData Migrateur

    WANdisco LiveData Migrator automatise le déplacement à grande échelle des données et des métadonnées à partir des lacs de données sur site, des environnements Spark et Hadoop existants vers OCI pour migrer les données en direct à grande échelle à partir d'un environnement sur site. LiveData Migrator ne nécessite pas de temps d'arrêt, il migre les modifications apportées aux données avant, pendant et après la migration.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse est un service de base de données doté de fonctions d'autopilotage, d'autosécurisation et d'autoréparation optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

  • Services d'IA Oracle Cloud Infrastructure

    Les services d'IA d'Oracle Cloud Infrastructure sont un ensemble de services dotés de modèles d'apprentissage automatique prédéfinis qui facilitent l'application de l'IA aux applications et aux opérations commerciales par les développeurs. Les modèles peuvent être personnalisés pour des résultats commerciaux plus précis. Les équipes d'une organisation peuvent réutiliser les modèles, les jeux de données et les étiquettes de données entre les services. Les services d'IA d'OCI permettent aux développeurs d'ajouter facilement de l'apprentissage automatique aux applications sans ralentir le développement d'applications.

  • Oracle Machine Learning

    Les services Oracle Machine Learning fournissent une structure commune pour la gestion et le déploiement de modèles d'apprentissage automatique avec Oracle Autonomous Database. Elle accélère la création et le déploiement de modèles d'apprentissage automatique pour les data scientists, en éliminant la nécessité de déplacer des données vers des systèmes d'apprentissage automatique dédiés.

  • Lac de données Object Storage

    Object Storage offre un accès rapide à de grandes quantités de données structurées et non structurées de tout type de contenu, notamment des sauvegardes de base de données, des données analytiques et des contenus enrichis tels que des images et des vidéos. Vous pouvez stocker et extraire en toute sécurité des données directement à partir d'Internet ou de la plate-forme cloud. Vous pouvez faire évoluer le stockage de manière transparente sans subir de dégradation des performances ou de la fiabilité du service. Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archives pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.

    Un lac de données est un endroit où stocker vos données structurées et non structurées, ainsi qu'une méthode permettant d'organiser de grands volumes de données très diversifiées provenant de sources diverses. Les lacs de données deviennent de plus en plus importants, car les personnes, en particulier les entreprises et la technologie, souhaitent explorer et repérer des données à grande échelle. Réunir les données dans un seul endroit ou dans la plupart d'entre elles en un seul endroit simplifie la tâche.

  • Catalogue de données

    Oracle Cloud Infrastructure Data Catalog est une solution de repérage et de gouvernance de données en libre-service et entièrement gérée pour vos données d'entreprise. Il fournit aux ingénieurs de données, aux experts en données, aux architectes de données et aux directeurs des systèmes de données un environnement collaboratif unique pour gérer les métadonnées techniques, commerciales et opérationnelles de l'organisation.

  • Analyses

    Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre aux analystes d'entreprise des fonctions d'analyse modernes en libre-service basées sur l'IA pour la préparation des données, la visualisation, le reporting d'entreprise, l'analyse augmentée, ainsi que le traitement et la génération de langage naturel. Grâce à Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion des services flexibles, telles que la configuration rapide, la mise à l'échelle et l'application de patches, ainsi que la gestion automatisée du cycle de vie.

  • Service Oracle Cloud Infrastructure Streaming

    Oracle Cloud Infrastructure Streaming Service (OSS) offre une solution durable, évolutive et entièrement gérée pour l'assimilation et l'utilisation de flux de données volumineux en temps réel. Utilisez Streaming pour tout cas d'emploi dans lequel des données sont produites et traitées de manière continue et séquentielle suivant un modèle d'échange de messages de type publication/abonnement.

A propos d'Oracle Cloud Infrastructure Lakehouse

Data Lakehouse est une architecture ouverte et moderne qui vous permet de stocker, de comprendre et d'analyser toutes vos données. Il combine la puissance et la richesse des entrepôts de données avec l'étendue et la flexibilité des technologies de données open source les plus populaires que vous utilisez aujourd'hui. Oracle Cloud Infrastructure Lakehouse est conçu de A à Z sur Oracle Cloud Infrastructure (OCI) avec les dernières structures d'IA et les services d'IA prédéfinis. Oracle Cloud Infrastructure Lakehouse fournit une plate-forme intégrée de plusieurs services cloud Oracle qui fonctionnent conjointement avec la migration facile de données et la gouvernance unifiée. Elle offre également la possibilité d'utiliser les meilleurs outils commerciaux et open source en fonction de vos cas d'emploi et de vos préférences.

Les organisations peuvent facilement migrer des lacs de données open source existants ou en créer de nouveaux dans Oracle Cloud Infrastructure Lakehouse avec des services entièrement gérés tels qu'Oracle Big Data Service et Oracle Cloud Infrastructure Data Flow. Spark, HIVE, Hbase et bien d'autres services peuvent être déployés et mis à l'échelle facilement sur OCI.

Oracle Big Data Service fournit à la demande des clusters Apache Hadoop et Spark dédiés, sécurisés, hautement disponibles et entièrement configurés. Il fournit les composants Hadoop fréquemment utilisés, ce qui facilite la migration des charges de travail vers le cloud et garantit la compatibilité avec les solutions on-premise.

Oracle Cloud Infrastructure Data Flow est un service Spark sans serveur entièrement géré qui vous permet de vous concentrer sur leurs charges de travail Spark sans concepts sur l'infrastructure. Elle permet une livraison rapide des applications, car les développeurs peuvent se concentrer sur le développement des applications et non sur la gestion de l'infrastructure.

De nombreuses entreprises cherchent à migrer leurs lacs de données on-premise pour tirer parti de l'architecture Oracle Cloud Infrastructure Lakehouse. Toutefois, la migration d'un lac de données d'environnements Hadoop on-premise vers le cloud peut s'avérer difficile sans le support approprié.

A propos de la migration des données Apache Hadoop avec LiveData Migrator

La migration des données Apache Hadoop est difficile en raison du volume de données et de la quantité de modifications de données qui se produisent généralement dans ces systèmes.

Les approches traditionnelles de migration des données s'appuyaient sur des outils conçus pour le transfert de données statique, tels que des dispositifs de transfert en masse ou des outils open source tels que DistCp (Distributed Copy). Pour cela, les systèmes sur site doivent être arrêtés afin d'éviter que des modifications de données ne se produisent au cours du processus de migration, ou demander aux responsables de la migration d'identifier les modifications et de développer des solutions personnalisées pour migrer les données nouvelles et modifiées. Cela augmente le temps et les risques pour la migration des données et, selon les analystes du secteur, entraîne plus de 60 % des initiatives de migration des données pour passer au fil du temps, dépasser le budget ou échouer complètement.

LiveData Migrator prend en charge la migration des données Apache Hadoop et des métadonnées Hive à partir des sources suivantes :
  • Cloudera, y compris CDP (Plate-forme de données Cloudera)
  • CDH (Cloudera Data Hub)
  • HDP (Hortonworks Data Platform) HDFS versions 2.6 et ultérieures

Les systèmes source peuvent être exécutés sur Oracle Big Data Appliance ou sur des configurations matérielles personnalisées.