Etablir une solution de données multicloud entre OCI et Microsoft Azure

Les entreprises peuvent établir un data lake house ou un data warehouse d'entreprise pour stocker des données en direct et archivées dans un emplacement centralisé.

Cette approche simplifie le processus de création d'un magasin de données centralisé qui sert de solution complète pour tous les besoins d'analyse de données.

En tirant parti d'une solution d'analyse de données multicloud, les entreprises peuvent effectuer efficacement des analyses à l'aide d'un data lake house central ou d'un data warehouse intégré à diverses sources de données, notamment Fusion SaaS, des fichiers plats, des bases de données sur site et cloud, Salesforce et des sites Web de commerce électronique.

L'objectif ultime est de créer un référentiel centralisé de données extraites et analysées par les unités opérationnelles afin d'améliorer la visibilité de bout en bout de l'entreprise et de fournir des informations basées sur les données. Avantages :

  • Pipeline d'analyse de données unifié

    Rationalisez l'accès aux données à partir de diverses sources cloud et sur site, telles que les bases de données et les banques d'objets.

  • Facilité d'intégration

    Intégration transparente des données dans divers systèmes, formats, API, applications et appareils pour assurer une collaboration et une conformité sécurisées avec les protocoles de sécurité sans avoir besoin de codage manuel.

  • Analyses hautes performances

    Interrogation efficace des données permettant de prendre des décisions plus rapidement et d'améliorer le service client.

  • Coût, sécurité et disponibilité

    Minimisez CapEx et OpEx tout en optimisant la rentabilité, les performances, la sécurité et la disponibilité.

Architecture

Cette architecture de référence illustre un pipeline de données multicloud d'entreprise qui collecte et formate les données de diverses sources, puis les transfère vers le lac de données d'entreprise ou l'entrepôt de données. Il inclut l'intégration par lots, l'intégration de données et des scénarios d'intégration en temps réel.

Oracle Interconnect for Microsoft Azure relie Azure ExpressRoute et Oracle Cloud Infrastructure FastConnect pour connecter efficacement deux réseaux cloud distincts.

Le trafic de réseau virtuel (VNet) d'Azure est acheminé via une interconnexion privée vers le réseau cloud virtuel (VCN) d'OCI.

Le schéma suivant illustre cette architecture de référence.



oci-azure-multicloud-data-solution-diagramme-oracle.zip

OCI Data Integration connecte et extrait des données à partir de sources sur site et cloud à l'aide d'adaptateurs natifs, accède aux applications Oracle SaaS à l'aide d'un connecteur BICC, effectue des transformations sur les données et les charge dans un lac de données OCI via des adaptateurs (Oracle Autonomous Database ou OCI Object Storage).

Les services d'intégration d'applications Oracle collectent des données en temps réel à partir de divers systèmes source tels que les applications Oracle SaaS, l'Internet des objets (IoT), les services de diffusion en continu, les réseaux sociaux, les systèmes sur site et d'autres fournisseurs cloud via des adaptateurs natifs. Il exécute ensuite les processus de transformation et d'orchestration avant de charger les données dans un lac de données OCI à l'aide d'adaptateurs (Oracle Autonomous Database ou OCI Object Storage).

OCI GoldenGate capture les données d'Oracle Autonomous Database et les réplique vers Azure Data Lake Gen2 et Azure Synapse Analytics en temps quasi réel via OCI FastConnect. La réplication vers Synapse implique la préparation et la fusion des données de modification dans des micro-batchs dans Azure Data Lake Storage Gen2 avant de les fusionner dans la table cible Synapse.

Flux des événements

  1. Extraction et transfert de données
    • Les données client sont transférées de la source de données vers OCI Object Storage directement ou via des pilotes par défaut propres à la source.
    • Les fichiers plats sur site sont déplacés vers OCI Object Storage à l'aide du script Python du client ou en établissant une connexion FTP avec OCI Object Storage pour une connectivité transparente à Oracle Integration Cloud Service.
    • Les données sont téléchargées en toute sécurité sous leur forme brute vers des buckets OCI Object Storage avec cryptage.
  2. Ingestion et transformation des données
    • OCI Data Integration extrait des données à partir d'OCI Object Storage et d'autres sources, les transforme en fonction des besoins de l'entreprise à l'aide d'Apache Spark et d'un flux d'architecture proposé, puis les stocke de nouveau dans OCI Object Storage avec la base de données autonome.
    • Ce processus suit l'architecture Delta Lake pour les propriétés ACID actives et la compression. Les données sont désormais structurées, peuvent être interrogées et sont prêtes à être analysées.
    • OCI Logging gère tous les journaux de traitement.
  3. Orchestration et planification
    • OCI Data Integration gère les processus de flux de données, en programmant l'exécution des applications Data Flow et des blocs-notes Data Science si nécessaire.
    • Les développeurs peuvent exécuter des applications Data Flow à partir de l'interface utilisateur ou des blocs-notes de service Data Science pour plus de flexibilité.
  4. Archivage des données
    • Les stratégies de cycle de vie OCI Object Storage, définies et implémentées par les clients, jouent un rôle crucial dans l'automatisation du processus d'archivage des données. Ces stratégies facilitent le transfert transparent des données vers des niveaux de stockage plus rentables ou la suppression systématique d'informations obsolètes, le tout conformément aux règles et directives prédéfinies. Cette automatisation est essentielle pour garantir non seulement une gestion efficace des données, mais également la conformité avec diverses stratégies de conservation que les entreprises doivent respecter.
    • En utilisant ces stratégies de cycle de vie, les clients peuvent optimiser leurs coûts de stockage tout en gardant le contrôle sur leurs pratiques de conservation des données et en s'assurant qu'ils sont alignés sur les exigences légales et réglementaires.
  5. Réplication des données vers Azure
    • OCI GoldenGate est utilisé pour la réplication de données vers Azure via un réseau dédié établi avec Oracle Interconnect for Microsoft Azure.
    • OCI GoldenGate s'intègre étroitement à Azure Data Lake et à Azure Synapse Analytics pour un chargement de données transparent.
  6. Analyse et reporting des données
    • Oracle Analytics Cloud et Power BI sont des exemples d'outils décisionnels qui peuvent établir une connexion avec OCI Object Storage ou Oracle Autonomous Database.
    • Ces outils rassemblent les données qui ont été transformées et produisent des tableaux de bord conviviaux présentant les indicateurs clés de performance (KPI) de l'entreprise.
    • Grâce à ces tableaux de bord, des informations précieuses peuvent être obtenues à partir des données, ce qui facilite une prise de décision éclairée.

L'architecture comprend les composants suivants :

  • Tenancy

    Une location est une partition sécurisée et isolée configurée par Oracle dans Oracle Cloud lors de votre inscription à Oracle Cloud Infrastructure. Vous pouvez créer, organiser et administrer vos ressources dans Oracle Cloud au sein de votre location. Une location est synonyme d'entreprise ou d'organisation. En général, une entreprise dispose d'une seule location et reflète sa structure organisationnelle au sein de cette location. Une location unique est généralement associée à un seul abonnement, et un seul abonnement n'a généralement qu'une seule location.

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique précise, incluant un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (entre pays, voire continents).

  • Compartiment

    Les compartiments sont des partitions logiques inter-région au sein d'une location Oracle Cloud Infrastructure. Utilisez des compartiments pour organiser les ressources dans Oracle Cloud, en contrôler l'accès et définir des quotas d'utilisation. Pour contrôler l'accès aux ressources d'un compartiment donné, vous définissez des stratégies qui indiquent qui peut accéder aux ressources et les actions réalisables.

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées de celles des autres, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure (par exemple, alimentation, système de refroidissement), ni réseau de domaine de disponibilité interne. Par conséquent, une panne sur un domaine de disponibilité ne doit pas affecter les autres domaines de disponibilité de la région.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • ExpressRoute

    Azure ExpressRoute vous permet de configurer une connexion privée entre une instance VNet et un autre réseau, tel que votre réseau sur site ou un réseau d'un autre fournisseur cloud.

    Azure ExpressRoute est une alternative plus fiable et plus rapide aux connexions Internet standard, car le trafic sur Azure ExpressRoute ne traverse pas le réseau Internet public.

  • Autonomous Database

    Oracle Autonomous Database est un environnement de base de données entièrement géré et préconfiguré que vous pouvez utiliser pour le traitement des transactions et les charges de travail d'entreposage de données. Vous n'avez pas à configurer ni à gérer le matériel, ni à installer de logiciel. Oracle Cloud Infrastructure gère la création, la sauvegarde, la mise à niveau et le réglage de la base de données, ainsi que l'application de patches à la base de données.

  • Object Storage

    Le stockage d'objets permet d'accéder rapidement à de grandes quantités de données, structurées ou non, de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu riche tel que des images et des vidéos. Vous pouvez stocker les données, puis les extraire directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez redimensionner le stockage sans dégradation des performances ni de la fiabilité des services. Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.

  • Intégration de données

    Oracle Cloud Infrastructure Data Integration est un service cloud natif, sans serveur et entièrement géré qui extrait, charge, transforme, nettoie et remodèle des données de diverses sources de données vers des services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. L'ETL (extraction de la charge de transformation) tire parti du traitement évolutif entièrement géré sur Spark, et l'ELT (extraction de la charge de transformation) tire parti des fonctionnalités de propagation SQL complètes d'Autonomous Data Warehouse afin de minimiser les mouvements de données et d'améliorer le délai de rentabilisation des données nouvellement ingérées. Les utilisateurs conçoivent les processus d'intégration des données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en redimensionnant automatiquement l'environnement d'exécution. Oracle Cloud Infrastructure Data Integration fournit une exploration interactive et une préparation des données, et aide les ingénieurs de données à se protéger contre les dérives de schéma en définissant des règles pour gérer les modifications de schéma.

  • Oracle GoldenGate Cloud Service

    Oracle GoldenGate Cloud Service est un service entièrement géré qui permet l'assimilation des données à partir de sources résidant sur site ou dans n'importe quel cloud, à l'aide de la technologie CDC GoldenGate pour une capture et une livraison non intrusives et efficaces des données vers Oracle Autonomous Data Warehouse en temps réel et à grande échelle afin de mettre les informations pertinentes à la disposition des consommateurs le plus rapidement possible.

  • Oracle Integration

    Oracle Integration fournit une connectivité prédéfinie aux applications sur site et SaaS, des modèles d'automatisation des processus prêts à être exécutés et un générateur visuel low-code pour le développement d'applications Web et mobiles. Il vous donne un accès natif aux événements dans Oracle Cloud ERP, HCM et CX. Connectez les silos analytiques spécifiques aux applications pour simplifier les processus de la demande à la réception, du recrutement au paiement, de la piste à la facture et d'autres processus critiques, en offrant à vos responsables informatiques et commerciaux une visibilité de bout en bout.

  • Azure Synapse Analytics

    Azure Synapse Analytics est un service d'analyse qui rassemble l'intégration de données, l'entreposage de données d'entreprise et l'analyse du Big Data. Il permet d'interroger des données selon vos conditions, en utilisant des options dédiées ou sans serveur, à grande échelle. Azure Synapse Analytics rassemble ces concepts avec une expérience unifiée pour assimiler, explorer, préparer, transformer, gérer et servir les données pour des besoins immédiats de BI et de machine learning.

  • Azure Data Lake Storage Gen2

    Azure Data Lake Storage Gen2 est un ensemble de fonctionnalités dédiées à l'analyse du Big Data, basé sur Azure Blob Storage. Data Lake Storage Gen2 converge les fonctionnalités d'Azure Data Lake Storage Gen1 avec Azure Blob Storage.

    Par exemple, Azure Data Lake Storage Gen2 fournit une sémantique de système de fichiers, une sécurité au niveau des fichiers et une évolutivité. Comme ces fonctionnalités sont basées sur le stockage Blob, vous bénéficiez également d'un stockage hiérarchisé à faible coût avec des fonctionnalités de haute disponibilité et de récupération après sinistre.

  • Passerelle d'application Azure

    La passerelle d'application Azure est un équilibreur de charge de trafic Web (couche 7 OSI) qui vous permet de gérer le trafic vers vos applications Web. Les équilibreurs de charge traditionnels opèrent au niveau de la couche de transport (couche OSI 4 - TCP et UDP) et acheminent le trafic en fonction de l'adresse IP et du port source vers une adresse IP et un port de destination. La passerelle d'application Azure peut prendre des décisions de routage en fonction des attributs supplémentaires d'une demande HTTP, par exemple le chemin d'URI ou les en-têtes d'hôte.

    Par exemple, vous pouvez acheminer le trafic en fonction de l'URL entrante. Par conséquent, si /images figure dans l'URL entrante, vous pouvez acheminer le trafic vers un ensemble spécifique de serveurs (appelés pool) configurés pour les images. Si /video se trouve dans l'URL, ce trafic est acheminé vers un autre pool optimisé pour les vidéos.

Recommandations

Utilisez les recommandations suivantes comme point de départ. Vos exigences peuvent différer de l'architecture décrite ici.
  • Provisionnement
    • Sélectionnez la taille appropriée pour les circuits virtuels OCI FastConnect et Azure ExpressRoute afin de répondre aux exigences de bande passante de la charge globale.
    • Déployez Oracle Database dans le VCN et le sous-réseau OCI liés à la passerelle de routage dynamique OCI (DRG) et à OCI FastConnect.
    • Configurez des mesures de routage et de sécurité ou un groupe de sécurité réseau sur OCI pour permettre au trafic réseau Azure Synapse Analytics d'atteindre Oracle Database.
    • Lors de la configuration d'Oracle Database avec une adresse privée, définissez les paramètres VCN pour autoriser le trafic exclusivement à partir du VCN désigné, en limitant l'accès à partir des adresses IP publiques ou des réseaux cloud virtuels.

Points à prendre en compte

Tenez compte des points suivants lors du déploiement de cette architecture de référence.

  • Coût

    OCI FastConnect : le prix pour OCI FastConnect reste cohérent dans toutes les régions OCI, sans frais supplémentaires pour l'entrée ou la sortie de données.

    Azure ExpressRoute : la tarification d'Azure ExpressRoute varie en fonction de la région.

  • Performances

    Dans cette architecture de référence, le client a requis une réplication de données quasiment en temps réel de la base de données principale sur OCI vers les adresses Azure pour son cas d'emploi. En utilisant OCI GoldenGate, le client a veillé à ce que ses réservoirs de Big Data hétérogènes et multicloud soient constamment mis à jour avec des données en temps réel provenant de systèmes de production opérationnels et analytiques, ce qui facilite l'analyse en temps réel.

  • Fonctions de réseau

    Oracle Interconnect for Microsoft Azure sert de solution réseau alternative et est compatible avec des régions associées à Azure-OCI spécifiques. Pour savoir quelles régions Azure et OCI prennent en charge Oracle Database Service pour Microsoft Azure, reportez-vous à En savoir plus sur Oracle Database Service pour la disponibilité régionale Azure.

    Dans les cas où les régions OCI et Azure ne prennent pas en charge Oracle Interconnect for Microsoft Azure, vous pouvez utiliser l'épine dorsale de chaque fournisseur cloud pour gérer le trafic. Si vous optez pour le réseau principal OCI, il est nécessaire d'établir une région intermédiaire qui englobe la région Oracle Interconnect for Microsoft Azure dans OCI et une connexion d'appairage à distance (RPC) à la région qui ne prend pas en charge Oracle Interconnect for Microsoft Azure.

Accusés de réception

  • Auteurs : GuruDixit Chepuri
  • Contributeurs : John Sulyok