Établir une solution de données multinuage entre OCI et Microsoft Azure

Les organisations peuvent établir un entrepôt de données ou un entrepôt de lac de données d'entreprise pour stocker les données en direct et archivées dans un emplacement centralisé.

Cette approche simplifie le processus de création d'un magasin de données centralisé qui sert de solution complète pour tous les besoins en matière d'analyse de données.

En tirant parti d'une solution d'analyse de données multinuage, les organisations peuvent effectuer des analyses de manière efficace à l'aide d'un entrepôt de données ou d'un entrepôt de données central intégré à diverses sources de données, notamment Fusion SaaS, des fichiers plats, des bases de données sur place et en nuage, Salesforce et des sites Web de commerce électronique.

L'objectif ultime est de créer un référentiel centralisé de données extraites et analysées par les unités opérationnelles afin d'améliorer la visibilité de bout en bout de l'entreprise et de fournir des informations basées sur les données. Voici certains des avantages :

  • Ensemble d'opportunités d'analyse de données unifiées

    Simplifiez l'accès aux données de diverses sources en nuage et sur place, comme les bases de données et les magasins d'objets.

  • Facilité d'intégration

    Intégration transparente des données dans divers systèmes, formats, API, applications et appareils afin d'assurer la collaboration et la conformité sécurisées avec les protocoles de sécurité sans avoir besoin de codage manuel.

  • Analyse du rendement élevé

    Interrogation de données efficace permettant de prendre des décisions plus rapidement et d'améliorer le service à la clientèle.

  • Coût, sécurité et disponibilité

    Réduisez CapEx et OpEx tout en optimisant le rapport coût-efficacité, la performance, la sécurité et la disponibilité.

Architecture

Cette architecture de référence illustre un pipeline de données multinuage d'entreprise qui collecte et formate des données provenant de diverses sources, en les transférant vers le lac de données d'entreprise ou l'entrepôt de données. Il comprend l'intégration par lots, l'intégration des données et les scénarios d'intégration en temps réel.

Oracle Interconnect pour Microsoft Azure relie Azure ExpressRoute et Oracle Cloud Infrastructure FastConnect pour connecter efficacement deux réseaux en nuage distincts.

Le trafic du réseau virtuel (VNet) d'Azure passe par une interconnexion privée au réseau en nuage virtuel (VCN) d'OCI.

Le diagramme suivant illustre cette architecture de référence.



oci-azure-multicloud-data-solution-diagramme-oracle.zip

Le service d'intégration de données OCI connecte et extrait des données de sources sur place et en nuage à l'aide d'adaptateurs natifs, accède aux applications Oracle SaaS à l'aide du connecteur BICC, effectue des transformations sur les données et les charge dans un lac de données OCI au moyen d'adaptateurs (Oracle Autonomous Database ou OCI Object Storage).

Les services d'intégration d'applications Oracle recueillent des données en temps réel de divers systèmes sources tels que les applications Oracle SaaS, l'Internet des objets (IoT), les services de diffusion en continu, les médias sociaux, les systèmes sur place et d'autres fournisseurs de services en nuage au moyen d'adaptateurs natifs. Il exécute ensuite les processus de transformation et d'orchestration avant de charger les données dans un lac de données OCI à l'aide d'adaptateurs (Oracle Autonomous Database ou OCI Object Storage).

OCI GoldenGate saisit les données d'Oracle Autonomous Database et les réplique dans Azure Data Lake Gen2 et Azure Synapse Analytics en temps quasi réel au moyen de OCI FastConnect. La réplication vers Synapse implique le stockage temporaire et la fusion des données de modification dans des micro-lots dans Azure Data Lake Storage Gen2 avant leur fusion dans la table cible Synapse.

Flux d'événements

  1. Extraction et transfert de données
    • Les données de client sont transférées de la source de données au stockage d'objets OCI directement ou au moyen d'inducteurs propres à la source par défaut.
    • Les fichiers plats sur place sont déplacés vers le stockage d'objets OCI à l'aide du script Python du client ou en établissant une connexion FTP avec le stockage d'objets OCI pour une connectivité transparente à Oracle Integration Cloud Service.
    • Les données sont chargées en toute sécurité sous leur forme brute vers des seaux de stockage d'objets OCI avec chiffrement.
  2. Ingestion et transformation de données
    • Le service d'intégration de données OCI extrait des données du stockage d'objets OCI et d'autres sources, les transforme en fonction des besoins d'affaires à l'aide d'Apache Spark et d'un flux d'architecture proposé, puis stocke les données transformées dans le stockage d'objets OCI avec la base de données autonome.
    • Ce processus suit l'architecture Delta Lake pour les propriétés ACID actives et la compression. Les données sont désormais structurées, peuvent être interrogées et prêtes pour d'autres analyses.
    • Le service de journalisation OCI gère tous les journaux de traitement.
  3. Orchestration et programmation
    • Le service d'intégration de données OCI gère les processus de flux de données, en programmant l'exécution des applications de flux de données et des carnets du service de science des données, au besoin.
    • Les développeurs peuvent exécuter des applications de flux de données à partir de l'interface utilisateur ou de carnets du service de science des données pour plus de flexibilité.
  4. Archivage de données
    • Les politiques de cycle de vie du service Stockage d'objets OCI, qui sont définies et mises en oeuvre par les clients, jouent un rôle crucial dans l'automatisation du processus d'archivage des données. Ces politiques facilitent le transfert transparent des données vers des niveaux de stockage plus rentables ou la suppression systématique d'informations obsolètes, le tout conformément aux règles et directives prédéfinies. Cette automatisation est essentielle pour assurer non seulement une gestion efficace des données, mais aussi la conformité aux diverses politiques de conservation auxquelles les organisations doivent se conformer.
    • En utilisant ces politiques de cycle de vie, les clients peuvent optimiser leurs coûts de stockage tout en gardant le contrôle sur leurs pratiques de conservation des données et en s'assurant qu'elles sont conformes aux exigences légales et réglementaires.
  5. Réplication de données vers Azure
    • OCI GoldenGate est utilisé pour la réplication de données vers Azure au moyen d'un réseau dédié établi avec Oracle Interconnect pour Microsoft Azure.
    • OCI GoldenGate s'intègre étroitement au lac de données Azure et à Azure Synapse Analytics pour un chargement de données transparent.
  6. Analyse et reporting des données
    • Oracle Analytics Cloud et Power BI sont des exemples d'outils d'intelligence d'affaires qui peuvent établir une connexion avec le service Stockage d'objets OCI ou Oracle Autonomous Database.
    • Ces outils recueillent les données qui ont été transformées et produisent des tableaux de bord conviviaux présentant les indicateurs clés de rendement (ICR) clés de l'entreprise.
    • Grâce à ces tableaux de bord, des informations précieuses peuvent être obtenues à partir des données, ce qui facilite la prise de décision éclairée.

L'architecture comprend les composants suivants :

  • Location

    Une location est une partition sécurisée et isolée qu'Oracle configure dans Oracle Cloud lors de votre inscription à Oracle Cloud Infrastructure. Vous pouvez créer, organiser et administrer vos ressources dans Oracle Cloud au sein de votre location. Une location est synonyme d'une société ou d'une organisation. Habituellement, une société aura une seule location et reflétera sa structure organisationnelle au sein de cette location. Une seule location est généralement associée à un seul abonnement, et un seul abonnement n'a généralement qu'une seule location.

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (dans différents pays ou continents).

  • Compartiment

    Les compartiments sont des partitions logiques inter-régions dans une location Oracle Cloud Infrastructure. Utilisez des compartiments pour organiser vos ressources dans Oracle Cloud, contrôler l'accès aux ressources et définir des quotas d'utilisation. Pour contrôler l'accès aux ressources d'un compartiment donné, vous devez définir des politiques qui spécifient qui peut accéder aux ressources et les actions qui peuvent être exécutées.

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Par conséquent, une défaillance d'un domaine de disponibilité ne devrait pas affecter les autres domaines de disponibilité de la région.

  • Réseau en nuage virtuel (VCN) et sous-réseau

    Un VCN est un réseau défini par logiciel personnalisable que vous avez configuré dans une région Oracle Cloud Infrastructure. Comme les réseaux en nuage virtuels traditionnels, ils vous offrent un contrôle sur votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • ExpressRoute

    Azure ExpressRoute vous permet de configurer une connexion privée entre un réseau VNet et un autre réseau, tel que votre réseau sur place ou un réseau dans un autre fournisseur de nuage.

    Azure ExpressRoute est une alternative plus fiable et plus rapide aux connexions Internet standard, car le trafic sur Azure ExpressRoute ne traverse pas le réseau Internet public.

  • Autonomous Database

    Oracle Autonomous Database est un environnement de base de données préconfiguré entièrement géré que vous pouvez utiliser pour le traitement des transactions et les charges de travail d'entreposage de données. Il n'est pas nécessaire de configurer ou de gérer du matériel ni d'installer des logiciels. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de correctifs, la mise à niveau et le réglage de la base de données.

  • Stockage d'objets

    Le service de stockage d'objets offre un accès rapide à de grandes quantités de données structurées et non structurées de tous types, notamment des sauvegardes de base de données, des données analytiques et du contenu enrichi, comme des images et des vidéos. Vous pouvez stocker des données en toute sécurité, puis les extraire directement à partir d'Internet ou de la plate-forme en nuage. Vous pouvez adapter le stockage sans que la performance ou la fiabilité des services soit affectée. Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archives pour le stockage "à froid" que vous retenez pendant de longues périodes et auquel vous accédez rarement.

  • Intégration de données

    Oracle Cloud Infrastructure Data Integration est un service en nuage natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle des données provenant de diverses sources de données en services Oracle Cloud Infrastructure cibles, tels que Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. L'outil d'extraction, de transformation et de chargement (ETC) tire parti du traitement évolutif entièrement géré sur Spark, et l'outil ELT (extract load transform) tire parti des capacités de poussée vers le bas SQL complètes d'Autonomous Data Warehouse afin de réduire le déplacement des données et d'améliorer le délai de rentabilité des données nouvellement ingérées. Les utilisateurs conçoivent des processus d'intégration de données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en adaptant automatiquement l'environnement d'exécution. Oracle Cloud Infrastructure Data Integration offre une exploration interactive et une préparation des données et aide les ingénieurs de données à se protéger contre la dérive de schéma en définissant des règles pour gérer les modifications de schéma.

  • Oracle GoldenGate Cloud Service

    Oracle GoldenGate Cloud Service est un service entièrement géré qui permet l'ingestion de données à partir de sources résidant sur place ou dans n'importe quel nuage, en tirant parti de la technologie CDC GoldenGate pour une saisie efficace et non intrusive des données et leur livraison à Oracle Autonomous Data Warehouse en temps réel et à grande échelle afin de mettre les informations pertinentes à la disposition des consommateurs le plus rapidement possible.

  • Oracle Integration

    Oracle Integration fournit une connectivité prédéfinie aux applications SaaS et sur place, des modèles d'automatisation de processus prêts à l'emploi et un générateur visuel à code réduit pour le développement d'applications Web et mobiles. Il vous donne un accès natif aux événements dans Oracle Cloud ERP, HCM et CX. Connecter des silos analytiques propres aux applications afin de simplifier les processus critiques, de la demande d'achat à la réception, du recrutement au paiement, de la piste à la facturation et d'autres processus, en fournissant à vos responsables informatiques et commerciaux une visibilité de bout en bout.

  • Azure Synapse Analytics

    Azure Synapse Analytics est un service d'analyse qui regroupe l'intégration de données, l'entreposage de données d'entreprise et l'analyse de mégadonnées. Il permet d'interroger les données selon vos conditions, à l'aide d'options sans serveur ou dédiées, à grande échelle. Azure Synapse Analytics combine ces concepts à une expérience unifiée pour ingérer, explorer, préparer, transformer, gérer et servir des données pour des besoins immédiats en matière d'intelligence d'affaires et d'apprentissage automatique.

  • Azure Data Lake Storage Gen2

    Azure Data Lake Storage Gen2 est un ensemble de fonctionnalités dédiées à l'analyse de mégadonnées, basées sur Azure Blob Storage. Data Lake Storage Gen2 converge les capacités d'Azure Data Lake Storage Gen1 avec Azure Blob Storage.

    Par exemple, Azure Data Lake Storage Gen2 fournit la sémantique du système de fichiers, la sécurité au niveau des fichiers et l'ajustement. Comme ces fonctionnalités reposent sur le stockage Blob, vous bénéficiez également d'un stockage hiérarchisé à faible coût doté de fonctionnalités de haute disponibilité et de reprise après sinistre.

  • Passerelle d'application Azure

    La passerelle d'application Azure est un équilibreur de charge de trafic Web (couche OSI 7) qui vous permet de gérer le trafic vers vos applications Web. Les équilibreurs de charge traditionnels fonctionnent au niveau de la couche de transport (couche OSI 4 - TCP et UDP) et acheminent le trafic en fonction de l'adresse IP et du port sources vers une adresse IP et un port de destination. La passerelle d'application Azure peut prendre des décisions d'acheminement en fonction d'attributs supplémentaires d'une demande HTTP, par exemple un chemin d'URI ou des en-têtes d'hôte.

    Par exemple, vous pouvez acheminer le trafic en fonction de l'URL entrante. Ainsi, si /images se trouve dans l'URL entrante, vous pouvez acheminer le trafic vers un jeu spécifique de serveurs (appelé groupe) configurés pour les images. Si /video se trouve dans l'URL, ce trafic est acheminé vers un autre groupe optimisé pour les vidéos.

Recommandations

Utilisez les recommandations suivantes comme point de départ. Vos exigences peuvent différer de l'architecture décrite ici.
  • Provisionnement
    • Sélectionnez la taille appropriée pour les circuits virtuels OCI FastConnect et Azure ExpressRoute afin de répondre aux exigences de bande passante de la charge de travail.
    • Déployez Oracle Database dans le VCN et le sous-réseau OCI liés à la passerelle de routage dynamique (DRG) et à OCI FastConnect.
    • Configurez des mesures de routage et de sécurité ou un groupe de sécurité de réseau sur OCI pour activer le trafic réseau Azure Synapse Analytics pour atteindre Oracle Database.
    • Lors de la configuration d'Oracle Database avec un point d'extrémité privé, définissez les paramètres du VCN pour autoriser le trafic exclusivement à partir du VCN désigné, ce qui restreint l'accès à partir des adresses IP publiques ou des réseaux en nuage virtuels.

Points à considérer

Tenez compte des points suivants lors du déploiement de cette architecture de référence.

  • Coût

    OCI FastConnect : Le prix pour OCI FastConnect reste cohérent dans toutes les régions OCI, sans frais supplémentaires pour les données entrantes ou sortantes.

    Azure ExpressRoute : Les tarifs pour Azure ExpressRoute diffèrent selon la région.

  • Performance

    Dans cette architecture de référence, le client avait besoin d'une réplication des données en temps quasi réel de la base de données principale sur OCI vers les points d'extrémité Azure pour son cas d'utilisation. En utilisant OCI GoldenGate, le client a veillé à ce que ses réservoirs de mégadonnées hétérogènes et multinuages soient constamment mis à jour avec des données en temps réel provenant des systèmes de production opérationnels et analytiques, ce qui facilite l'analyse en temps réel.

  • Service de réseau

    Oracle Interconnect pour Microsoft Azure sert de solution de réseau de remplacement et est compatible avec des régions appariées Azure-OCI spécifiques. Pour savoir quelles régions Azure et OCI prennent en charge le service Oracle Database pour Microsoft Azure, voir Explorer davantage pour le service Oracle Database pour la disponibilité régionale Azure.

    Dans les cas où les régions OCI et Azure ne prennent pas en charge Oracle Interconnect pour Microsoft Azure, vous pouvez utiliser le réseau fédérateur de chaque fournisseur de services en nuage pour gérer le trafic. Si vous optez pour le réseau fédérateur OCI, vous devez établir une région intermédiaire qui englobe la région Oracle Interconnect pour Microsoft Azure dans OCI et une connexion d'appairage distant (RPC) vers la région sans prise en charge d'Oracle Interconnect pour Microsoft Azure.

Confirmation

  • Auteurs : GuruDixit Chepuri
  • Contributeurs : John Sulyok