Implémenter une architecture d'intégration de lac de données multicloud

Cette architecture de référence explique comment les entreprises peuvent intégrer des données provenant de plusieurs sources dans le lac de données Oracle Cloud Infrastructure (OCI).

Cette architecture de référence représente un cas d'utilisation pour une organisation d'entreprise à grande échelle avec une stratégie commerciale qui inclut l'acquisition de nouvelles organisations dans le cadre de leur plan de croissance à long terme. L'entreprise est en train de créer un lac de données avec une plate-forme d'analyse et l'analyse des coûts est l'un des modules de portée.

L'organisation a implémenté Oracle Fusion Cloud Applications pour la finance dans laquelle les données de facture sont stockées.

L'organisation a récemment acquis une nouvelle organisation et utilise Amazon Web Services (AWS) pour héberger l'application de traitement des factures. Vous devez transférer les données de facture d'AWS vers Oracle Cloud Infrastructure (OCI) où le lac de données est implémenté et enrichir les données de facture volumineuses avec des informations sur le centre de coûts/fournisseur avant de les charger dans le lac de données. Les données de centre de coûts proviennent d'Oracle Fusion Cloud Applications et les données fournisseur proviennent d'une base de données MySQL sur site.

Architecture

Cette architecture de référence explique comment transférer les données de différents fournisseurs cloud et sources de données sur site vers un lac de données hébergé dans OCI. Cette architecture couvre l'intégration par lots, l'intégration des données, l'intégration en temps réel et les scénarios d'intégration basés sur les événements.

Le diagramme suivant illustre le flux de données pour cette architecture de référence.
Description de l'image oci_multicloud_datalake_flow.png
Description de l'illustration oci_multicloud_datalake_flow.png

oci-multicloud-datalake-flow-oracle.zip

OCI Data Integration :
  1. Connecte et extrait des données de :
    • Services AWS et services Azure via des adaptateurs natifs.
    • Sources de données sur site via une connectivité privée (FastConnect/VPN).
    • Applications Oracle SaaS via le connecteur BICC.
  2. Effectue la transformation des données extraites.
  3. Charge les données dans le lac de données OCI via des adaptateurs (ADB/Object Storage).
Oracle Integration Cloud:
  1. Reçoit des données en temps réel provenant de divers systèmes source tels que les applications Oracle SaaS/les services IOT/Streaming/les réseaux sociaux/les systèmes sur site/autres fournisseurs cloud via des adaptateurs natifs.
  2. Effectue la logique de transformation/orchestration.
  3. Charge les données dans le lac de données OCI via des adaptateurs (ADB/Object Storage).

Le diagramme suivant illustre cette architecture de référence.



oci-multicloud-datalake-oracle.zip

Oracle Data Integration Service est utilisé dans les scénarios suivants :
  • Consolider des données en capturant des données provenant de systèmes source hétérogènes multiples et en les intégrant dans un seul emplacement de stockage persistant. Cette opération est généralement effectuée à l'aide de sous-programmes ETL (extraction, transformation et chargement).
  • Extraction de données à volume élevé à partir des systèmes source (HDFS, base de données autonome Oracle, MySQL, Oracle Database, Azure Synapse, AWS Redshift, Object Storage, S3, Microsoft SQL, PostgreSQL, etc.) hébergés dans le réseau privé/public (clients sur site, réseau cloud 3e partie (Azure VNet, AWS VPC)) et chargés dans le lac de données OCI.
  • Extraction des données d'Oracle Fusion Cloud Applications via le connecteur BICC/BI Publisher, puis chargement dans le lac de données OCI.
  • Extraction de données volumineuses à partir de plusieurs sources avec un modèle d'orchestration.
  • Implémentation de travaux ETL planifiés (quotidiens, mensuels, hebdomadaires, mensuels, cron, etc.).

Oracle Integration Cloud (OIC) est utilisé dans les scénarios suivants :

  • Réception de données à partir d'applications Oracle Cloud, d'applications CRM, de commerce électronique et d'applications cloud on-premise/3e partie en temps réel, puis chargement dans le lac de données.
  • Chargement des données dans le lac de données à partir d'un fichier (moins de volume) généré par une source de données.
  • Présentation des API REST cloud Oracle Integration aux plates-formes de webhook, réception des données en temps réel et chargement dans le lac de données.
  • Certaines plates-formes IOT (Geotab, CheckSafe, etc.) disposent d'une fonctionnalité de webhook et envoient des données à toutes les API https pour de nouveaux événements afin qu'elles puissent se connecter directement à API Gateway.
  • Recevoir des données des plates-formes de réseaux sociaux (Facebook, LinkedIn, Twitter, Slack, etc.) et les charger dans le lac de données OCI.
Oracle API Gateway est utilisé pour les scénarios suivants :
  • Publication des API OIC et des API d'application avec des adresses privées accessibles à partir de votre réseau, ou exposé au réseau Internet public si nécessaire. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, la CORS, l'authentification et l'autorisation, ainsi que la limitation des demandes.
  • découpler la logique métier et la sécurité dans le développement d'API ;
  • Exposer les API aux sources restreintes avec des contrôles de sécurité qui peuvent alimenter les données vers le lac de données en aval.

L'architecture se compose des éléments suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient des centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (dans des pays voire des continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants autonomes au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui assure la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure telle qu'un réseau d'alimentation ou de refroidissement, ni réseau interne. Ainsi, il est peu probable qu'un problème survenant dans un domaine de disponibilité affecte les autres domaines de disponibilité de la région.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centres de données traditionnels, les réseaux cloud virtuels vous donnent un contrôle total sur votre environnement réseau. Un VCN peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être ciblés vers une région ou un domaine de disponibilité. Chaque sous-réseau se compose d'une plage contiguë d'adresses qui ne chevauchent pas les autres sous-réseaux du VCN. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Intégration

    Oracle Integration est un service entièrement géré qui permet d'intégrer vos applications, d'automatiser les processus, de bénéficier d'informations sur vos processus métier et de créer des applications visuelles.

  • Oracle Data Integration

    Oracle Cloud Infrastructure Data Integration est un service entièrement géré, sans serveur et natif du cloud qui extrait, charge, transforme, nettoie et remet en forme les données de diverses sources de données en services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. ETL (extract transform load) tire parti d'un traitement d'augmentation entièrement géré sur Spark, et ELT (extract load transform) tire parti des fonctionnalités de propagation SQL complètes d'Autonomous Data Warehouse afin de minimiser le déplacement des données et d'améliorer le délai de rentabilisation des données nouvellement ingérées. Les utilisateurs conçoivent des processus d'intégration de données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en redimensionnant automatiquement l'environnement d'exécution. Oracle Cloud Infrastructure Data Integration fournit une exploration et une préparation de données interactives, et aide les ingénieurs données à se protéger contre la dérive du schéma en définissant des règles pour gérer les modifications de schéma.

  • Oracle Business Intelligence Cloud Connector

    Oracle BI Cloud Connector (BICC) est un outil utile pour extraire des données de Fusion et pour les stocker dans des ressources partagées telles qu'Oracle Universal Content Management (UCM) Server ou le stockage cloud au format CSV.

  • Agent de connectivité OIC

    Avec l'agent de connectivité OIC, vous pouvez créer des intégrations hybrides et échanger des messages entre des applications sur des réseaux privés ou sur site et Oracle Integration Cloud.

  • Lac de données

    Un lac de données est un référentiel évolutif et centralisé qui peut stocker des données brutes et permet à une entreprise de stocker toutes ses données dans un environnement élastique et économique. Un lac de données fournit un mécanisme de stockage flexible pour le stockage des données brutes.

  • Stockage d'objets

    Object Storage offre un accès rapide à de grandes quantités de données structurées et non structurées de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi tel que des images et des vidéos. Vous pouvez stocker les données, puis les extraire directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez adapter le stockage de manière transparente sans subir de dégradation des performances ni de la fiabilité du service. Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour un stockage "froid" que vous conservez pendant de longues périodes et que vous accédez rarement ou rarement.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database est un environnement de base de données entièrement géré et préconfiguré que vous pouvez utiliser pour le traitement des transactions et l'entreposage de données. Il n'est pas nécessaire de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

  • Analyse

    Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui fournit aux analystes d'entreprise des fonctions d'analyse modernes en libre-service basées sur l'intelligence artificielle, à des fins de préparation des données, de visualisation, de reporting d'entreprise, d'analyse augmentée, ainsi que de traitement et de génération du langage naturel. Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités flexibles de gestion des services, notamment une configuration rapide, une mise à l'échelle facile et des correctifs, ainsi qu'une gestion automatisée du cycle de vie.

  • Catalogue de données

    Oracle Cloud Infrastructure Data Catalog est une solution de repérage et de gouvernance de données en libre-service entièrement gérée pour vos données d'entreprise. Il fournit aux ingénieurs données, aux analystes de données, aux architectes de données et aux directeurs des systèmes de données un environnement collaboratif unique pour gérer les métadonnées techniques, commerciales et opérationnelles de l'entreprise.

Recommandations

Utilisez la recommandation suivante comme point de départ. Vos besoins peuvent différer de l'architecture décrite ici.
  • Sécurité

    Toutes les connexions sont établies via un réseau privé et toutes les transactions ETL sont acheminées via Fastconnect pour les applications sur site, Colt pour AWS, Azure Interconnect pour Azure. Il est également recommandé d'utiliser le cryptage et le décryptage au niveau de la source et de la cible. Cela garantira la sécurité lors du transit.

Remarques

Tenez compte des points suivants lors du déploiement de cette architecture de référence.

  • Sécurité
    Utilisez les stratégies OCI Identity and Access Management (IAM) pour contrôler qui peut accéder à vos ressources cloud et quelles opérations peuvent être effectuées. Pour protéger les mots de passe de base de données ou toute autre clé secrète, envisagez d'utiliser le service OCI Vault.
    • Affectez aux utilisateurs et aux groupes IAM l'accès du moindre privilège aux types de ressource dans dis-family.
    • Oracle recommande d'affecter le droit d'accès DIS_WORKSPACE_DELETE à un ensemble minimal d'utilisateurs et de groupes IAM afin de minimiser les pertes de données dues à des suppressions par inadvertance par un utilisateur autorisé ou à des suppressions malveillantes. Affectez le droit d'accès DIS_WORKSPACE_DELETE uniquement aux administrateurs de location et de compartiment.
    • Pour protéger vos sources de données contre toute vulnérabilité de sécurité, fournissez uniquement des informations d'identification aux comptes en lecture seule. Data Integration a uniquement besoin d'un accès en lecture pour inclure des données à partir de ressources de données.
  • Coût
    • Si des données à grande échelle sont fréquemment transférées dans la limite du cloud, la direction du flux de données devient essentielle. En général, les fournisseurs cloud ne facturent pas l'entrée de données, mais tous les fournisseurs facturent des frais de sortie de données. Les taux de sortie des données varient selon les fournisseurs cloud. Il est essentiel de prendre en compte les coûts de sortie dans la conception multicloud. En outre, la résidence des données doit être prise en compte lors du déplacement des données.
    • OCI FastConnect : le coût de FastConnect est le même dans toutes les régions OCI.
    • Microsoft Azure ExpressRoute : le coût de Microsoft Azure ExpressRoute varie d'une région à l'autre. Azure dispose de plusieurs SKU disponibles pour un itinéraire express. Oracle recommande d'utiliser le paramètre Local, car il ne comporte pas de frais entrants ou sortants distincts, et il commence à une bande passante minimale de 1 Gbit/s. Les configurations Standard et Premium offrent une bande passante inférieure, mais entraînent des frais de sortie distincts dans une configuration mesurée.
    • Utilisez le service Archive Storage à faible coût pour stocker les données rarement consultées, mais qui doivent être conservées plus longtemps. Définir des stratégies de gestion du cycle de vie pour déplacer automatiquement des données vers Archive Storage ou supprimer des données après une durée spécifiée.
  • Haute disponibilité

    Chaque circuit d'interconnexion (ExpressRoute et FastConnect) est fourni avec un circuit redondant sur le même POP mais avec un routeur physique différent, offrant une haute disponibilité.

Remerciements

  • Author: Subburam Mathuraiveeran
  • Contributors: Wei Han, Phil Wilkins