Déploiement d'un lac de données à l'aide de Power BI sur Oracle Database@Azure

De nombreuses entreprises tirent parti de Microsoft Power BI avec des lacs de données sur Microsoft Azure pour obtenir des informations commerciales exploitables.

Vous pouvez étendre ces fonctionnalités à l'aide d'une architecture Medallion qui inclut Azure Data Factory, Azure Data Lake Storage, Azure Compute, Oracle Database@Azure (soit une instance Oracle Autonomous Database entièrement gérée, soit une instance Oracle Exadata Database Service co-gérée) et Power BI pour relever plusieurs défis de données clés auxquels sont confrontés les clients :

Silos de données et intégration : Azure Data Factory ingère des données provenant de diverses sources dans un lac de données unifié, décomposant les silos et fournissant une source unique d'informations fiables.
Qualité et cohérence des données : Autonomous Data Warehouse dans la couche de conservation garantit des données propres, cohérentes et de haute qualité via des règles de déduplication et de qualité, réduisant ainsi les erreurs et améliorant la prise de décision.
Évolutivité et performances : les ressources de calcul évolutives d'Azure et l'architecture sans serveur d'Autonomous Data Warehouse ou Oracle Exadata Database Service gèrent efficacement le traitement de données à grande échelle, tout en maintenant des performances optimales au fur et à mesure de la croissance des volumes de données et de l'adoption par les utilisateurs (concurrence).
Transformations complexes : Azure Compute et Autonomous Data Warehouse ou Oracle Exadata Database Service effectuent efficacement des transformations et des analyses complexes, réduisant ainsi le temps de traitement et se concentrant sur les informations.
Gestion des coûts : les modèles sans serveur et avec paiement à l'utilisation pour les services Azure et Autonomous Data Warehouse ou Oracle Exadata Database Service optimisent les coûts, en veillant à ne payer que pour ce que vous utilisez.
Gouvernance et conformité des données : les couches structurées de gestion des données facilitent une meilleure gouvernance, traçabilité et conformité réglementaire.
Analyses intégrées : les utilisateurs peuvent appliquer des analyses directement à leurs données à l'aide de fonctionnalités intégrées telles que l'intelligence artificielle (IA), le machine learning (ML), les analyses graphiques, spatiales et textuelles.

Voici des cas d'emploi standard :

Analyse de la vente au détail : intègre les données des ventes en ligne, des transactions en magasin et des commentaires des clients, en optimisant les stratégies de stock et de marketing.
Services financiers : analyse les données de transaction à des fins de détection des fraudes et de conformité réglementaire, afin d'atténuer les risques.
Analyse des soins de santé : intègre les données des patients issues des dossiers médicaux électroniques, des résultats de laboratoire et des dispositifs portables, ce qui améliore les soins aux patients et la gestion de la santé.

Cette architecture permet aux clients professionnels de tous les secteurs d'activité d'exploiter efficacement les données afin de permettre aux utilisateurs professionnels de prendre des décisions éclairées pour obtenir de meilleurs résultats commerciaux.

Architecture logique

Le lac de données analytique peut ingérer des données provenant de plusieurs sources et peut fournir des informations commerciales à l'aide de Power BI exécuté sur Microsoft Azure.

Sources de données : le lac de données analytique peut ingérer des données provenant de plusieurs sources. Azure Data Factory peut ingérer des données à partir de Microsoft SQL Server et Azure Blob Storage. Oracle Database@Azure peut ingérer des données à partir d'Oracle Cloud ERP, d'Oracle Cloud Infrastructure Object Storage, d'Azure Cosmos Database, d'Azure SQL Database, de divers types de données de stockage de table (Azure, PostgresSQL, Azure MariaDB) et d'autres types de bases de données relationnelles sur site.
Niveau de données : Oracle Database@Azure ingère les données source d'Azure Data Lake Storage en conjonction avec Azure Data Factory.
Niveau de consommation : Oracle Database@Azure fournit des informations à Microsoft Power BI exécuté sur Microsoft Azure.

Le schéma suivant illustre l'architecture fonctionnelle :

Description de l'image data-lake-db-azure-process.png

Description de l'illustration data-lake-db-azure-process.png

data-lake-db-azure-process-oracle.zip

Architecture du Médaillon

Cette section explique comment déployer Oracle Database@Azure en tant qu'entrepôt de données au sein de l'architecture médaillon Azure.

L'architecture médaillon est un cadre de gestion des données qui structure la gestion des données dans un data lakehouse en étapes distinctes (bronze, argent et or), représentant les différentes étapes du traitement des données :

Étape du bronze : Les données provenant de diverses sources sont ingérées, validées et organisées.
Phase Silver : Les données sont stockées et traitées pour l'analyse et le reporting.
Phase Gold : Les données affinées sont fournies pour analyse et reporting.

Le diagramme suivant illustre l'architecture :

Description de l'image data-lake-db-azure-medallion.png

Description de l'illustration data-lake-db-azure-medallion.png

data-lake-db-azure-medallion-oracle.zip

Les étapes du médaillon sont divisées en zones de déploiement suivantes :

Ingestion Framework : ingère des données provenant de diverses sources de données à l'aide d'Azure Data Factory. Les données brutes sont stockées dans Azure Data Lake Storage Gen 2 et Delta Lake. Cette structure garantit la cohérence et la précision des données entre les systèmes source et récepteur. Ce cadre constitue un ensemble solide de scripts pour assurer la qualité en utilisant des mécanismes d'audit, d'équilibre et de contrôle sur toutes les plates-formes.
Validation : les données brutes sont ingérées dans Oracle Autonomous Data Warehouse sans serveur ou Oracle Exadata Database Service pour la suppression des doublons et la vérification de la qualité des données. Ce workflow effectue le masquage de nettoyage de base des informations d'identification personnelle et des informations personnelles de santé, ainsi que la validation des fichiers bruts via une structure basée sur des règles pour effectuer des vérifications de schéma. La structure de validation peut être implémentée à l'aide d'Azure Data Factory.
Workflow de rejet : tout enregistrement rejeté lors de la phase d'inclusion en raison d'erreurs de validation ou d'autres erreurs de traitement est transféré sur un chemin de stockage de lac de données Azure distinct. Les notifications par e-mail automatisées à l'aide de l'application Logic sont envoyées à l'équipe de support en fonction des contrats de licence logiciels définis. Les données standardisées restent dans Oracle Autonomous Data Warehouse sans serveur ou Oracle Exadata Database Service.
Orchestration : un système de planification gère les travaux de traitement des données, la planification et les dépendances des travaux. Azure Data Factory peut être utilisé pour l'orchestration de travaux ETL. La phase d'orchestration inclut Oracle Autonomous Data Warehouse sans serveur ou Oracle Exadata Database Service, Delta Lake et Azure Data Lake Storage Gen 2.
Reporting/Analytics : l'étape de reporting comprend Power BI et des services de données tels que des flux externes et la monétisation des données.

L'architecture comporte les composants d'infrastructure suivants :

Région
Une région Azure est une zone géographique dans laquelle résident un ou plusieurs centres de données Azure physiques, appelés zones de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (entre les pays ou même les continents).

Les régions Azure et OCI sont des zones géographiques localisées. Pour Oracle Database@Azure, une région Azure est connectée à une région OCI, avec des zones de disponibilité dans Azure connectées à des domaines de disponibilité dans OCI. Les paires de régions Azure et OCI sont sélectionnées pour minimiser la distance et la latence.
Zone de disponibilité
Une zone de disponibilité est un centre de données physiquement distinct au sein d'une région conçu pour être disponible et tolérant aux pannes. Les zones de disponibilité sont suffisamment proches pour avoir des connexions à faible latence avec d'autres zones de disponibilité.
Réseau virtuel (VNet) et sous-réseau
Un VNet est un réseau virtuel que vous définissez dans Azure. Un VNet peut comporter plusieurs sous-réseaux de blocs CIDR qui ne se chevauchent pas et que vous pouvez ajouter après la création de VNet. Vous pouvez segmenter un élément VNet en sous-réseaux, qui peuvent être ciblés sur une région ou sur des zones de disponibilité. Chaque sous-réseau est constitué d'une plage contiguë d'adresses qui ne chevauchent pas les autres sous-réseaux dans VNet. Utilisez VNet pour isoler logiquement vos ressources Azure au niveau du réseau.
Azure ExpressRoute
Azure ExpressRoute vous permet de configurer une connexion privée entre un VNet et un autre réseau, tel que votre réseau sur site ou un réseau d'un autre fournisseur cloud. ExpressRoute est une alternative plus fiable et plus rapide aux connexions Internet standard, car le trafic sur ExpressRoute ne traverse pas le réseau Internet public.
Passerelle de réseau virtuel
Une passerelle de réseau virtuel autorise le trafic entre un VNet Azure et un réseau en dehors d'Azure, soit sur le réseau Internet public, soit à l'aide de ExpressRoute, en fonction du type de passerelle que vous indiquez.
Table de routage
Les tables de routage dirigent le trafic entre les sous-réseaux Azure, VNets et les réseaux en dehors d'Azure.
Groupe de sécurité réseau
Un groupe de sécurité réseau contient des règles permettant de contrôler le trafic réseau entre les ressources Azure dans une instance VNet. Chaque règle indique la source ou la destination, le port, le protocole et la direction du trafic réseau autorisé ou refusé.
VPN site à site
Fournit un VPN IPSec site à site entre votre réseau sur site et votre VCN via une connexion sécurisée et chiffrée.

L'architecture comprend les produits et services Oracle suivants :

Oracle Database@Azure
Oracle Database@Azure est le service Oracle Database (Oracle Exadata Database Service on Dedicated Infrastructure et Oracle Autonomous Database Serverless) exécuté sur Oracle Cloud Infrastructure (OCI), déployé dans les centres de données Microsoft Azure. Le service offre des fonctionnalités et une parité de prix avec OCI. Achetez le service sur Azure Marketplace.

Oracle Database@Azure intègre les technologies Oracle Exadata Database Service, Oracle Real Application Clusters (Oracle RAC) et Oracle Data Guard sur la plate-forme Azure. Les utilisateurs gèrent le service sur la console Azure et avec les outils d'automatisation Azure. Le service est déployé dans le réseau virtuel Azure (VNet) et intégré au système de gestion des identités et des accès Azure. Les mesures génériques et les journaux d'audit OCI et Oracle Database sont disponibles de manière native dans Azure. Le service exige que les utilisateurs disposent d'un abonnement Azure et d'une location OCI.

Autonomous Database repose sur l'infrastructure Oracle Exadata, est auto-géré, auto-sécurisé et auto-réparateur, ce qui aide à éliminer la gestion manuelle des bases de données et les erreurs humaines. Autonomous Database permet de développer des applications évolutives alimentées par l'IA avec toutes les données à l'aide de fonctionnalités d'IA intégrées en utilisant votre choix de modèle de langage volumineux (LLM) et d'emplacement de déploiement.

Oracle Exadata Database Service et Oracle Autonomous Database Serverless sont tous deux facilement provisionnés via le portail Azure natif, ce qui permet d'accéder à l'écosystème Azure plus large.
Oracle Cloud Infrastructure Object Storage
Oracle Cloud Infrastructure Object Storage stocke le contenu sous forme d'objets dans des conteneurs de stockage appelés buckets. Chaque objet inclut les données et les métadonnées descriptives pour faciliter l'extraction et la gestion.

L'architecture comprend les produits et services Microsoft suivants :

Usine de données Azure
Azure Data Factory (ADF) est un service d'intégration de données basé sur le cloud fourni par Microsoft Azure. Il est conçu pour créer, planifier et orchestrer des workflows de données à grande échelle. ADF permet aux entreprises d'assimiler, de transformer et de déplacer des données de diverses sources vers des destinations, ce qui permet une prise de décision et des analyses basées sur les données.
Fonctions Azure
Azure Functions est une solution sans serveur qui vous permet d'écrire moins de code, de maintenir moins d'infrastructure et d'économiser sur les coûts.
Service Bus Azure
Le bus de services Azure est un broker de messages d'entreprise entièrement géré avec des files d'attente et des sujets de publication-abonnement.
Moniteur Azure
Azure Monitor fournit des mesures et des journaux d'infrastructure de base pour la plupart des services Azure. Les journaux de diagnostic Azure sont émis par une ressource et fournissent des données riches et fréquentes sur le fonctionnement de cette ressource. Azure Data Factory (ADF) peut écrire des journaux de diagnostic dans Azure Monitor.
Azure DevOps (CICD)
Azure Data Factory s'intègre à GitHub et à Azure DevOps Git pour permettre le contrôle des sources, la gestion des versions et l'intégration continue et le déploiement continu. Avec le contrôle des sources, les développeurs peuvent collaborer, suivre et enregistrer leurs modifications dans une branche de leur choix (dans ce cas, il s'agit d'une branche DEV). Ces modifications seront fusionnées dans la branche principale et déployées dans les environnements de niveau supérieur (QA, UAT, Prod), où elles seront également testées et validées.
Azure Active Directory
La plate-forme Big Data sur les services Azure peut s'intégrer aux services Azure Active Directory existants pour fournir un contrôle de sécurité affiné. Cela permet à l'entreprise de réutiliser le processus d'authentification unique existant pour accéder aux données et aux services sur le cloud Azure.
ML Azure
Azure ML est un environnement de développement intégré basé sur une interface graphique pour la construction et la mise en œuvre du workflow d'apprentissage automatique sur Azure.
Power BI
Power BI est la suite d'outils d'analyse commerciale de Microsoft conçus pour aider les entreprises à visualiser les données, à partager des informations et à prendre des décisions éclairées. Il permet aux utilisateurs de se connecter à un large éventail de sources de données, de créer des tableaux de bord et des rapports interactifs, et de collaborer entre les équipes. Power BI fait partie de la plateforme Microsoft Power et s'intègre de manière transparente avec d'autres produits Microsoft tels que Excel, Teams et les services Azure.

Principaux composants de Power BI :
- Power BI Service : plate-forme cloud sur laquelle les utilisateurs peuvent partager, publier et collaborer sur des rapports et des tableaux de bord pour permettre la surveillance et le partage des données en temps réel entre les organisations.
- Power BI Mobile : applications mobiles pour appareils iOS, Android et Windows permettant d'accéder aux tableaux de bord et aux rapports en déplacement.
- Power BI Embedded : service qui permet aux développeurs d'intégrer des visuels et des analyses Power BI dans des applications, des portails ou des sites Web personnalisés.
Serveur SQL Azure
Azure SQL Server est un service de base de données relationnelle basé sur le cloud fourni par Microsoft Azure. Il fait partie de la famille Azure SQL et offre un environnement de plateforme en tant que service (PaaS) entièrement géré pour l'hébergement et la gestion des bases de données SQL Server dans le cloud. Azure SQL Server est hautement évolutif, sécurisé et fournit des fonctionnalités pour la haute disponibilité, les sauvegardes automatisées et la récupération après sinistre.
Azure PostgreSQL
Azure Database for PostgreSQL est un service de base de données relationnelle géré fourni par Microsoft Azure. Il est conçu pour simplifier le déploiement, la mise à l'échelle et la gestion des bases de données PostgreSQL dans le cloud, tout en offrant une haute disponibilité, une sécurité et une évolutivité. Azure Database for PostgreSQL permet aux développeurs de se concentrer sur la création d'applications sans se soucier de la gestion de l'infrastructure.
Azure Cosmos
Azure Cosmos DB est un service de base de données multimodèle distribué dans le monde entier fourni par Microsoft Azure. Il est conçu pour créer des applications hautement réactives, évolutives et disponibles dans le monde entier. Cosmos DB prend en charge plusieurs modèles de données et API, ce qui en fait un choix polyvalent pour divers scénarios d'application.
Stockage BLOB Azure
Azure Blob Storage est la solution de stockage d'objets de Microsoft Azure pour le cloud, conçue pour stocker de grandes quantités de données non structurées. Il est hautement évolutif, sécurisé et rentable, ce qui le rend idéal pour divers cas d'utilisation, y compris le développement d'applications, l'archivage de données et le stockage multimédia.
Delta Lake
Delta Lake est une couche de stockage open source qui apporte la fiabilité aux lacs de données. Il est conçu pour fournir des transactions ACID (atomicité, cohérence, isolation, durabilité), une gestion évolutive des métadonnées et unifie le traitement des données en continu et par lots. Lorsqu'il est intégré à Azure Data Lake Service, Delta Lake améliore les capacités des services de stockage et d'analyse de données d'Azure.

Azure Data Lake Storage

Azure Data Lake Storage (ADLS) est un service de stockage de données hautement évolutif et sécurisé optimisé pour l'analyse du Big Data. Il combine l'évolutivité du stockage d'objets avec les fonctionnalités de performances et de sécurité d'un système de fichiers hiérarchique, ce qui le rend idéal pour gérer des données à grande échelle et permettre des analyses avancées et le machine learning.

Comparaison avec Azure Blob Storage

Fonctionnalité	Azure Data Lake Storage	Stockage Blob Azure
Cas d'emploi	Analyse Big Data, données hiérarchiques	Stockage d'objets à usage général
Espace de noms	Hiérarchique (de type système de fichiers)	Plat (pas de structure de répertoires)
Intégration	Optimisé pour les structures Big Data	Utilisation à usage général et stockage d'applications
Contrôle d'accès	ACL de niveau fichier et RBAC	Jetons RBAC et SAS

Recommandations

Utilisez les recommandations suivantes comme point de départ pour déployer un pipeline d'analyse de données sur Microsoft Azure à l'aide d'Oracle Database@Azure. Vos exigences peuvent être différentes de celles décrites ici.

Assurez-vous que vous avez accès à un abonnement et à un annuaire Azure.
Assurez-vous que vous avez accès à une location Oracle Cloud Infrastructure (OCI).
Assurez-vous que vous disposez d'une liaison multicloud Oracle Database@Azure active entre Azure et OCI (cette connexion est créée par défaut lorsque vous provisionnez Oracle Database@Azure et est gérée par Oracle).
Assurez-vous que des blocs CIDR ne se chevauchent pas entre n'importe quel réseau cloud virtuel Azure VNets et OCI.
Assurez-vous que vous disposez de la limite de service Oracle Exadata Database Service ou Oracle Autonomous Database Serverless adéquate avant le provisionnement.

Points à prendre en compte

Lorsque vous déployez un pipeline d'analyse de données sur Microsoft Azure à l'aide d'Oracle Database@Azure, tenez compte des points suivants.

Récupération après sinistre
La récupération après sinistre n'est pas représentée dans cette architecture et relève de la responsabilité du client.
Configuration réseau pour Oracle Database@Azure
- Environnement Azure : utilise un réseau virtuel Azure (VNet) pour la mise en réseau et crée des cartes d'interface réseau virtuelles (VNIC) dans un sous-réseau délégué pré-créé.
- Environnement OCI : Oracle Database@Azure se connecte à un sous-réseau client au sein d'un réseau cloud virtuel (VCN) Oracle Cloud Infrastructure (OCI).
Connectivité client
Cette configuration réseau permet la connectivité client à partir des ressources Azure.
Fonctions de réseau Oracle Autonomous Database Serverless
- Utilisez un élément VNet avec 1 sous-réseau de base de données dans Azure. Utilisez un sous-réseau /27, mais prévoyez une croissance future planifiée.
- Créez et déléguez le sous-réseau de base de données à Oracle Database@Azure avant de déployer Oracle Autonomous Database Serverless.
- Réutilisez (ou partagez) le sous-réseau délégué avec des bases de données supplémentaires.
Azure ExpressRoute
Le coût d'Azure ExpressRoute varie d'une région à l'autre. Azure dispose de plusieurs SKU disponibles pour un routage express. Oracle recommande d'utiliser le paramètre Local, car il ne comporte pas de frais d'entrée ou de sortie distincts et commence à une bande passante minimale de 1 Gbit/s. Les configurations Standard et Premium offrent une bande passante inférieure, mais encourent des frais de sortie distincts dans une configuration mesurée.
Oracle Autonomous Database Serverless
- Intégration
  Oracle Autonomous Database dispose de services d'intégration intégrés pour plus de 100 applications, bases de données et banques d'objets. Utilisez l'interface utilisateur graphique de Data Studio pour concevoir des transformations de données en vue de l'intégration de données à Autonomous Database.
- Analytics
  Oracle Autonomous Database dispose de services d'analyse intégrés qui vous permettent d'appliquer une gamme d'analyses (graphiques, spatiales, machine learning et IA), directement à vos données, réduisant ainsi la latence analytique pour fournir rapidement des informations exploitables.
- Coût
  Le provisionnement et les fonctions de gestion de base pour une instance Oracle Autonomous Database Serverless sont effectués à partir de la page Oracle Database@Azure. Des fonctions de gestion supplémentaires sont disponibles dans le portail Oracle Cloud Infrastructure (OCI) disponible à l'aide du lien vers l'instance Autonomous Database spécifique à partir de la page Oracle Database@Azure.
  Contrôlez l'utilisation des ressources à l'aide des options de configuration suivantes :
  - Le nombre d'ECPU permet de définir le nombre d'ECPU de 2 à 512.
  - Le redimensionnement automatique de Compute vous permet de redimensionner automatiquement son allocation de calcul jusqu'à 512. Elle est sélectionnée par défaut.
  - Le stockage permet de définir l'allocation de stockage de 1 To à 383 To ou de 20 Go à 393216 Go.
  - La taille de l'unité de stockage vous permet de déterminer si le stockage est alloué en Go ou en To.
  - Le redimensionnement automatique du stockage vous permet de redimensionner automatiquement son allocation de stockage jusqu'à 383 To ou 393216 Go. Elle n'est pas sélectionnée par défaut.
- Performances
  - La haute disponibilité est fournie pour Oracle Autonomous Database Serverless.
  - Vérifiez et mesurez la latence du réseau dans le cadre du test des performances des applications.
  - Prenons l'affinité de région. La latence réseau entre les applications et les bases de données hébergées dans différents centres de données cloud doit être inférieure à 10 ms. Nous vous recommandons de sélectionner les régions d'application et de base de données à proximité pour obtenir des performances optimales de bout en bout.
- Disponibilité
  Oracle Autonomous Database Serverless disponible dans plusieurs régions Microsoft Azure.
  
  Reportez-vous au lien Contrat de licence de service (SLA) dans la section Explorer davantage.
Oracle Exadata Database Service on Dedicated Infrastructure
- Coût
  - L'infrastructure déployée a un coût constant et peut être arrêtée à tout moment (un minimum de 48 heures est facturé).
  - Les coûts d'exécution sont déterminés par le nombre d'OCPU affectées à la machine virtuelle, qui est évolutive.
  - Les options de licence incluent à la fois Bring Your Own License (BYOL) et Licence Included.
  - Les récompenses Oracle Support Rewards sont disponibles pour BYOL
- Performances
  - Les clients bénéficient des mêmes performances que celles de tout autre déploiement Exadata (Oracle Exadata Database Service, Oracle Exadata Database Service on Cloud@Customer ou sur site).
  - La latence (aller-retour aller-retour) d'une machine virtuelle Azure de tout type vers le service Oracle Database@Azure est uniquement la province des services cloud Azure. L'objectif est de 5 ms, mais peut varier en raison de considérations de réseau Azure.
  - Oracle ne facture aucun frais de sortie de données pour Oracle Database@Azure, mais en fonction de l'architecture Azure, Microsoft peut facturer des frais de déplacement de données.
- Disponibilité
  Les déploiements Exadata ont un objectif de niveau de service (SLO) de 99,99 %. Des chiffres plus élevés peuvent être atteints à l'aide d'une architecture de disponibilité maximale (MAA), qui peut inclure la configuration d'un site de récupération après sinistre et l'utilisation de fonctionnalités de sauvegarde et de restauration telles qu'Oracle Database Zero Data Loss Autonomous Recovery Service.

En savoir plus

En savoir plus sur les fonctionnalités de cette architecture :

En savoir plus sur les architectures associées :

Accusés de réception

Auteurs : Amrita Mukherjee, CCSP
Contributeurs : : Wei Han, Roger Simon, Tammy Bednar, Martin Gubar, Roy Rodan, Robert Lies