Déployer un lac de données tirant parti de Power BI sur Oracle Database@Azure

De nombreuses entreprises tirent parti de Microsoft Power BI avec des lacs de données sur Microsoft Azure pour obtenir des informations exploitables.

Vous pouvez étendre ces capacités à l'aide d'une architecture Medallion qui inclut Azure Data Factory, Azure Data Lake Storage, Azure Compute, Oracle Database@Azure (une instance Oracle Autonomous Database entièrement gérée ou une instance Oracle Exadata Database Service cogérée) et Power BI pour répondre à plusieurs défis de données clés auxquels les clients font face :

Silos et intégration des données : Azure Data Factory ingère des données provenant de diverses sources dans un lac de données unifié, décompose les silos et fournit une source unique de vérité.
Qualité et cohérence des données : Autonomous Data Warehouse dans la couche de curation garantit des données propres, cohérentes et de haute qualité grâce à la déduplication et aux règles de qualité, réduisant les erreurs et améliorant la prise de décision.
Extensibilité et performance : Les ressources de calcul évolutives d'Azure et l'architecture sans serveur d'Autonomous Data Warehouse ou d'Oracle Exadata Database Service gèrent efficacement le traitement de données à grande échelle, tout en conservant une performance optimale à mesure que les volumes de données et l'adoption par les utilisateurs (concurrence) augmentent.
Transformations complexes : Azure Compute et Autonomous Data Warehouse ou Oracle Exadata Database Service effectuent des transformations et des analyses complexes de manière efficace, réduisant le temps de traitement et se concentrant sur les informations.
Gestion des coûts : Les modèles sans serveur et de paiement à l'utilisation pour les services Azure et Autonomous Data Warehouse ou Oracle Exadata Database Service optimisent les coûts, en vous assurant de ne payer que pour ce que vous utilisez.
Gouvernance et conformité des données : Des couches de gestion de données structurées facilitent une meilleure gouvernance, traçabilité et conformité réglementaire.
Analyse intégrée : les utilisateurs peuvent appliquer des analyses directement à leurs données à l'aide de fonctions intégrées telles que l'intelligence artificielle, l'apprentissage automatique, les graphiques, l'espace et l'analyse de texte.

Les cas d'utilisation types sont les suivants :

Analyse du commerce de détail : intègre les données des ventes en ligne, des transactions en magasin et des commentaires des clients, optimisant ainsi les stratégies de stock et de marketing.
Services financiers : Analyse les données de transaction pour la détection des fraudes et la conformité réglementaire, en atténuant les risques.
Analyse des soins de santé : intègre les données patient des DSN, des résultats de laboratoire et des appareils vestimentaires, améliorant ainsi les soins aux patients et la gestion de la santé.

Cette architecture permet aux entreprises clientes de tous les secteurs d'activité d'exploiter efficacement les données pour permettre aux utilisateurs professionnels de prendre des décisions éclairées afin d'obtenir de meilleurs résultats.

Architecture logique

Le lac de données d'analyse peut ingérer des données provenant de plusieurs sources et peut fournir des informations d'affaires à l'aide de Power BI s'exécutant sur Microsoft Azure.

Sources de données : Le lac de données analytiques peut ingérer des données provenant de plusieurs sources. Azure Data Factory peut ingérer des données à partir de Microsoft SQL Server et Azure Blob Storage. Oracle Database@Azure peut ingérer des données à partir d'Oracle Cloud ERP, d'Oracle Cloud Infrastructure Object Storage, d'Azure Cosmos Database, d'Azure SQL Database, de divers types de données de stockage de table (Azure, PostgresSQL, Azure MariaDB) et d'autres types de bases de données relationnelles sur place.
Niveau de données : Oracle Database@Azure ingère des données sources à partir d'Azure Data Lake Storage en conjonction avec Azure Data Factory.
Niveau de consommation : Oracle Database@Azure fournit des informations sur Microsoft Power BI s'exécutant sur Microsoft Azure.

Le diagramme suivant illustre l'architecture fonctionnelle :

Description de data-lake-db-azure-process.png

Description de l'illustration data-lake-db-azure-process.png

data-lake-db-azure-process-oracle.zip

Architecture Médaillon

Cette section explique comment déployer Oracle Database@Azure en tant qu'entrepôt de données dans l'architecture de médaillon Azure.

L'architecture Medallion est un cadre de gestion de données qui structure le traitement des données dans un entrepôt avec lac de données en étapes distinctes (bronze, argent et or), représentant les différentes étapes du traitement des données :

Phase de bronze : Les données provenant de diverses sources sont ingérées, validées et organisées.
Phase d'argent : Les données sont stockées et traitées pour l'analyse et la production de rapports.
Phase Gold : Les données affinées sont fournies pour analyse et production de rapports.

Le diagramme suivant illustre l'architecture :

Description de data-lake-db-azure-medallion.png

Description de l'illustration data-lake-db-azure-medallion.png

data-lake-db-azure-medallion-oracle.zip

Les étapes du médaillon sont divisées en zones de déploiement suivantes :

Cadre d'ingestion : Ingère des données provenant de diverses sources de données à l'aide d'Azure Data Factory. Les données brutes sont stockées dans Azure Data Lake Storage Gen 2 et Delta Lake. Ce cadre assure la cohérence et la précision des données entre les systèmes source et de puits. Cette structure constitue un ensemble robuste de scripts pour assurer la qualité en utilisant des mécanismes d'audit, d'équilibre et de contrôle sur toutes les plates-formes.
Validation : Les données brutes sont ingérées dans Oracle Autonomous Data Warehouse sans serveur ou Oracle Exadata Database Service pour la déduplication et la vérification de la qualité des données. Ce flux de travail effectue le masquage de base des informations d'identification personnelle et des informations de santé protégées, ainsi que la validation des fichiers bruts au moyen d'un cadre basé sur des règles pour effectuer des vérifications de schéma. Le cadre de validation peut être implémenté à l'aide d'Azure Data Factory.
Flux de travail de rejet : Tout enregistrement rejeté lors de l'étape d'ingestion en raison d'erreurs de validation ou d'autres erreurs de traitement est inscrit dans une table intermédiaire sur un chemin de stockage Azure Data Lake distinct. Les notifications automatiques par e-mail à l'aide de l'application Logic sont envoyées à l'équipe de support en fonction des contrats de licence logiciels (SLA) définis. Les données normalisées restent dans Oracle Autonomous Data Warehouse sans serveur ou dans Oracle Exadata Database Service.
Orchestration : Un système de planification gère les tâches de traitement de données, la planification et les dépendances de tâches. Azure Data Factory peut être utilisé pour l'orchestration des tâches d'ETC. L'étape d'orchestration comprend Oracle Autonomous Data Warehouse Serverless ou Oracle Exadata Database Service, Delta Lake et Azure Data Lake Storage Gen 2.
Reporting/Analytics : L'étape de reporting comprend Power BI et des services de données tels que les flux externes et la monétisation des données.

L'architecture comporte les composants d'infrastructure suivants :

Région
Une région Azure est une zone géographique dans laquelle résident un ou plusieurs centres de données Azure physiques, appelés zones de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (à travers les pays ou même les continents).

Les régions Azure et OCI sont des zones géographiques localisées. Pour Oracle Database@Azure, une région Azure est connectée à une région OCI, avec des zones de disponibilité dans Azure connectées aux domaines de disponibilité (AD) dans OCI. Des paires de régions Azure et OCI sont sélectionnées pour réduire la distance et la latence.
Zone de disponibilité
Une zone de disponibilité est un centre de données physiquement distinct au sein d'une région conçue pour être disponible et tolérante aux pannes. Les zones de disponibilité sont suffisamment proches pour avoir des connexions à faible latence aux autres zones de disponibilité.
Réseau virtuel (VNet) et sous-réseau
Un VNet est un réseau virtuel que vous définissez dans Azure. Une VNet peut avoir plusieurs sous-réseaux de blocs CIDR qui ne se chevauchent pas et que vous pouvez ajouter après avoir créé VNet. Vous pouvez segmenter un VNet en sous-réseaux, dont la portée peut concerner une région ou des zones de disponibilité. Chaque sous-réseau se compose d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans VNet. Utilisez VNet pour isoler vos ressources Azure de manière logique au niveau du réseau.
Azure ExpressRoute
Azure ExpressRoute vous permet de configurer une connexion privée entre un VNet et un autre réseau, tel que votre réseau sur place ou un réseau dans un autre fournisseur de nuage. ExpressRoute est une alternative plus fiable et plus rapide aux connexions Internet classiques, car le trafic sur ExpressRoute ne passe pas par l'Internet public.
Passerelle de réseau virtuel
Une passerelle de réseau virtuel permet le trafic entre Azure VNet et un réseau hors d'Azure, soit sur le réseau Internet public, soit à l'aide de ExpressRoute, selon le type de passerelle que vous spécifiez.
Table de routage
Les tables de routage dirigent le trafic entre les sous-réseaux Azure, VNets et les réseaux en dehors d'Azure.
Groupe de sécurité de réseau
Un groupe de sécurité de réseau contient des règles pour contrôler le trafic réseau entre les ressources Azure au sein d'un VNet. Chaque règle spécifie la source ou la destination, le port, le protocole et la direction du trafic réseau autorisé ou refusé.
RPV site à site
Fournit un RPV IPSec site à site entre votre réseau sur place et votre VCN, au moyen d'une connexion sécurisée et chiffrée.

L'architecture comporte les produits et services Oracle suivants :

Oracle Database@Azure
Oracle Database@Azure is the Oracle Database service (Oracle Exadata Database Service on Dedicated Infrastructure and Oracle Autonomous Database Serverless) running on Oracle Cloud Infrastructure (OCI), deployed in Microsoft Azure data centers. Le service offre des fonctions et une parité de prix avec OCI. Achetez le service sur Azure Marketplace.

Oracle Database@Azure intègre Oracle Exadata Database Service, Oracle Real Application Clusters (Oracle RAC) et les technologies Oracle Data Guard dans la plate-forme Azure. Les utilisateurs gèrent le service sur la console Azure et avec les outils d'automatisation Azure. Le service est déployé dans le réseau virtuel Azure (VNet) et intégré au système de gestion des identités et des accès Azure. Les mesures génériques et les journaux de vérification d'OCI et d'Oracle Database sont disponibles de manière native dans Azure. Le service exige que les utilisateurs disposent d'un abonnement Azure et d'une location OCI.

Autonomous Database repose sur l'infrastructure Oracle Exadata, est auto-gérée, auto-sécurisée et auto-réparée, ce qui contribue à éliminer la gestion de base de données manuelle et les erreurs humaines. Autonomous Database permet le développement d'applications évolutives alimentées par intelligence artificielle avec toutes les données à l'aide de capacités d'IA intégrées à l'aide de votre choix de grands modèles de langage (LLM) et d'un emplacement de déploiement.

Oracle Exadata Database Service et Oracle Autonomous Database Serverless sont facilement provisionnés au moyen du portail Azure natif, ce qui permet d'accéder à l'écosystème Azure plus large.
Service de stockage d'objets pour Oracle Cloud Infrastructure
Le service Oracle Cloud Infrastructure Object Storage stocke le contenu en tant qu'objets dans des conteneurs de stockage appelés seaux. Chaque objet comprend les données et les métadonnées descriptives pour faciliter l'extraction et la gestion.

L'architecture comporte les produits et services Microsoft suivants :

Usine de données Azure
Azure Data Factory (ADF) est un service d'intégration de données en nuage fourni par Microsoft Azure. Il est conçu pour créer, programmer et orchestrer des flux de travail de données à grande échelle. ADF permet aux organisations d'ingérer, de transformer et de déplacer des données de diverses sources vers des destinations, ce qui leur permet de prendre des décisions et d'analyser les données.
Fonctions Azure
Azure Functions est une solution sans serveur qui vous permet d'écrire moins de code, de maintenir moins d'infrastructure et d'économiser sur les coûts.
Bus de service Azure
Azure service bus est un courtier de messages d'entreprise entièrement géré avec des files d'attente et des rubriques de publication-abonnement.
Moniteur Azure
Azure Monitor fournit des mesures et des journaux d'infrastructure de base pour la plupart des services Azure. Les journaux de diagnostic Azure sont émis par une ressource et fournissent des données riches et fréquentes sur le fonctionnement de cette ressource. Azure Data Factory (ADF) peut écrire des journaux de diagnostic dans le moniteur Azure.
Azure DevOps (CICD)
Azure Data Factory s'intègre à la fois à GitHub et à Azure DevOps Git pour activer le contrôle de source, la gestion des versions et l'intégration et le développement en continu. Avec le contrôle de la source, les développeurs peuvent collaborer, suivre et enregistrer leurs modifications dans une branche de leur choix (dans ce cas, il s'agira d'une branche DEV). Ces modifications seront fusionnées dans la branche principale et déployées dans les environnements de niveau supérieur (QA, UAT, Prod), où elles seront également testées et validées.
Azure Active Directory
La plate-forme de mégadonnées sur les services Azure peut s'intégrer aux services Azure Active Directory existants pour assurer un contrôle précis de la sécurité. Cela permet à l'organisation de réutiliser le processus d'authentification unique existant pour accéder aux données et aux services sur le nuage Azure.
ML Azure
Azure ML est un environnement de développement intégré basé sur l'interface graphique pour la construction et la mise en œuvre du flux de travail d'apprentissage automatique sur Azure.
Power BI
Power BI est la suite d'outils d'analyse d'affaires de Microsoft conçus pour aider les organisations à visualiser les données, à partager des informations et à prendre des décisions éclairées. Il permet aux utilisateurs de se connecter à un large éventail de sources de données, de créer des tableaux de bord et des rapports interactifs et de collaborer entre les équipes. Power BI fait partie de Microsoft Power Platform et s'intègre parfaitement à d'autres produits Microsoft tels qu'Excel, Teams et les services Azure.

Composants clés de Power BI :
- Power BI Service : Plate-forme en nuage où les utilisateurs peuvent partager, publier et collaborer sur des rapports et des tableaux de bord afin de permettre la surveillance et le partage de données en temps réel entre les organisations.
- Power BI Mobile : Applications mobiles pour iOS, Android et Windows pour accéder aux tableaux de bord et aux rapports, où que vous soyez.
- Power BI Embedded : Service qui permet aux développeurs d'intégrer des éléments visuels et des analyses Power BI dans des applications, portails ou sites Web personnalisés.
Serveur SQL Azure
Azure SQL Server est un service de base de données relationnelle en nuage fourni par Microsoft Azure. Il fait partie de la famille Azure SQL et offre une plate-forme entièrement gérée en tant que service (PaaS) pour l'hébergement et la gestion des bases de données SQL Server dans le nuage. Azure SQL Server est hautement évolutif, sécurisé et fournit des fonctionnalités de haute disponibilité, de sauvegardes automatisées et de récupération après sinistre.
PostgreSQL sur Azure
Azure Database for PostgreSQL est un service de base de données relationnelle géré fourni par Microsoft Azure. Il est conçu pour simplifier le déploiement, l'évolutivité et la gestion des bases de données PostgreSQL dans le nuage, tout en offrant une haute disponibilité, une sécurité et une évolutivité. Azure Database for PostgreSQL permet aux développeurs de se concentrer sur la création d'applications sans se soucier de la gestion de l'infrastructure.
Cosmos d'Azure
Azure Cosmos DB est un service de base de données multimodèle distribué à l'échelle mondiale fourni par Microsoft Azure. Il est conçu pour créer des applications hautement réactives, évolutives et disponibles dans le monde entier. Cosmos DB prend en charge plusieurs modèles de données et API, ce qui en fait un choix polyvalent pour divers scénarios d'application.
Azure BLOB Storage
Azure Blob Storage est la solution de stockage d'objets de Microsoft Azure pour le cloud, conçue pour stocker de grandes quantités de données non structurées. Il est hautement évolutif, sécurisé et rentable. Il est donc idéal pour divers cas d'utilisation, notamment le développement d'applications, l'archivage de données et le stockage multimédia.
Delta Lake
Delta Lake est une couche de stockage à code source libre qui confère de la fiabilité aux lacs de données. Il est conçu pour fournir des transactions ACID (Atomicity, Consistency, Isolation, Durability), le traitement évolutif des métadonnées et unifie le streaming et le traitement des données par lots. Lorsqu'il est intégré à Azure Data Lake Service, Delta Lake améliore les capacités des services de stockage et d'analyse de données d'Azure.

Azure Data Lake Storage

Azure Data Lake Storage (ADLS) est un service de stockage de données hautement évolutif et sécurisé optimisé pour l'analyse de mégadonnées. Il combine l'évolutivité du stockage d'objets avec les fonctionnalités de performance et de sécurité d'un système de fichiers hiérarchisé, ce qui le rend idéal pour gérer des données à grande échelle et permettre des analyses avancées et l'apprentissage automatique.

Comparaison avec Azure Blob Storage

Fonction	Azure Data Lake Storage	Azure Blob Storage
Cas d'utilisation	Analyse de mégadonnées, données hiérarchiques	Stockage d'objets à usage général
Espace de noms	Hiérarchique (type système de fichier)	Fixe (aucune structure de répertoires)
Intégration	Optimisé pour les cadres de mégadonnées	Utilisation à usage général et stockage d'applications
Contrôle de l'accès	Listes de contrôle d'accès et contrôle d'accès basé sur des fichiers	Jetons RBAC et SAS

Recommandations

Utilisez les recommandations suivantes comme point de départ pour déployer un pipeline d'analyse de données sur Microsoft Azure à l'aide d'Oracle Database@Azure. Vos exigences peuvent différer de celles décrites ici.

Assurez-vous d'avoir accès à un abonnement et à un répertoire Azure.
Assurez-vous d'avoir accès à une location Oracle Cloud Infrastructure (OCI).
Assurez-vous d'avoir un lien multinuage Oracle Database@Azure actif entre Azure et OCI (cette connexion est créée par défaut lorsque vous provisionnez Oracle Database@Azure et qu'elle est gérée par Oracle).
Assurez-vous que vous disposez de blocs CIDR sans chevauchement entre tous les réseaux en nuage virtuels Azure VNets et OCI.
Assurez-vous d'avoir une limite de service Oracle Exadata Database Service ou Oracle Autonomous Database Serverless adéquate avant le provisionnement.

Points à considérer

Lorsque vous déployez un pipeline d'analyse de données sur Microsoft Azure à l'aide d'Oracle Database@Azure, tenez compte des éléments suivants.

Reprise après sinistre
La reprise après sinistre n'est pas représentée dans cette architecture et relève de la responsabilité du client.
Configuration du service de réseau pour Oracle Database@Azure
- Environnement Azure : Utilise un réseau virtuel Azure (VNet) pour la mise en réseau et crée des cartes d'interface réseau virtuelles (vNIC) dans un sous-réseau délégué pré-créé.
- Environnement OCI : Oracle Database@Azure se connecte à un sous-réseau client dans un réseau en nuage virtuel (VCN) Oracle Cloud Infrastructure.
Connectivité client
Cette configuration réseau permet la connectivité client à partir des ressources Azure.
Service de réseau Oracle Autonomous Database Serverless
- Utilisez un VNet avec 1 sous-réseau de base de données dans Azure. Utilisez un sous-réseau /27, mais permettez une croissance future planifiée.
- Créez et déléguez le sous-réseau de base de données à Oracle Database@Azure avant de déployer Oracle Autonomous Database Serverless.
- Réutilisez (ou partagez) le sous-réseau délégué avec des bases de données supplémentaires.
Azure ExpressRoute
Le coût ExpressRoute d'Azure varie d'une région à l'autre. Azure a plus d'une UDS disponible pour une route express. Oracle recommande d'utiliser le paramètre Local, car il n'a pas de frais de trafic entrant ou sortant distincts, et il commence à la bande passante minimale de 1 Gbit/s. Les configurations Standard et Premium offrent une bande passante inférieure, mais entraînent des frais de sortie distincts dans une configuration facturée à l'usage.
Oracle Autonomous Database Serverless
- Intégration
  Oracle Autonomous Database offre des services d'intégration intégrés pour plus de 100 applications, bases de données et magasins d'objets. Utilisez l'interface utilisateur graphique de Data Studio pour concevoir des transformations de données pour l'intégration des données avec Autonomous Database.
- Analyse
  Oracle Autonomous Database offre des services d'analyse intégrés qui vous permettent d'appliquer une gamme d'analyses (graphiques, spatiales, d'apprentissage automatique et d'intelligence artificielle), directement à vos données, réduisant ainsi la latence analytique pour fournir rapidement des informations exploitables.
- Coût
  Le provisionnement et les fonctions de gestion de base pour une instance Oracle Autonomous Database Serverless sont effectués à partir de la page Oracle Database@Azure. Des fonctions de gestion supplémentaires sont disponibles dans le portail Oracle Cloud Infrastructure (OCI) disponible à l'aide du lien vers une base de données Autonomous Database spécifique à partir de la page Oracle Database@Azure.
  Contrôlez l'utilisation des ressources à l'aide des options de configuration suivantes :
  - Le nombre d'ECPU permet de régler le nombre d'ECPU de 2 à 512.
  - L'ajustement automatique du service de calcul vous permet d'ajuster automatiquement son affectation de calcul jusqu'à 512. Par défaut, cette case est cochée.
  - Le service de stockage permet de régler l'affectation du stockage de 1 To à 383 To ou de 20 Go à 393216 Go.
  - La taille de l'unité de stockage vous permet de sélectionner si votre stockage est affecté en Go ou en To.
  - L'ajustement automatique du stockage vous permet d'augmenter automatiquement l'affectation de stockage de 383 To ou 393216 Go. Par défaut, cette option n'est pas sélectionnée
- Performance
  - La haute disponibilité est fournie pour Oracle Autonomous Database Serverless.
  - Vérifiez et mesurez la latence réseau dans le cadre des tests de performance des applications.
  - Considérons l'affinité régionale. La latence réseau entre les applications et les bases de données hébergées dans différents centres de données en nuage doit être inférieure à 10 ms. Nous vous recommandons de sélectionner les régions d'application et de base de données proches pour obtenir une performance optimale de bout en bout.
- Disponibilité
  Oracle Autonomous Database Serverless disponible dans plusieurs régions Microsoft Azure.
  
  Consultez le lien SLA (Service License Agreement) dans la section Explore More.
Service Oracle Exadata Database sur une infrastructure dédiée
- Coût
  - L'infrastructure déployée a un coût constant et peut être arrêtée à tout moment (un minimum de 48 heures est facturé).
  - Les coûts d'exécution sont déterminés par le nombre d'OCPU affectées à la machine virtuelle qui est évolutive.
  - Les options de licence incluent " Utiliser sa propre licence (BYOL) " et " Licence incluse ".
  - Oracle Support Rewards est disponible pour BYOL
- Performance
  - Les clients bénéficient de la même performance que pour tout autre déploiement Exadata (Oracle Exadata Database Service, Oracle Exadata Database Service on Cloud@Customer ou sur place).
  - La latence (aller-retour) entre une machine virtuelle Azure de tout type et le service Oracle Database@Azure est uniquement la province des services en nuage Azure. L'objectif est de .5ms, mais peut varier en raison des considérations de réseau Azure.
  - Oracle ne facture aucuns frais de trafic sortant de données pour Oracle Database@Azure, mais, selon l'architecture Azure, Microsoft peut facturer des frais de déplacement de données.
- Disponibilité
  Les déploiements Exadata ont un objectif de niveau de service (SLO) de 99,99 %. Des nombres plus élevés peuvent être atteints en utilisant une architecture de disponibilité maximale (MAA) qui peut inclure la configuration d'un site de récupération après sinistre et l'utilisation de capacités de sauvegarde et de restauration telles que Oracle Database Zero Data Loss Autonomous Recovery Service.

Informations complémentaires

En savoir plus sur les caractéristiques de cette architecture :

En savoir plus sur les architectures connexes :

Remerciements

Auteurs : Amrita Mukherjee, CCSP
Contributeurs : : Wei Han, Roger Simon, Tammy Bednar, Martin Gubar, Roy Rodan, Robert Lies