Plateforme de données - Plateforme de données décentralisée
Utilisez un entrepôt avec lac de données pour recueillir et analyser des données d'événement et de diffusion en continu à partir des appareils en temps réel et les mettre en corrélation avec un large éventail de ressources de données d'entreprise pour obtenir les renseignements que vous voulez.
Comment mieux soutenir et responsabiliser les différentes équipes de votre organisation, telles que le marketing, les finances ou la logistique, en ayant la flexibilité de travailler avec des données propres à leur domaine tout en permettant un partage et une consommation de données interdomaines sécurisés sans dupliquer les données et en créant des silos de données?
Adoptez une architecture de données axée sur le domaine qui fournit aux équipes et aux services de l'ensemble de l'organisation l'agilité et la flexibilité nécessaires pour utiliser efficacement leurs données et développer les produits de données essentiels à leur entreprise.
Cette architecture de référence positionne la solution technologique dans le contexte global de l'entreprise, où les intentions stratégiques stimulent la création de résultats stratégiques mesurables. Ces résultats génèrent de nouvelles intentions stratégiques, offrant ainsi des améliorations commerciales continues et axées sur les données.
Chaque domaine suit indépendamment le processus de haut niveau présenté ci-dessus pour créer ses produits de données de domaine. Les architectures de données basées sur le domaine offrent la flexibilité dont les organisations ont besoin en évitant de se fier à un point de contention unique, comme une plate-forme de données entièrement centralisée et une équipe informatique, et en favorisant l'innovation agile pour produire des produits de données fiables dans chaque domaine.
décentralisé-données-plateforme-aperçu-oracle.zip
L'objectif de chaque domaine est d'acquérir des données liées au domaine, puis de produire des produits de données consommés par d'autres domaines ou consommateurs de données finaux.
Les domaines peuvent être les suivants :
- Aligné sur la source : Sources de données directement à partir de sources de données de domaine pertinentes, telles que les applications d'entreprise, et produit des produits de données consommés par des domaines agrégés ou alignés sur le consommateur. Ces produits de données représentent la source de vérité pour un domaine particulier. Les données sont granulaires, organisées et fondamentales dans les domaines et entre eux.
- Agréger : Consomme et combine des données alignées sur la source, en créant des produits de données agrégées et à valeur ajoutée qui favorisent la réutilisation, réduisent la duplication et comprennent la logique métier fondamentale nécessaire aux domaines alignés sur le consommateur.
- Aligné sur le consommateur : Consomme les données des domaines alignés sur la source et agrégés pour créer des produits de données qui servent des cas d'utilisation spécifiques et répondent aux besoins des consommateurs de données dans un domaine donné.
Les équipes de domaine de données et leurs experts en la matière ont la flexibilité nécessaire pour choisir la technologie nécessaire pour organiser leurs produits de données, réduire la friction et la complexité des processus de sélection de longue durée et réduire le temps de livraison des produits de données.
La technologie choisie est généralement déterminée au niveau de l'entreprise de sorte qu'elle respecte les exigences de sécurité, d'extensibilité, de résilience et de haute disponibilité. Cette architecture suppose que tout service Oracle Cloud Infrastructure (OCI) utilisé avec un entrepôt avec lac de données peut être utilisé par n'importe quel domaine.
Les équipes de domaine de données utilisent souvent l'automatisation pour déployer des archétypes de domaine, ce qui rend les technologies préconfigurées disponibles pour intégrer rapidement de nouveaux domaines tout en assurant la mise en œuvre des exigences au niveau de l'entreprise, telles que la sécurité.
Une fois créés, les produits de données sont ensuite servis à d'autres domaines ou utilisateurs finaux et applications. Les produits de données sont organisés en permanence pour fournir des informations et des informations.
- Jeux de données
- API
- Tableaux de bord
- Streams
- Modèles d'intelligence artificielle et d'apprentissage automatique qui répondent à un besoin particulier
Cette architecture de référence utilise principalement le partage de données comme mécanisme sous-jacent pour fournir et consommer des produits de données entre les domaines.
Oracle Autonomous Data Warehouse permet le partage de données et le partage en direct de données entre des instances Autonomous Data Warehouse ou avec des données avec numéro de version provenant de toute technologie conforme au protocole ouvert Delta Sharing.
Architecture fonctionnelle
Cette architecture représente une plate-forme décentralisée où chaque domaine est un sous-ensemble de la plate-forme de données globale et où chaque domaine peut choisir les technologies et les services utilisés.
L'architecture utilise un entrepôt avec lac de données pour stocker et fournir des données, quelle que soit leur forme. Pour simplifier, l'architecture représentera quelques domaines qui utilisent un sous-ensemble des services d'entrepôt avec lac de données disponibles.
Une plateforme de données décentralisée qui utilise une architecture d'entrepôt avec lac de données offre ce qui suit :
- Architecture d'entrepôt avec lac de données interopérable et modulaire permettant l'ingestion et la conservation de tout type de données dans les domaines de données pour tous les cas d'utilisation
- Souplesse pour chaque domaine de données afin d'utiliser les services Oracle Cloud Infrastructure (OCI) nécessaires pour prendre en charge la création de leurs produits de données
- Organisation de produits de données pouvant être partagés en toute sécurité à l'aide du partage de données, de la diffusion en continu, d'API, de tableaux de bord ou d'applications
- Capacité à créer des produits de données, réduisant les dépendances interdomaines, sauf celles requises pour l'échange de produits de données
- Isolement accru des domaines de données et réduction de la complexité des échanges de données en utilisant les mécanismes et contrats d'échange de données acceptés pour échanger des données entre les domaines
- Gouvernance accrue des données et confiance dans les données, car des experts en la matière (PME) compétents organisent les données et les produits de données pour leurs domaines
- Facilité d'intégration de nouveaux domaines de données à l'aide de l'infrastructure en tant que code (IaC) pour automatiser le déploiement à l'aide de piles Terraform prédéfinies et testées
- L'efficacité des ressources et des coûts, car les équipes de domaine de données ajustent les services spécifiques qu'elles utilisent pour créer des produits de données
- Responsabilisation appropriée des coûts pour chaque domaine de données avec possibilité de contrôle détaillé des coûts dans les domaines spécifiques
Le diagramme suivant illustre l'architecture fonctionnelle. Pour simplifier, seuls quatre domaines de données sont affichés et seules certaines des capacités d'entrepôt avec lac de données pouvant être utilisées par les domaines de données sont affichées.
décentralisé-données-plate-forme-logique-oracle.zip
Étant donné que l'industrie et l'organisation qui déploie une plate-forme de données décentralisée déterminent les domaines de données, cette architecture de référence ne prescrit pas comment les domaines de données doivent être définis. Les domaines de données représentés ne sont qu'un exemple.
L'architecture se concentre sur les divisions logiques suivantes utilisées par tous les domaines :
- Connexion, ingestion et transformation
Se connecte aux sources de données et ingère et affine leurs données pour les utiliser dans chacune des couches de données de l'architecture.
Les domaines de données alignés sur la source extraient des données de sources internes et externes et d'autres domaines consommant leurs produits de données. Les domaines de données agrégés et alignés sur les consommateurs extraient généralement leurs données d'autres produits de données de domaines. Tous les domaines peuvent extraire des données de domaine pertinentes à partir de sources externes.
- Conserver, organiser, créer
Facilite l'accès et la navigation des données pour afficher la vue d'affaires courante. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement sous des formes relationnelles, longitudinales, dimensionnelles ou OLAP simples. Pour les données non relationnelles, cette couche contient un ou plusieurs groupes de données, provenant soit d'un processus analytique, soit des données optimisées pour une tâche analytique spécifique.
Dans cette couche, chaque domaine de données organise les données qu'ils utilisent pour créer et exposer des produits de données. Habituellement, les données sont organisées et organisées en utilisant une architecture de médaillon qui fait la promotion des données du bronze, de l'argent, de l'or, en fonction de sa valeur et de sa qualité.
Les produits de données servent souvent des données qui sont dans la couche d'or ou d'argent. Si le produit de données sert des données granulaires, ces données sont servies à partir de la couche Silver. Si le produit de données sert des données agrégées ou s'il s'agit déjà d'un autre jeu de données augmenté, ces données sont généralement servies à partir de la couche d'or.
- Analyser, apprendre, prédire
Résume la vue d'affaires logique des données pour les consommateurs. Cette abstraction facilite les approches agiles du développement, de la migration vers l'architecture cible et de la fourniture d'une seule couche de production de rapports à partir de plusieurs sources de données.
Chaque domaine de données a généralement ses propres consommateurs de données, tels que les utilisateurs de domaine, les applications ou les systèmes qui consomment des données organisées sous forme de tableaux de bord, d'applications de données, de diffusion en continu ou d'API.
Les domaines de données peuvent servir des produits de données à d'autres domaines de données et dans leur propre domaine afin d'organiser le partage de données entre projets.
L'architecture présente les caractéristiques fonctionnelles suivantes :
- Quatre domaines de données sont représentés. Chaque domaine organise les données propres à ce domaine, crée des produits de données basés sur ces données organisées, puis partage ces produits de données avec d'autres domaines de l'organisation ou des entités externes.
- Les domaines peuvent extraire des données à partir de sources de données internes, de produits de données organisés par d'autres domaines ou de données partagées par des entités externes.
- Les domaines Client et Finances sont des domaines alignés sur la source qui ingèrent et organisent les données des systèmes internes, ont leurs propres utilisateurs et organisent les produits de données pour servir à d'autres domaines.
- Le domaine Risk est un domaine agrégé qui extrait des données des domaines Customer et Finance pour obtenir des profils Customer et des transactions financières augmentées, respectivement. Ces données sont utilisées pour créer et entraîner des modèles de risque et des indicateurs clés de rendement (ICR) d'apprentissage automatique utilisés par les tableaux de bord et partagés avec le domaine Marketing.
- Le domaine Marketing est un domaine aligné sur le consommateur qui extrait exclusivement les profils de client et les données de propension à prendre des risques des domaines Client et Risque. Ce domaine crée des modèles d'apprentissage automatique de segmentation qui déterminent les meilleures offres personnalisées. Ceux-ci sont mis à la disposition des applications internes en utilisant des API d'inférence et les résultats d'inférence par lots sont partagés en tant que produit de données aux partenaires qui exécutent des campagnes sortantes.
- Tous les domaines partagent un catalogue de données commun qui contient des informations sur leurs ressources de données, entités de données et glossaires d'entreprise.
- Chaque équipe de domaine de données et leurs responsables de produits de données tiennent à jour leurs objets de catalogue de données spécifiques. L'isolement de la sécurité est garanti à l'aide des politiques d'Oracle Cloud Infrastructure Identity and Access Management qui définissent l'équipe pouvant gérer les entités de catalogue de données.
- Les entités de catalogue de données communes, telles que les termes du glossaire d'entreprise utilisés dans l'ensemble de l'organisation, sont gérées par un organisme de gouvernance des données composé de tous les responsables de produit de domaine.
- Les produits de données sont marqués dans le catalogue de données de sorte qu'ils puissent faire l'objet d'une recherche, contenir leur propre sémantique et être liés au glossaire d'entreprise.
- Le partage de données est utilisé pour partager des produits de données en direct ou avec contrôle des versions entre les domaines. Le choix d'utiliser des produits de données en direct ou avec contrôle des versions dépend de chaque produit de données et de chaque cas d'utilisation.
Les principaux composants fonctionnels de l'architecture sont les suivants :
- Domaines alignés sur la source : Client et finances
Ces domaines se concentrent sur la conservation des données clients et financières dérivées de données structurées et non structurées.
Le domaine Customer utilise les fonctionnalités suivantes pour créer un produit de données Customer Profiles :
- Ingestion par lots (Oracle Cloud Infrastructure Data Integration) : Ingère des données à partir de CRM, de sites Web et d'applications destinées aux clients.
- Traitement par lots (Oracle Cloud Infrastructure Data Integration, Oracle Cloud Infrastructure Data Flow) : Traite les données structurées et non structurées à l'aide d'ELT à faible code, d'ETC centrés sur le code, ou des deux, pour créer les produits de données Profils de client.
- Service (Oracle Autonomous Data Warehouse) : Organise et fournit des données de profils de client aux domaines de risque et de marketing.
- Stockage en nuage/lac de données (Oracle Cloud Infrastructure Object Storage) : Stocke les documents, contrats ou formulaires de client.
- Visualiser/apprendre (Oracle Analytics Cloud) : sert l'analyse augmentée par les utilisateurs de domaine, y compris les ICR liés au client, tels que la valeur à vie, le taux de conservation, le score de satisfaction de la clientèle (CSAT) et le score de promoteur net (NPS).
- Services d'intelligence artificielle et d'intelligence artificielle générative : Oracle Cloud Infrastructure Document Understanding extrait des données des formulaires et des documents de client et Oracle Cloud Infrastructure Language traite les données texte et les enrichit avec une analyse de sentiment, une reconnaissance d'entité nommée ou une classification de texte.
Le domaine Finance utilise les fonctionnalités suivantes pour créer un produit de données Transactions financières augmentées :
- Ingestion en temps réel (Oracle Cloud Infrastructure GoldenGate) : Saisit les transactions financières depuis le système bancaire de base en temps quasi réel et de manière non intrusive.
- Traitement par lots (transformations de données Oracle Cloud Infrastructure) : À l'aide d'ELT à code réduit, il valide, forme et transforme les données brutes en un produit de données organisé en catégorisant et en augmentant les données de transactions financières avec des catégories de dépenses, des détails de commerçant ou des données d'emplacement.
- Serving (Oracle Autonomous Data Warehouse) : Contient des données organisées et fournit des transactions augmentées au domaine de risque.
- Stockage en nuage/lac de données (Oracle Cloud Infrastructure Object Storage) : Stocke les formulaires liés à la finance référencés dans les enregistrements de transaction financière stockés dans Oracle Autonomous Data Warehouse.
- Domaine agrégé : Risque
Ce domaine se concentre sur la création, la formation et l'exécution de modèles d'apprentissage automatique pour détecter les risques en fonction de données internes, telles que les profils de client et les transactions augmentées, et de données externes telles que les données économiques et macroéconomiques.
Ce domaine a spécialisé les PME dans l'analyse et la prévention des risques et dessert tous les autres domaines qui ont besoin de ses produits de données. Le domaine a des utilisateurs internes qui utilisent l'analyse augmentée, mais la majorité de leur travail consiste à partager les résultats d'inférence par lots de l'apprentissage automatique. Par exemple, l'inférence par lots peut calculer la propension à prendre des risques des clients qui souscrivent à des services financiers en fonction de leur mode de vie et de leurs dépenses, ainsi que de facteurs macroéconomiques tels que la croissance économique, l'inflation ou le taux de chômage.
Ce domaine utilise les fonctionnalités suivantes pour créer un produit de données de propension à prendre des risques :
- Service (Oracle Autonomous Data Warehouse) : Traite les transformations et l'ingénierie des fonctions pour alimenter les modèles d'apprentissage automatique ainsi que pour stocker les résultats d'inférence par lots et produire des ICR liés au risque. Le domaine agrégé Risque est un consommateur des profils de client et des données de transactions augmentées, partagées respectivement par le client et les domaines financiers. Il fournit des données de propension à prendre des risques au domaine Marketing.
- Apprendre et prédire (Oracle Cloud Infrastructure Data Science) : couvre le cycle de vie complet des opérations d'apprentissage automatique, de l'analyse exploratoire des données au développement de modèles en passant par l'exécution et l'amélioration continue. Il produit des résultats d'inférence par lots qui sont à la base des données partagées sur la propension à prendre des risques.
- Domaine aligné sur les consommateurs : Marketing
Ce domaine met l'accent sur la conservation des données afin de prendre en charge des campagnes personnalisées et ciblées. Il utilise les données partagées d'autres domaines comme entrée et fournit les données de segmentation et de la meilleure offre suivante en temps réel en utilisant l'inférence basée sur une API et en partageant les données avec des partenaires de marketing 3ème partie qui exécutent des campagnes et partagent les résultats d'exécution de la campagne.
Ce domaine utilise les fonctions suivantes pour créer des produits de données de segmentation de campagne :
- Traitement par lots (transformations de données Oracle Cloud Infrastructure) : Traite et forme les données consommées à partir des partages de données. Il peut également être utilisé pour répliquer des données à partir des partages de données dans Oracle Autonomous Data Warehouse.
- Service (Oracle Autonomous Data Warehouse) : Stocke les données organisées, les informations sur les campagnes, les segments et les offres ciblées pour une campagne donnée.
- Stockage en nuage/lac de données (Oracle Cloud Infrastructure Object Storage) : Stocke toutes les données non structurées utilisées par le domaine.
- Visualiser/apprendre (Oracle Analytics Cloud) : sert aux utilisateurs finaux de domaine des analyses augmentées telles que les cibles de campagne et les ICR d'exécution.
- Apprendre et prédire (Oracle Machine Learning) : couvre le cycle de vie complet des opérations d'apprentissage automatique, de l'analyse exploratoire des données au déploiement de modèles. Les utilisateurs tirent parti de AutoML pour accélérer la création et la formation de modèles. Selon les campagnes, les résultats du modèle d'inférence par lots sont servis en utilisant le partage de données avec des partenaires externes qui exécutent les campagnes ou sont servis au moyen des déploiements d'Oracle Machine Learning pour l'inférence en temps réel appelée par les applications orientées client.
- API (Passerelle d'API Oracle Cloud Infrastructure API Gateway) : Sécurise et régit les points d'extrémité d'API de déploiement Oracle Machine Learning.
- Shared services
Les services utilisés par tous les domaines pour la gouvernance et la sécurité des données sont les suivants :
- Gouvernance des données (Oracle Cloud Infrastructure Data Catalog) : Catalogue le glossaire d'affaires et toutes les entités de données de domaine, en catégorisant les produits de données afin qu'ils puissent être détectés.
- Sécurité des données (Oracle Data Safe, OCI Audit, OCI Logging, OCI Vault) : Augmente la sécurité de tous les domaines.
Variante d'architecture : Déploiement partagé
Il est possible de disposer d'une plate-forme décentralisée s'exécutant sur une plate-forme de données partagée, où un ensemble commun d'instances de service prend en charge les différentes équipes de domaine de données.
L'architecture primaire permet le plus haut niveau d'isolement et de flexibilité pour chaque domaine et est hautement évolutive pour traiter les plates-formes de données décentralisées avec un grand nombre de domaines. Les exigences pour une plate-forme de données décentralisée peuvent varier et pour des cas d'utilisation spécifiques, une variante de modèle d'architecture différente pourrait être mieux adaptée.
Le diagramme suivant présente une variante de déploiement partagé du modèle de plate-forme répartie.
décentralisé-variant-partagé-oracle.zip
Une seule instance Oracle Autonomous Data Warehouse est partagée entre tous les domaines, qui sont isolés à l'aide de l'accès basé sur le rôle (RBAC) et de différents schémas. Les données résidant dans le lac sont également isolées pour chaque domaine à l'aide de politiques Oracle Cloud Infrastructure Identity and Access Management et de compartiments distincts. Les produits de données sont organisés dans leurs schémas respectifs, catalogués et partagés à l'aide du partage en direct et du partage avec versions.
Pour l'ingestion et le traitement des données, les domaines A et B utilisent les mêmes instances et applications Oracle Cloud Infrastructure Data Integration et Oracle Cloud Infrastructure Data Flow. Les domaines C et D ont des exigences très spécifiques pour l'ingestion et le traitement des données et ont donc des instances distinctes.
La même logique s'applique à la couche de consommation où les domaines A et B partagent une instance d'analyse en nuage unique, isolée à l'aide du contrôle d'accès par rôle (RBAC), tandis que les domaines C et D utilisent leurs propres instances de service.
Il est également possible d'utiliser une solution hybride. Au lieu d'avoir une instance unique pour tous les domaines ou une instance par domaine, certains domaines peuvent utiliser une instance partagée tandis que d'autres ont une instance dédiée.
Une telle solution hybride est généralement guidée par des exigences autres que des exigences fonctionnelles, telles que des exigences de performance, de sécurité, de haute disponibilité ou de récupération après sinistre plus exigeantes pour certains domaines, et nécessite des instances distinctes pour répondre à ces exigences, sans avoir d'incidence négative sur les charges de travail d'autres domaines.
Variante d'architecture : Hub et satellite
Souvent, les grandes organisations avec des filiales dans différentes régions et pays doivent exécuter leurs plates-formes de données de manière indépendante, sans une plate-forme de données centralisée qui dessert toutes les charges de travail des filiales, tout en ayant besoin de partager des données avec le siège social pour une visibilité globale et des indicateurs clés de rendement (ICR).
Une plate-forme de données décentralisée est une bonne solution pour ce scénario, où il y a un hub (le siège social) et plusieurs rayons (les filiales) qui doivent échanger des données de manière sécurisée et efficace.
Cette variante utilise la géographie comme exemple pour un motif en étoile, mais le même motif peut également être appliqué à d'autres exemples tels qu'une société holding et ses filiales.
Les rayons peuvent être déployés dans la même location que le concentrateur ou dans des locations différentes.
Le diagramme suivant montre un concentrateur et les plusieurs rayons qui sont déployés dans différentes régions et qui utilisent des partages avec version, activés par le protocole Delta Sharing, pour échanger des données. Ce diagramme montre uniquement les composants fonctionnels du moteur de desserte. Le reste de l'architecture fonctionnelle est similaire à celui de l'architecture fonctionnelle principale.
décentralisé-variant-hub-parle-oracle.zip
Étant donné que les données sont échangées de manière sécuritaire et transmises entre les régions par Internet, vous devez tenir compte de la latence. Si les produits de données partagés entre les rayons et le concentrateur sont des jeux de données agrégés et des ICR, et non de grands volumes de données granulaires, ce modèle est simple à déployer, à tenir à jour et à utiliser.
Une autre approche consiste à utiliser des liens vers le nuage d'Oracle Autonomous Database qui permettent un partage transparent des données entre les instances, même si elles se trouvent dans d'autres régions.
Pour le partage de données inter-régions, l'instance Oracle Autonomous Data Warehouse source doit être clonée dans la région de destination afin que l'instance Autonomous Data Warehouse du concentrateur puisse y accéder en toute transparence. Les clones peuvent être actualisés périodiquement, manuellement ou automatiquement, afin que la base de données centrale Autonomous Data Warehouse puisse consommer des produits de données à jour partagés par les satellites.
Comme le concentrateur consommera probablement des produits de données qui sont un sous-ensemble de l'ensemble du jeu de données géré par les rayons, les rayons peuvent avoir une instance Autonomous Data Warehouse dédiée uniquement pour contenir les produits de données à partager avec le concentrateur, optimisant ainsi le clone actualisable.
Le trafic réseau pour les clones actualisables est acheminé par le réseau fédérateur d'Oracle et présente une latence plus faible et une bande passante plus élevée lors du déplacement des produits de données volumineux qui résident sur les instances Autonomous Data Warehouse du service satellite.
Le choix entre l'utilisation de partages avec version ou de liens vers le nuage est principalement influencé par la performance et le coût plutôt que par les exigences fonctionnelles.
Quelle que soit l'option utilisée, le hub et les rayons ont leur propre plate-forme de données locale qui pourrait utiliser l'approche décentralisée montrée dans cette architecture.
Variante d'architecture : Écosystème de données hétérogène
Vous pouvez toutefois utiliser la même architecture pour prendre en charge un écosystème de données hétérogène avec différentes organisations partageant des données à l'aide de différentes technologies et à des fins différentes.
Les cas d'utilisation peuvent inclure des hôpitaux qui partagent des données anonymisées avec des universités à des fins de recherche ou des fournisseurs partageant des données de pièces avec des constructeurs automobiles.
Les organisations qui utilisent Oracle Autonomous Data Warehouse comme moteur de service peuvent fournir et consommer des données partagées à partir d'autres technologies qui prennent en charge le protocole ouvert Delta Sharing.
Delta Sharing est un bon choix pour soutenir les écosystèmes de données en raison de son large soutien et de la simplicité avec laquelle il fournit et consomme des données en toute sécurité.
Vous pouvez également partager des données à l'aide d'autres mécanismes, tels que les API ou la diffusion en continu des données.
Architecture physique
L'architecture physique de cette plate-forme de données décentralisée prend en charge les éléments suivants :
- Isolement de domaine à l'aide de compartiments et de politiques Oracle Cloud Infrastructure Identity and Access Management pour lesquels les équipes respectives ne sont autorisées à utiliser et à déployer des ressources en nuage que dans leur compartiment
- Déploiement de domaine dans leurs réseaux en nuage virtuels de charge de travail respectifs pour un niveau d'isolement supérieur et une sécurité accrue
- Les processus d'ingestion, de stockage, de traitement et de service des données gérés par les équipes de domaine à l'aide de ressources en nuage déployées dans leur(s) compartiment(s) et réseau en nuage virtuel
- Prise en charge d'exigences non fonctionnelles telles que les objectifs d'extensibilité, de haute disponibilité, de reprise après sinistre, de sécurité et de niveau de service, car chaque équipe de domaine utilise des ressources en nuage distinctes en fonction de ses exigences de domaine spécifiques
- Contrôle détaillé des coûts d'utilisation des ressources en nuage pour chaque domaine
- Trafic de bout en bout privé entièrement sécurisé à l'aide de points d'extrémité privés et d'instances déployées dans des sous-réseaux privés
Il est également possible de déployer certains services avec des endpoints publics par domaine tout en respectant les règles de sécurité de l'entreprise.
- Partage de données activé par Oracle Autonomous Data Warehouse à l'aide de partages en direct ou de partages avec version et pour servir des données à jour ou avec version, selon le cas d'utilisation
- Catalogue de données centralisé pour tous les domaines, avec les sous-entités de catalogue de données isolées par domaine à l'aide des politiques Oracle Cloud Infrastructure Identity and Access Management, à l'exception des produits de données qui doivent être détectables
- Déploiement hautement évolutif à mesure que chaque nouveau domaine peut être intégré en utilisant l'automatisation de l'infrastructure-code (IaC) sans incidence sur les domaines de données existants
Le diagramme suivant illustre cette architecture de référence.
décentralisé-données-plate-forme-physique-oracle.zip
Le diagramme de l'architecture physique représente deux domaines pour illustrer la disposition du réseau en nuage et des services pour chaque domaine. En général, tous les compartiments et réseaux de domaine sont les mêmes, à moins qu'une exception ne soit générée par des exigences spécifiques et non fonctionnelles.
La conception de l'architecture physique :
- Tire parti d'un VCN central et d'un VCN pour chaque domaine de données qui contient la charge de travail pour ce domaine
- Tire parti de la connectivité sur place à l'aide d'Oracle Cloud Infrastructure FastConnect et d'un RPV site à site pour la redondance
- Achemine tout le trafic entrant à partir des locaux et d'Internet d'abord vers le VCN central, puis vers les réseaux en nuage virtuels de charge de travail du domaine de données
- Sécurise toutes les données en transit et au repos
- Déploie des services avec des points d'extrémité privés pour améliorer la sécurité
- Sépare les réseaux en nuage virtuels en plusieurs sous-réseaux privés pour améliorer la sécurité
- Fournit un compartiment pour chaque domaine pour l'isolement des ressources
- Utilise une passerelle de routage dynamique (DRG) afin que les ressources en nuage prennent en charge le trafic entrant et sortant vers les autres réseaux en nuage virtuels des domaines
- Place les instances Autonomous Data Warehouse dans le sous-réseau privé de données pour une sécurité accrue, mais peut fournir et consommer des partages en direct et avec numéro de version à partir des autres instances Autonomous Data Warehouse du domaine si des routes sont établies pour permettre ce trafic
Les améliorations potentielles de la conception qui ne sont pas décrites dans ce déploiement pour des raisons de simplicité comprennent :
- Tirer parti d'une zone d'atterrissage complète conforme aux normes CIS
- Déploiement d'un pare-feu de réseau dans le VCN central pour améliorer la sécurité globale en inspectant tout le trafic et en appliquant des politiques
Recommandations
Utilisez les recommandations suivantes comme point de départ pour partager des données en toute sécurité. Vos exigences peuvent différer de l'architecture décrite ici.
Base de données Oracle Autonomous Data Warehouse
Cette architecture utilise Oracle Autonomous Data Warehouse sur une infrastructure partagée.
- Utilisez une architecture de médaillon pour l'entrepôt avec lac de données et créez des produits de données basés sur les couches argent (granulaire, augmentée) et or (enrichie, agrégée).
- Envisagez de partager des produits de données à l'aide d'Autonomous Data Warehouse avec sa prise en charge native du partage de données hétérogènes afin de fournir une architecture plus simple, plus sécurisée et plus fiable.
- Envisagez de partager des données externes, exposées dans Autonomous Data Warehouse en tant que tables externes ou tables hybrides, pour bénéficier des fonctions de sécurité du partage en version ou en direct.
- Envisagez de créer des vues pour vos tables de produits de données afin de différencier les objets de base (tables) des objets partagés (vues).
- Pour accroître la sécurité lors du partage de données avec des partages en direct, envisagez d'utiliser des espaces de noms et des valeurs de nom différentes des schémas et des tables sous-jacents pour masquer les noms d'objet internes.
- Pour accroître la sécurité lors de l'utilisation du partage en direct avec des liens en nuage, demandez à l'administrateur de l'enregistrement du jeu de données de définir la portée du jeu de données la plus restrictive pour vos cas d'utilisation.
- Lorsque vous utilisez le partage en direct avec des liens en nuage, envisagez d'activer la mise en mémoire cache pour améliorer les performances des requêtes des consommateurs de données.
- Lorsque vous utilisez le partage en direct avec des liens en nuage avec un grand volume de produits de données, envisagez de décharger les interrogations pour actualiser les clones afin d'améliorer la performance des consommateurs de données et la séparation des charges de travail.
- Si vous avez un grand nombre d'instances de domaine Autonomous Data Warehouse ou si les exigences de calcul de votre instance sont élevées, envisagez de les consolider dans un groupe élastique.
Service de stockage d'objets pour OCI
Cette architecture utilise le service Oracle Cloud Infrastructure Object Storage hautement évolutif et durable comme stockage de lac.
Envisagez d'utiliser plusieurs compartiments granulaires pour organiser les domaines de données et les équipes au sein des domaines de données afin de séparer leurs charges de travail à l'aide des politiques Oracle Cloud Infrastructure Identity and Access Management.
Catalogue de données d'Oracle Cloud Infrastructure Data Catalog
Cette architecture utilise Oracle Cloud Infrastructure Data Catalog pour gérer les métadonnées techniques, commerciales et opérationnelles des produits de données afin qu'ils puissent être détectés automatiquement.
- Envisagez d'utiliser une instance de catalogue de données unique pour tous les domaines afin de centraliser les métadonnées et la gouvernance des produits de données
- Envisagez d'accorder l'accès de gestion aux utilisateurs de domaine uniquement pour leurs ressources de données
- Envisagez d'accorder un accès en lecture à tous les utilisateurs afin qu'ils puissent trouver des produits de données gérés dans l'ensemble de l'organisation
- Envisagez d'utiliser des propriétés personnalisées pour enrichir les métadonnées opérationnelles avec des propriétés telles que le propriétaire du produit de données, la disponibilité, la date de dernière mise à jour, la version, etc.
Déploiement des domaines de données
Cette architecture utilise le modèle d'entrepôt avec lac de données et les services OCI disponibles pour prendre en charge de bout en bout les charges de travail de données, d'analyse et d'intelligence artificielle.
- Envisagez de séparer les domaines en utilisant des réseaux en nuage virtuels distincts pour chaque domaine afin d'augmenter la sécurité et la flexibilité du domaine lors du déploiement des ressources en nuage.
- Envisagez de séparer les différents services OCI utilisés par chaque domaine en tirant parti des compartiments et des politiques IAM.
Partage de données sur les produits
- Si vous devez servir des produits de données à l'aide d'API, envisagez d'utiliser Oracle REST Data Services.
- Si vous partagez des produits de données à l'aide d'Oracle REST Data Services, envisagez d'utiliser Oracle Cloud Infrastructure API Gateway pour sécuriser les API.
- Si vous devez diffuser des produits de données en continu, envisagez d'utiliser Oracle Cloud Infrastructure GoldenGate et Oracle Cloud Infrastructure Streaming.
Informations complémentaires
En savoir plus sur les caractéristiques de cette architecture et sur les architectures connexes.