Plate-forme de données - Data Federation

Une architecture de data lakehouse vous aidera à collecter et analyser efficacement les données d'événements et à diffuser des données à partir d'appareils en temps réel et à les corréler avec un large éventail de ressources de données d'entreprise pour tirer parti de votre investissement en données et obtenir les informations que vous souhaitez.

Mais comment corréler les données de votre data lakehouse avec celles qui résident sur vos sources de données hétérogènes ou qui sont déployées sur d'autres clouds ou systèmes sur site, sans avoir à dupliquer les données ?

La réponse consiste à tirer parti d'une approche de fédération de données qui combine vos données de data lakehouse avec des données fédérées provenant de banques cloud tierces et des données provenant de bases de données cloud et sur site, quel que soit leur emplacement physique.

Cette architecture de référence positionne la solution technologique dans le contexte commercial global :



La fédération de données est une technique qui permet l'intégration, l'unification et la gouvernance des données stockées dans différentes banques de données à l'aide d'un moteur de requête fédéré qui convertit une seule requête en sous-requêtes expédiées vers les banques de données source. Les résultats sont ensuite fusionnés et présentés à l'utilisateur ou à l'application, comme illustré ci-dessous.



data-platform-federation-overview-oracle.zip

La fédération de données est souvent échangée avec la virtualisation de données. La virtualisation des données crée une vue unifiée des données provenant de plusieurs sources sans dupliquer les données et fournit des données nouvelles en temps réel.

Aux fins de cette architecture de référence, le terme fédération de données est utilisé, même si les capacités décrites ci-dessous concernent à la fois la fédération et la virtualisation.

L'utilisation de la fédération de données simplifie l'accès aux données pour les consommateurs, tels que les moteurs d'analyse et de science des données, en les connectant à un moteur de service fédéré plutôt qu'à plusieurs sources de données, augmentant ainsi la réutilisabilité, la gouvernance et la sécurité des données fédérées.

Les moteurs d'analyse offrent traditionnellement des fonctionnalités de fédération de données qui peuvent être utilisées en complément du moteur de service fédéré. Habituellement, les moteurs de service de données fédérées ont plus de capacités pour augmenter les performances et répondre à l'évolutivité, ce qui profite implicitement à ces moteurs d'analyse.

Ce document décrit une solution potentielle pour la fédération de données dans Oracle Cloud Infrastructure, mais il peut exister des alternatives qui utilisent différentes technologies pour différents scénarios.

Architecture fonctionnelle

Cette architecture utilise un data lakehouse pour stocker et utiliser les données, quelle que soit leur forme ou leur forme. Au cœur de cette architecture se trouve l'entrepôt de données déployé sur Oracle Autonomous Data Warehouse.

En outre, l'architecture utilise un moteur de requête unifié pour fédérer les données organisées à partir de sources sélectionnées avec les données en lakehouse. Les données fédérées sont obtenues à l'aide de mécanismes tels que les tables externes, les liens de base de données et le partage de données, en fonction de la banque de données.

Une architecture de fédération qui combine des données de lakehouse et des banques de données existantes vous permet d'effectuer les opérations suivantes :

  • Joindre toutes les données, quel que soit leur emplacement de stockage
  • Prise en charge d'une plate-forme de données multicloud et cloud hybride qui fédère les données stockées sur d'autres clouds et sur site
  • Simplifier l'expérience des consommateurs de données en matière d'obtention et d'interrogation de données à partir de différents moteurs
  • Augmenter la sécurité car un modèle unique de sécurité des données peut être appliqué au niveau du moteur de requête fédéré
  • Améliorer la gouvernance à l'aide d'un catalogue de données qui unifie les métadonnées des entités stockées dans le lakehouse et fédérées avec le moteur de requête
  • Augmenter les performances en tirant parti de la matérialisation des données et de la mise en cache autonome des bases de données
  • Exposer des données unifiées et organisées à différents destinataires à l'aide de tableaux de bord d'analyse, d'interfaces SQL, d'adresses d'API et de partage de données
  • Exploiter une base de données multimodèle en tant que moteur de requête fédéré

Le schéma suivant illustre l'architecture fonctionnelle. Par souci de simplicité, toutes les capacités du lakehouse ne sont pas montrées.



data-platform-federation-functional-oracle.zip

Notez que cette architecture représente une plate-forme de données fédérée qui utilise principalement le traitement par lots, mais peut être complétée par les fonctionnalités en temps réel du data lakehouse pour traiter les données en continu.

Le traitement des données en continu a souvent besoin d'utiliser des données contextuelles dans ses pipelines de données. Les données contextuelles peuvent être stockées sur différentes sources de données, mais un moteur de fédération de données qui sert toutes les données contextuelles aux pipelines de données simplifie ces derniers.

L'architecture se concentre sur les divisions logiques suivantes :

Inclusion, transformation

Ingère et affine les données à utiliser dans chacune des couches de données de l'architecture.

Les données fédérées sont utilisées à la demande à partir du stockage cloud, des bases de données et des partages de données. Les données ne sont pas transformées sur cette couche car elles ont déjà été organisées dans la banque de données source.

Persister, organiser, créer

Facilite l'accès et la navigation des données pour afficher la vue professionnelle actuelle. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement sous des formes relationnelles, longitudinales, dimensionnelles ou OLAP simples. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, soit issus d'un processus analytique, soit des données optimisées pour une tâche analytique spécifique.

Cette couche contient le moteur de service fédéré qui unifie et sert les données résidant dans le data warehouse, le lac de données et les sources de données fédérées. Il permet d'interroger des données fédérées à la demande et de les matérialiser pour des performances de requête accrues.

Le moteur de fédération offre la possibilité de traiter les données à l'aide de SQL, d'API REST ou du partage de données, ce qui augmente l'interopérabilité tout en simplifiant la connectivité, car les consommateurs de données se connectent à un seul moteur de service plutôt qu'à plusieurs banques de données.

Analyser, apprendre, prévoir

Abstrait la vue logique des données pour les consommateurs. Cette abstraction facilite les approches agiles de développement, la migration vers l'architecture cible et la fourniture d'une couche de reporting unique à partir de plusieurs sources fédérées.

Cette couche exploite le moteur de service pour obtenir des données fédérées qui peuvent être complétées par les connecteurs de données disponibles sur cette couche et fournis par les services de visualisation ou de science des données.

L'utilisation d'un moteur de requête fédéré permet d'extraire l'accès des consommateurs de données des banques de données sous-jacentes, ce qui augmente la productivité car les données sont fédérées une seule fois et consommées par de nombreux consommateurs de données. Cela rend également le système plus interopérable car tout consommateur qui peut interagir avec SQL, les API REST ou le partage de données peut utiliser et joindre le lakehouse et les données fédérées.

L'architecture comporte les composants fonctionnels suivants :

Inclusion par lots

L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses à adapter pour l'ingestion en temps réel. Il est également important de transformer les données en informations fiables et fiables qui peuvent être conservées et conservées pour une consommation régulière.

L'inclusion par lots complète le moteur de fédération de données car il peut ingérer des données auxquelles le moteur de fédération n'a pas d'accès natif ou pour des cas d'utilisation spécifiques où les données doivent être transformées pour être conformes au modèle de données du lakehouse.

Vous pouvez utiliser les services suivants ensemble ou indépendamment pour obtenir un workflow d'intégration et de transformation des données extrêmement flexible et efficace.

  • Oracle Cloud Infrastructure Data Integration est un service cloud natif, sans serveur et entièrement géré qui extrait, charge, transforme, nettoie et remodèle les données de diverses sources de données en services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. ETL (extract transform load) tire parti du traitement évolutif entièrement géré sur Spark, et ELT (extract load transform) tire parti des fonctionnalités de propagation SQL complètes d'Autonomous Data Warehouse afin de minimiser le déplacement des données et d'améliorer le délai de rentabilisation des données nouvellement ingérées. Les utilisateurs conçoivent des processus d'intégration de données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en redimensionnant automatiquement l'environnement d'exécution. Oracle Cloud Infrastructure Data Integration fournit une exploration interactive et une préparation des données, et aide les ingénieurs de données à se protéger contre la dérive de schéma en définissant des règles pour gérer les modifications de schéma.

  • Oracle Data Integrator fournit une intégration complète des données, allant des chargements de gros volumes et de hautes performances par lots, aux processus d'intégration déclenchés par des événements, aux services de données SOA. Une approche de conception déclarative garantit un développement et une maintenance plus rapides et plus simples, et fournit une approche unique pour la transformation de la charge d'extraction (ELT) qui permet de garantir le plus haut niveau de performances possible pour les processus de transformation et de validation des données. Les transformations de données Oracle utilisent une interface Web pour simplifier la configuration et l'exécution du traitement ELT et pour aider les utilisateurs à créer et à planifier des données et des flux de travail à l'aide d'une approche de conception déclarative.

  • Oracle Data Transforms active ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de planifier de manière déclarative des flux de données et des workflows. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse pour charger et transformer des données provenant de plusieurs sources de données en une instance ADW.

Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour réaliser une intégration et une transformation de données hautement flexibles et performantes.

Traitement en batch

Le traitement par lots transforme les ensembles de données à grande échelle stockés dans le data lakehouse. Le traitement par lots tire parti des services natifs Oracle Cloud Infrastructure qui s'intègrent de manière transparente à Oracle Cloud Infrastructure Object Storage et vous permet de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement des données, l'assimilation de l'entrepôt de données et l'utilisation des données d'apprentissage automatique et d'IA à grande échelle.

Oracle Cloud Infrastructure Data Integration, décrit ci-dessus, est un service cloud natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle les données de diverses sources de données en services Oracle Cloud Infrastructure cible, tels qu'Oracle Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow est un service Big Data entièrement géré qui vous permet d'exécuter des applications Apache Spark sans avoir à déployer ni à gérer l'infrastructure. Il vous permet de fournir plus rapidement des applications Big Data et IA, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données sont des modèles réutilisables qui se composent d'une application Spark et de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut.

Portion

Oracle Autonomous Data Warehouse est un service de base de données doté de l'autopilotage, de l'autosécurisation et de l'autoréparation, optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création, la sauvegarde, la mise à niveau et le réglage de la base de données, ainsi que l'application de patches à la base de données.

Après le provisionnement, vous pouvez redimensionner à tout moment le nombre de coeurs de processeur ou la capacité de stockage de la base de données sans affecter la disponibilité ou les performances.

ADW peut également virtualiser les données résidant dans le stockage d'objets en tant que tables partitionnées externes et hybrides afin que vous puissiez joindre et utiliser les données dérivées d'autres sources avec les données du data warehouse. Vous pouvez également déplacer les données historiques de l'entrepôt vers le stockage d'objets, puis les utiliser de manière transparente à l'aide de tables partitionnées hybrides.

ADW peut utiliser les métadonnées précédemment collectées stockées dans Oracle Cloud Infrastructure Data Catalog pour créer des tables externes et synchroniser automatiquement les mises à jour de métadonnées dans Oracle Cloud Infrastructure Data Catalog avec la définition de tables externes afin de maintenir la cohérence, de simplifier la gestion et de réduire les efforts.

Les vues analytiques, une fonctionnalité Autonomous Database, offrent un moyen rapide et efficace de créer des requêtes analytiques de données stockées dans des tables et des vues de base de données existantes. Les vues analytiques organisent les données à l'aide d'un modèle dimensionnel. Ils vous permettent d'ajouter facilement des agrégations et des calculs aux ensembles de données et de présenter des données dans des vues qui peuvent faire l'objet d'une requête avec des instructions SQL relativement simples. Cette fonctionnalité vous permet de modéliser sémantiquement un schéma en étoile ou en flocon directement dans ADW, à l'aide de données stockées en interne et en externe, et d'utiliser le modèle à l'aide de SQL et de tout consommateur de données compatible SQL.

ADW permet de fédérer et d'interroger les données stockées dans des magasins cloud tiers (à savoir AWS S3, Azure Blob et GCP CGS), sur des bases de données cloud tierces (à savoir AWS Redshift, Azure Synapse Analytics, Google BigQuery et Snowflake), des bases de données tierces (à savoir IBM DB2, MongoDB, PostrgreSQL, Hive) et même des applications SaaS.

Dans une requête unique, ADW peut interroger et joindre des données provenant de banques cloud, de bases de données cloud et d'autres bases de données populaires, ce qui simplifie l'accès des données aux consommateurs du moteur de service, car ils sont abstraits de la complexité de l'interrogation séparée, de plusieurs moteurs de requête, pour obtenir un résultat unifié. Il peut également combiner ces données avec des données obtenues à partir de partages de données fournis par des producteurs conformes au protocole ouvert Delta Sharing.

Stockage cloud

Oracle Cloud Infrastructure Object Storage est une plate-forme de stockage hautes performances, à l'échelle d'Internet, qui offre une durabilité fiable et rentable en matière de données. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris des données analytiques. Vous pouvez stocker ou extraire des données directement à partir d'Internet ou de la plate-forme cloud, ou à partir de celle-ci, et ce, en toute sécurité. Grâce à plusieurs interfaces de gestion, vous pouvez facilement commencer à petite échelle et évoluer de manière transparente, sans subir de dégradation des performances ou de la fiabilité du service.

Oracle Cloud Infrastructure Object Storage peut également être utilisé comme couche de stockage à froid pour l'entrepôt de données en stockant les données rarement utilisées, puis en les joignant de manière transparente aux données les plus récentes à l'aide de tables hybrides dans Oracle Autonomous Data Warehouse.

Visualiser/Apprendre

Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre un ensemble complet de fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe de travail et votre entreprise. Il prend en charge les data scientists citoyens, la formation avancée des analystes métier et l'exécution de modèles de machine learning (ML). Les modèles de machine learning peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous Data Warehouse en tant que modèles intégrés OML pour les prédictions de lots à grande échelle qui exploitent la puissance de traitement, l'évolutivité et l'élasticité de l'entrepôt et des services d'IA OCI, tels qu'Oracle Cloud Infrastructure Vision.

Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités flexibles de gestion des services, notamment une configuration rapide, une mise à l'échelle et des correctifs faciles et une gestion automatisée du cycle de vie.

Apprendre et prévoir

Oracle Cloud Infrastructure Data Science fournit une infrastructure, des technologies open source, des bibliothèques, des packages et des outils de science des données pour que les équipes de science des données puissent créer, entraîner et gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et orienté projet offre une expérience utilisateur de bout en bout et prend en charge le cycle de vie des modèles prédictifs. Data Science permet aux data scientists et aux ingénieurs machine learning de télécharger et d'installer des packages directement à partir du référentiel Anaconda sans frais, ce qui leur permet d'innover sur leurs projets avec un écosystème de data science organisé de bibliothèques de machine learning.

La fonctionnalité Travaux Data Science permet aux analystes de données de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.

La fonctionnalité de déploiement de modèle Data Science permet aux data scientists de déployer des modèles entraînés en tant qu'adresses HTTP entièrement gérées qui peuvent fournir des prédictions en temps réel, intégrer des informations dans les processus et les applications et permettre à l'entreprise de réagir aux événements pertinents au fur et à mesure qu'ils se produisent.

Oracle Machine Learning fournit de puissantes fonctionnalités d'apprentissage automatique étroitement intégrées à Oracle Autonomous Database, avec prise en charge de Python et AutoML. Il prend en charge des modèles utilisant des algorithmes open source et évolutifs dans la base de données qui réduisent la préparation et le déplacement des données. AutoML aide les data scientists à accélérer la rentabilisation des initiatives de machine learning de l'entreprise en utilisant la sélection automatique d'algorithmes, l'échantillonnage adaptatif des données, la sélection automatique des fonctionnalités et le réglage automatique des modèles. Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous Data Warehouse, vous pouvez non seulement gérer les modèles, mais également déployer ces modèles en tant qu'adresses REST afin de démocratiser les prédictions en temps réel au sein de l'entreprise, ce qui permet aux entreprises de réagir aux événements pertinents au fur et à mesure qu'ils se produisent, plutôt qu'après les faits.

Services d'IA

Les services Oracle Cloud Infrastructure AI Services fournissent un ensemble de services d'IA prêts à l'emploi pouvant être utilisés pour prendre en charge un large éventail de cas d'utilisation, de l'analyse de texte à la maintenance prédictive. Ces services disposent de modèles prédéfinis et finement réglés que vous pouvez intégrer aux pipelines de données, aux analyses et aux applications à l'aide d'API.

Oracle Cloud Infrastructure Anomaly Detection fournit un vaste ensemble d'outils permettant d'identifier les observations ou événements indésirables dans les données d'activité en temps réel afin que vous puissiez prendre des mesures pour éviter les interruptions d'activité.

Le langage d'intelligence artificielle Oracle Cloud Infrastructure effectue des analyses de texte sophistiquées à grande échelle. Avec des modèles préentraînés et personnalisés, les développeurs peuvent traiter du texte non structuré et extraire des informations sans expertise en data science. Les modèles prédéfinis prennent en charge l'analyse de sentiment, l'extraction des expressions clés, la classification du texte et la reconnaissance des entités nommées. Vous pouvez également entraîner des modèles personnalisés pour la reconnaissance d'entité nommée et la classification de texte avec des jeux de données spécifiques au domaine. Le service de traduction vous permet de traduire du texte dans 21 langues différentes.

Oracle Cloud Infrastructure Speech exploite la puissance du langage parlé en vous permettant de convertir facilement des fichiers multimédias contenant du langage humain en transcriptions de texte très précises. OCI Speech peut être utilisé pour retranscrire des appels au service client, automatiser le sous-titrage et générer des métadonnées pour les ressources multimédia afin de créer une archive pouvant faire l'objet d'une recherche.

Oracle Cloud Infrastructure Vision effectue des tâches de reconnaissance d'image et d'analyse de documents telles que la classification des images, la détection et les faces, l'extraction de texte et la reconnaissance des tables. Vous pouvez utiliser des modèles préentraînés ou créer facilement des modèles de vision personnalisés pour des scénarios spécifiques au secteur et au client. Vision Service est un service cloud natif, colocatif et entièrement géré qui facilite toutes les tâches courantes de vision par ordinateur.

Oracle Cloud Infrastructure Document Understanding effectue des tâches d'analyse de documents telles que l'extraction de texte et la reconnaissance des tables. Le service OCI Document Understanding est un service cloud natif, colocatif et entièrement géré qui facilite toutes les tâches d'analyse de documents courantes.

enrichissement des données

L'enrichissement des données peut améliorer les données utilisées pour entraîner des modèles de machine learning afin d'obtenir des résultats de prédiction meilleurs et plus précis.

Oracle Cloud Infrastructure Data Labeling vous permet de créer et de parcourir des ensembles de données, d'afficher des enregistrements de données (texte ou images), et d'appliquer des libellés à des fins de création de modèles d'IA et d'ML. Le service fournit également des interfaces utilisateur interactives conçues pour faciliter le processus d'étiquetage. Une fois les enregistrements étiquetés, l'ensemble de données peut être exporté en tant que fichier JSON délimité par des lignes pour être utilisé dans le développement de modèles IA/ML.

API

La couche API vous permet d'infuser les informations dérivées de Data Science et d'Oracle Machine Learning dans des applications, des processus métier et des éléments pour influencer et améliorer leurs opérations et fonctions. La couche d'API fournit une utilisation sécurisée des modèles déployés par Data Science aux adresses REST Oracle Machine Learning et la possibilité de régir le système pour garantir la disponibilité des environnements d'exécution. Vous pouvez également tirer parti des fonctions pour exécuter une logique supplémentaire si nécessaire.

Oracle Cloud Infrastructure API Gateway vous permet de publier des API avec des adresses privées accessibles à partir de votre réseau. Vous pouvez les exposer avec des adresses IP publiques si vous voulez qu'elles acceptent le trafic Internet. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, l'authentification et l'autorisation CORS, ainsi que la limitation des demandes. Il permet l'observabilité des API pour surveiller l'utilisation et garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs d'API et les clients d'API qui accèdent aux API et pour configurer différents niveaux d'accès pour différents clients afin de suivre l'utilisation des données consommée par l'utilisation des API. Les plans d'utilisation sont une fonctionnalité clé pour la prise en charge de la monétisation des données.

Oracle Cloud Infrastructure Functions est une plate-forme Functions-as-a-service entièrement gérée, colocative, hautement évolutive et à la demande. Elle repose sur la solution Oracle Cloud Infrastructure de niveau entreprise et sur le moteur open source du projet Fn.

Oracle REST Data Services (ORDS) est une application Java qui permet aux développeurs ayant des compétences SQL et de base de données de développer des API REST pour Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement de langage, sans installer ni gérer de pilotes client, de la même manière qu'il accède à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée. ORDS est déployé en tant que fonctionnalité entièrement gérée dans ADW et peut être utilisé pour exposer les informations des lakehouses à l'aide d'API aux consommateurs de données.

Gouvernance des données

Oracle Cloud Infrastructure Data Catalog offre une visibilité sur l'emplacement des ressources techniques telles que les métadonnées et les attributs respectifs, et permet de tenir à jour un glossaire métier mis en correspondance avec ces métadonnées techniques. Oracle Cloud Infrastructure Data Catalog peut également servir des métadonnées à l'entrepôt Oracle Autonomous Data Warehouse pour faciliter la création de tables externes dans l'entrepôt de données.

Sécurité des données

La sécurité des données est essentielle pour explorer et utiliser pleinement les données des lakehouses. En s'appuyant sur un modèle de sécurité zéro confiance avec des capacités de défense en profondeur et RBAC, et en assurant la conformité avec la réglementation la plus stricte, la sécurité des données fournit des contrôles de sécurité préventifs, détectifs et correctifs pour garantir que l'exfiltration et les violations de données sont évitées.

Oracle Data Safe est un service Oracle Cloud entièrement intégré qui se concentre sur la sécurité des données. Il fournit un ensemble complet et intégré de fonctionnalités qui protègent les données confidentielles et réglementées des bases de données Oracle Cloud, telles qu'Oracle Autonomous Data Warehouse. Ces fonctionnalités comprennent l'évaluation de la sécurité, l'évaluation des utilisateurs, le repérage des données, le masquage des données et l'audit d'activité.

Oracle Cloud Infrastructure Audit fournit une visibilité sur les activités liées aux ressources et aux locations Oracle Cloud Infrastructure (OCI). Vous pouvez utiliser les événements de journal d'audit pour des audits de sécurité pour suivre l'utilisation des ressources OCI et les modifications qui leur sont apportées, ainsi que pour assurer la conformité aux normes et aux réglementations.

Oracle Cloud Infrastructure Logging fournit une interface unique hautement évolutive et gérée pour tous les journaux de la location, y compris les journaux d'audit. Utilisez OCI Logging pour accéder aux journaux de toutes les ressources OCI afin de pouvoir les activer, les gérer et les rechercher.

Oracle Cloud Infrastructure Vault est un service de gestion du cryptage qui stocke et gère les clés de cryptage ainsi que les clés secrètes afin d'accéder aux ressources en toute sécurité. Permet d'utiliser des clés gérées par le client pour le cryptage d'Oracle Autonomous Data Warehouse et du lac de données afin d'améliorer la protection des données au repos. Permet aux clés secrètes de stocker en toute sécurité les services et les informations d'identification utilisateur afin d'améliorer votre posture de sécurité et de vous assurer que les informations d'identification ne sont pas compromises et utilisées de manière inappropriée.

Architecture physique

L'architecture physique de cette plate-forme de données prend en charge les éléments suivants :
  • Oracle Autonomous Data Warehouse (ADW) obtient des données à partir des sources de données fédérées à l'aide des fonctionnalités de connectivité hétérogène gérées par Oracle
  • ADW utilise des bases de données cible accessibles à partir du réseau Internet public qui sont configurées et autorisent les connexions SSL/TLS entrantes, de sorte que la connectivité hétérogène gérée par Oracle puisse se connecter et interroger les données en toute sécurité
  • ADW lit les données de Databricks à l'aide de partages de données
  • Les partages de données Databricks sont accessibles via le réseau Internet public, mais sont sécurisés à l'aide des fichiers d'informations d'identification fournis par Databricks
  • Les données d'AWS S3, d'Azure Blob et de Google Cloud Storage sont soit fédérées et lues à la demande à l'aide de tables externes, soit copiées dans ADW en fonction du cas d'utilisation et des exigences.
  • Les données provenant de sources de données non fédérées sont assimilées de manière sécurisée à l'aide d'un micro batch et de fichiers provenant de sources de données relationnelles et non relationnelles qui ne sont pas fédérées.
  • Les données sont traitées à l'aide d'une combinaison d'Oracle Cloud Infrastructure Data Integration et d'Oracle Cloud Infrastructure Data Flow.
  • Les données sont stockées dans ADW et Oracle Cloud Infrastructure Object Storage et sont organisées en fonction de leur qualité et de leur valeur
  • ADW fournit des données d'entrepôt, de lac et fédérées en toute sécurité aux consommateurs
  • Oracle Analytics Cloud présente les données aux utilisateurs professionnels à l'aide de visualisations
  • Oracle Analytics Cloud est exposé à l'aide d'Oracle Cloud Infrastructure Load Balancing sécurisé par Oracle Cloud Infrastructure Web Application Firewall (WAF) pour fournir l'accès à l'aide d'Internet
  • Oracle Cloud Infrastructure Data Science est utilisé pour créer, entraîner et déployer des modèles de machine learning (ML).
  • Oracle Cloud Infrastructure API Gateway est utilisé pour régir les déploiements de modèle d'apprentissage automatique Data Science
  • Oracle Cloud Infrastructure Data Catalog collecte les métadonnées d'ADW et du stockage d'objets
  • Oracle Cloud Infrastructure Bastion est utilisé par les administrateurs pour gérer les ressources de cloud privé

L'architecture est illustrée dans le diagramme suivant :



data-platform-federation-physical-oracle.zip

Conception de l'architecture physique :

  • Tire parti de 2 réseaux cloud virtuels, l'un pour le hub et l'autre pour la charge de travail elle-même
  • La connectivité on-premise s'appuie à la fois sur Oracle Cloud Infrastructure FastConnect et sur un VPN site-à-site pour la redondance
  • Tout le trafic entrant à partir d'Internet et sur site est d'abord acheminé vers le VCN hub, puis vers le VCN de charge de travail
  • Toutes les données sont sécurisées en transit et au repos
  • Les services sont déployés avec des adresses privées pour améliorer l'état de sécurité
  • Le VCN est séparé en plusieurs sous-réseaux privés pour améliorer l'état de sécurité
  • Les données de lac sont séparées en plusieurs compartiments dans le stockage d'objets, en tirant parti d'une architecture de médaillon
  • Les sources de données fédérées et les banques cloud sont accessibles à l'aide de la connectivité publique et de la passerelle NAT attachées au VCN de charge de travail

Les améliorations de conception potentielles non décrites dans ce déploiement pour des raisons de simplicité sont les suivantes :

  • Exploiter la connectivité hétérogène gérée par le client, à l'aide d'Oracle Database Gateway, pour se connecter à des sources de données fédérées à l'aide d'une connectivité privée
  • Exploiter une zone d'atterrissage conforme à la norme CIS
  • Utiliser un pare-feu réseau pour améliorer l'état général de la sécurité en inspectant l'ensemble du trafic et en appliquant des stratégies

Recommandations

Utilisez les recommandations suivantes comme point de départ pour utiliser des données provenant de sources de données hétérogènes pour l'analyse métier et le machine learning.

Vos exigences peuvent différer de l'architecture décrite ici.

Oracle Autonomous Data Warehouse

Cette architecture utilise Oracle Autonomous Data Warehouse (ADW) sur une infrastructure partagée.

  • Envisagez d'utiliser des vues matérialisées pour améliorer les performances lors de l'accès aux données fédérées.
  • Envisagez d'actualiser les vues matérialisées avec la fréquence nécessaire pour éviter que les données fédérées ne soient bloquées.
  • Envisagez de créer des vues pour interroger les données à l'aide de liens de base de données provenant de sources fédérées afin que ces vues soient collectées et cataloguées dans Oracle Cloud Infrastructure Data Catalog pour une gouvernance des données accrue.
  • Envisagez de stocker les informations d'identification de source de données fédérées dans une clé secrète dans Oracle Cloud Infrastructure Vault afin d'améliorer l'état de sécurité.
  • Envisagez d'utiliser les fonctionnalités de sécurité d'Autonomous Database, telles que la protection par occultation (masquage dynamique des données), dans les vues qui font apparaître les données fédérées pour améliorer la sécurité des données.
  • Envisagez d'utiliser le partage de données pour utiliser des données fédérées provenant de sources de données hétérogènes compatibles avec le protocole ouvert Delta Sharing.
  • Envisagez d'utiliser le partage de données pour partager des données organisées avec des consommateurs compatibles avec le protocole ouvert Delta Sharing.
  • Envisagez d'utiliser une connectivité hétérogène gérée par le client avec Oracle Database Gateway pour vous connecter à des sources de données fédérées avec une connectivité privée pour laquelle vous avez besoin d'une sécurité accrue, d'une latence plus faible ou des deux.

Oracle Analytics Cloud

Cette architecture s'appuie sur Oracle Analytics Cloud (OAC) pour fournir des analyses augmentées aux utilisateurs finaux.

  • Envisagez d'utiliser une large gamme de sources de données OAC pour compléter les sources de données fédérées utilisées par ADW.
  • Envisagez de fédérer les sources de données nécessaires dans OAC sur ADW pour améliorer les performances, la mise en cache, le déchargement du traitement vers le moteur de service et la simplification de la couche sémantique analytique.

Notez que cette architecture repose sur une architecture de référence de data lakehouse, y compris les recommandations applicables à votre architecture. Consultez la section Explorer plus pour un lien vers l'architecture de référence du lakehouse et les ressources.

Points à prendre en compte

Lors de la fédération des données à des fins d'analyse, tenez compte des options d'implémentation suivantes.

Instructions Recommandé Autres options Raisonnement
Raffinerie de données

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Transformations de données Oracle Autonomous Database

Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable.

Persistance des données
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse est une base de données facile à utiliser et entièrement autonome, d'une capacité élastique, sur laquelle les performances des requêtes sont excellentes et qui ne nécessite pas d'administration. Il offre également un accès direct aux données à partir de tables partitionnées externes ou hybrides de stockage d'objets.

Oracle Cloud Infrastructure Object Storage stocke un nombre illimité de données au format brut.

Traitement des données
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
Outils tiers

Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable.

Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à grande échelle avec un modèle de paiement à l'utilisation extrêmement élastique.

Accès et interprétation
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Services d'IA Oracle Cloud Infrastructure
Outils tiers

Oracle Analytics Cloud est entièrement géré et étroitement intégré aux données organisées dans Oracle Autonomous Data Warehouse.

Data Science est une plate-forme en libre-service entièrement gérée qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Le service Data Science fournit des outils d'infrastructure et de science des données tels que AutoML et des fonctionnalités de déploiement de modèle.

Oracle Machine Learning est une plate-forme en libre-service entièrement gérée pour la data science disponible avec Oracle Autonomous Data Warehouse qui tire parti de la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles de machine learning à grande échelle sans avoir à déplacer les données en dehors de l'entrepôt.

Les services d'IA Oracle Cloud Infrastructure sont un ensemble de services qui fournissent des modèles prédéfinis spécialement conçus et entraînés pour effectuer des tâches telles que l'inférence d'anomalies potentielles ou la détection de sentiments.

Remerciements

  • Author: José Cruz
  • Contributors: Robert Lies