Data Platform - Fédération de données

Une architecture d'entrepôt avec lac de données vous aidera à recueillir et à analyser efficacement les données d'événement et les données diffusées en continu à partir des appareils en temps réel et à les corréler avec un large éventail de ressources de données d'entreprise pour tirer parti de votre investissement en données et obtenir les renseignements que vous voulez.

Mais comment corrélez-vous les données de votre entrepôt avec lac de données avec les données qui résident sur vos sources de données hétérogènes ou qui sont déployées sur d'autres nuages ou systèmes sur place, sans avoir à dupliquer les données?

La réponse consiste à tirer parti d'une approche de fédération de données qui combine vos données d'entrepôt avec les données fédérées des magasins en nuage de tierce partie et les données des bases de données en nuage et sur place, peu importe leur emplacement physique.

Cette architecture de référence positionne la solution technologique dans le contexte global de l'entreprise :

Une description de data-driven-business-context.png suit

Description de l'illustration data-driven-business-context.png

La fédération de données est une technique qui permet l'intégration, l'unification et la gouvernance des données stockées dans différents magasins de données à l'aide d'un moteur d'interrogation fédéré qui convertit une seule interrogation en sous-interrogations expédiées aux magasins de données sources. Les résultats sont ensuite fusionnés et présentés à l'utilisateur ou à l'application, comme illustré ci-dessous.

Une description de data-platform-federation-overview.png suit

Description de l'illustration data-platform-federation-overview.png

données-plate-forme-fédération-aperçu-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

Souvent, la fédération des données est interchangée avec la virtualisation des données. La virtualisation des données crée une vue unifiée des données provenant de plusieurs sources sans dupliquer les données et fournit de nouvelles données en temps réel.

Aux fins de cette architecture de référence, le terme fédération de données est utilisé, même si les capacités décrites ci-dessous concernent à la fois la fédération et la virtualisation.

L'utilisation de la fédération de données simplifie l'accès aux données pour les consommateurs, comme les moteurs d'analyse et de science des données, en les connectant à un moteur de service fédéré plutôt qu'à plusieurs sources de données, augmentant ainsi la réutilisabilité, la gouvernance et la sécurité des données fédérées.

Les moteurs d'analyse offrent traditionnellement des capacités de fédération des données qui peuvent être utilisées en complément du moteur de service fédéré. En général, les moteurs de service de données fédérés ont plus de capacités pour augmenter les performances et traiter l'évolutivité, ce qui profite implicitement à ces moteurs d'analyse.

Ce document décrit une solution potentielle pour la fédération des données dans Oracle Cloud Infrastructure, mais il peut y avoir des alternatives qui utilisent différentes technologies pour différents scénarios.

Architecture fonctionnelle

Cette architecture utilise un entrepôt avec lac de données pour stocker les données et les utiliser, quelle que soit leur forme ou leur forme. Au cœur de cette architecture se trouve l'entrepôt de données déployé sur Oracle Autonomous AI Lakehouse.

En outre, l'architecture utilise un moteur d'interrogation unifié pour fédérer les données organisées provenant de sources sélectionnées avec les données de l'entrepôt avec lac de données. Les données fédérées sont obtenues à l'aide de mécanismes tels que les tables externes, les liens de base de données et le partage de données, selon le magasin de données.

Une architecture de fédération qui combine les données d'entrepôt avec lac de données et les magasins de données existants vous permet d'effectuer les opérations suivantes :

Joindre toutes les données, quel que soit l'endroit où elles sont stockées
Prise en charge d'une plate-forme de données multinuage et hybride qui fédère les données stockées sur d'autres nuages et sur place
Simplifier l'expérience du consommateur de données en obtenant et en interrogeant des données provenant de différents moteurs
Augmenter la sécurité, car un modèle de sécurité des données unique peut être appliqué au moteur d'interrogation fédéré
Augmenter la gouvernance à l'aide d'un catalogue de données qui unifie les métadonnées pour les entités stockées dans l'entrepôt avec lac de données et fédérées avec le moteur d'interrogation
Augmentez le rendement en tirant parti de la matérialisation des données et de la mise en mémoire cache autonome de la base de données
Présenter des données unifiées et organisées à différents consommateurs à l'aide de tableaux de bord d'analyse, d'interfaces SQL, de points d'extrémité d'API et de partage de données
Tirer parti d'une base de données multimodèle en tant que moteur d'interrogation fédéré

Le diagramme suivant illustre l'architecture fonctionnelle. Par souci de simplicité, toutes les capacités de l'entrepôt avec lac de données ne sont pas affichées.

Une description de data-platform-federation-functional.png suit

Description de l'illustration data-platform-federation-functional.png

données-plate-forme-fédération-fonctionnel-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

Notez que cette architecture représente une plate-forme de données fédérée qui utilise principalement le traitement par lots, mais elle peut être augmentée avec les capacités en temps réel de l'entrepôt avec lac de données pour traiter les données en continu.

Le traitement des données en continu doit souvent consommer des données contextuelles dans ses pipelines de données. Les données contextuelles peuvent être stockées sur différentes sources de données, mais un moteur de fédération de données qui transmet toutes les données contextuelles aux pipelines de données simplifie ces pipelines.

L'architecture se concentre sur les divisions logiques suivantes :

Ingérer, transformer

Ingère et affine les données à utiliser dans chacune des couches de données de l'architecture.

Les données fédérées sont consommées sur demande à partir du stockage en nuage, des bases de données et des partages de données. Les données ne sont pas transformées sur cette couche, car elles ont déjà été organisées dans le magasin de données source.

Conserver, organiser, créer

Facilite l'accès et la navigation des données pour afficher la vue d'affaires courante. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement sous des formes relationnelles, longitudinales, dimensionnelles ou OLAP simples. Pour les données non relationnelles, cette couche contient un ou plusieurs groupes de données, provenant soit d'un processus analytique, soit des données optimisées pour une tâche analytique spécifique.

Cette couche contient le moteur de service fédéré qui unifie et dessert les données résidant dans l'entrepôt de données, le lac de données et les sources de données fédérées. Il offre la possibilité d'interroger les données fédérées sur demande et de matérialiser les données fédérées pour une performance d'interrogation accrue.

Le moteur fédérateur offre la possibilité de servir les données à l'aide de SQL, d'API REST ou de partage de données, ce qui augmente l'interopérabilité tout en simplifiant la connectivité, car les consommateurs de données se connectent à un seul moteur de service plutôt qu'à plusieurs magasins de données.

Analyser, apprendre, prédire

Résume la vue d'affaires logique des données pour les consommateurs. Cette abstraction facilite les approches agiles au développement, à la migration vers l'architecture cible et à la fourniture d'une seule couche de production de rapports à partir de plusieurs sources fédérées.

Cette couche tire parti du moteur de service pour obtenir des données fédérées qui peuvent être augmentées davantage avec les connecteurs de données disponibles sur cette couche et fournis par les services de visualisation ou de science des données.

L'utilisation d'un moteur d'interrogation fédéré permet d'extraire l'accès des consommateurs de données des magasins de données sous-jacents, ce qui augmente la productivité, car les données sont fédérées une seule fois et consommées par de nombreux consommateurs de données. Cela rend également le système plus interopérable, car tout consommateur pouvant interagir avec SQL, les API REST ou le partage de données peut utiliser et joindre des données d'entrepôt avec lac de données et des données fédérées.

L'architecture comporte les composants fonctionnels suivants :

Ingestion par lots

L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses à adapter en cas d'ingestion en temps réel. Il est également important de transformer les données en informations fiables et fiables qui peuvent être organisées et conservées pour une consommation régulière.

L'ingestion par lots complète le moteur de fédération de données, car il peut ingérer des données auxquelles le moteur de fédération n'a pas d'accès natif, ou pour des cas d'utilisation spécifiques où les données doivent être transformées afin de se conformer au modèle de données de l'entrepôt avec lac de données.

Vous pouvez utiliser les services suivants ensemble ou indépendamment pour obtenir un flux de travail d'intégration et de transformation des données très flexible et efficace.

Oracle Cloud Infrastructure Data Integration est un service sans serveur entièrement géré pour la conception et l'exécution de pipelines de données. Il permet l'extraction, la transformation et le chargement transparents de données dans des cibles OCI telles que lacs avec intelligence artificielle autonome et le stockage d'objets OCI. Les utilisateurs peuvent créer des flux d'intégration au moyen d'une interface intuitive et sans code qui permet de mettre à l'échelle automatiquement les environnements d'exécution. Il prend en charge l'ETC avec le traitement basé sur Spark et ELT à l'aide de SQL Pushdown pour la performance et l'efficacité. Le service offre également des outils de préparation des données et protège contre la dérive de schéma avec un traitement basé sur des règles.
Oracle Data Integrator offre une intégration complète des données, des chargements par lots à haut volume et à haute performance aux processus d'intégration orientés événement, en passant par les services de données orientés SOA. Une approche de conception déclarative assure un développement et une maintenance plus rapides et plus simples, et fournit une approche unique pour extraire la transformation de charge (ELT) qui aide à garantir le plus haut niveau de performance possible pour les processus de transformation et de validation des données. Les transformations de données d'Oracle utilisent une interface Web pour simplifier la configuration et l'exécution des ELT et pour aider les utilisateurs à créer et à programmer des données et des flux de travail à l'aide d'une approche de conception déclarative.
Les transformations de données Oracle permettent d'utiliser ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux de données et des flux de travail de manière déclarative. Les transformations de données d'Oracle sont disponibles en tant qu'environnement entièrement géré dans Oracle Autonomous AI Lakehouse pour charger et transformer les données de plusieurs sources de données en une instance Oracle Autonomous AI Lakehouse.

Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour obtenir une intégration et une transformation des données très flexibles et performantes.

Traitement par lots

Le traitement par lots transforme les jeux de données à grande échelle stockés sur l'entrepôt avec lac de données. Le traitement par lots tire parti des services natifs d'Oracle Cloud Infrastructure qui s'intègrent de façon transparente à Oracle Cloud Infrastructure Object Storage et vous permet de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement des données, l'ingestion d'entrepôt de données et l'utilisation évolutive des données d'apprentissage automatique et d'intelligence artificielle.

Le service Oracle Cloud Infrastructure Data Integration, décrit ci-dessus, est un service en nuage natif, sans serveur et entièrement géré qui extrait, charge, transforme, nettoie et remodèle les données d'une variété de sources de données en services Oracle Cloud Infrastructure cibles, tels qu'Oracle Autonomous AI Lakehouse et Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow est un service de mégadonnées entièrement géré qui vous permet d'exécuter des applications Apache Spark sans avoir à déployer ou à gérer l'infrastructure. Il vous permet d'offrir des mégadonnées et des applications d'intelligence artificielle plus rapidement, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données sont des modèles réutilisables qui se composent d'une application Spark et de ses dépendances, de paramètres par défaut et d'une spécification de ressource d'exécution par défaut.

Portion

Oracle Autonomous AI Lakehouse est un service de base de données entièrement géré, autosécurisé et autoréparable optimisé pour les charges de travail d'entreposage de données. Il n'est pas nécessaire de configurer ou de gérer du matériel ni d'installer des logiciels. OCI gère la création, la sauvegarde, l'application de correctifs, la mise à niveau et le réglage de la base de données.

Une fois le provisionnement effectué, vous pouvez augmenter le nombre de coeurs d'UC ou la capacité de stockage de la base de données à tout moment, sans aucune incidence sur la disponibilité ou la performance.

Oracle Autonomous AI Lakehouse peut également virtualiser les données qui résident dans le stockage d'objets en tant que tables partitionnées externes et hybrides afin que vous puissiez joindre et consommer des données dérivées d'autres sources avec les données de l'entrepôt. Vous pouvez également déplacer des données historiques de l'entrepôt vers le stockage d'objets et les consommer de manière transparente à l'aide de tables partitionnées hybrides.

Oracle Autonomous AI Lakehouse peut utiliser les métadonnées collectées précédemment stockées dans Oracle Cloud Infrastructure Data Catalog pour créer des tables externes et synchroniser automatiquement les mises à jour de métadonnées dans Oracle Cloud Infrastructure Data Catalog avec la définition de tables externes afin de maintenir la cohérence, de simplifier la gestion et de réduire les efforts.

Les vues analytiques, une fonction Autonomous AI Database, fournissent un moyen rapide et efficace de créer des interrogations analytiques des données stockées dans des tables et des vues de base de données existantes. Les vues analytiques organisent les données à l'aide d'un modèle dimensionnel. Ils vous permettent d'ajouter facilement des agrégations et des calculs aux jeux de données et de présenter des données dans des vues qui peuvent être interrogées à l'aide d'un énoncé SQL relativement simple. Cette fonction vous permet de modéliser sémantiquement un schéma en étoile ou en flocon de neige directement dans Oracle Autonomous AI Lakehouse, à l'aide de données stockées à l'interne et à l'externe, et permet la consommation du modèle à l'aide de SQL et de tout consommateur de données conforme à SQL.

Oracle Autonomous AI Lakehouse permet de fédérer et d'interroger les données stockées dans des magasins en nuage de tierce partie (AWS S3, Azure Blob et GCP CGS), sur des bases de données en nuage de tierce partie (AWS Redshift, Azure Synapse Analytics, Google BigQuery et Snowflake), sur des bases de données de tierce partie (IBM DB2, MongoDB, PostrgreSQL, Hive) et même des applications SaaS.

Dans une seule interrogation, Oracle Autonomous AI Lakehouse peut interroger et joindre des données provenant de magasins en nuage, de bases de données en nuage et d'autres bases de données populaires, ce qui simplifie l'accès des données aux consommateurs des moteurs de service, car ils sont abstraits de la complexité de l'interrogation séparée, plusieurs moteurs d'interrogation, pour obtenir un résultat unifié. Il peut également combiner ces données avec des données obtenues à partir de partages de données fournis par des producteurs conformes au protocole ouvert Delta Sharing.

Stockage en nuage

Oracle Cloud Infrastructure Object Storage est une plate-forme de stockage haute performance sur Internet qui assure la durabilité des données de manière fiable et rentable. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris des données d'analyse. Vous pouvez stocker des données, ou les extraire en toute sécurité, directement à partir d'Internet ou de la plate-forme en nuage. Les interfaces de gestion multiples vous permettent de commencer facilement à petite échelle et de l'adapter de façon transparente, sans subir de dégradation des performances ou de la fiabilité du service.

Oracle Cloud Infrastructure Object Storage peut également être utilisé comme couche de stockage à froid pour l'entrepôt de données en stockant des données utilisées rarement, puis en les joignant de façon transparente aux données les plus récentes à l'aide de tables hybrides dans Oracle Autonomous AI Lakehouse.

Visualiser/Apprendre

Oracle Analytics Cloud est un service en nuage public évolutif et sécurisé qui fournit un jeu complet de fonctions d'analyse collaborative pour vous, votre groupe de travail et votre entreprise. Il prend en charge les scientifiques de données citoyens, la formation avancée des analystes d'affaires et l'exécution des modèles d'apprentissage automatique. Les modèles d'apprentissage automatique peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous AI Lakehouse en tant que modèles intégrés à OML pour les prédictions par lots à grande échelle qui tirent parti de la puissance de traitement, de l'extensibilité et de l'élasticité de l'entrepôt et des services d'intelligence artificielle d'OCI, tels qu'Oracle Cloud Infrastructure Vision.

Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion du service flexibles qui incluent une configuration rapide, une mise à l'échelle et des correctifs faciles, ainsi qu'une gestion du cycle de vie automatisée.

Apprendre et prédire

Oracle Cloud Infrastructure Data Science fournit une infrastructure, des technologies à code source libre, des bibliothèques, des ensembles et des outils de science des données pour que les équipes de science des données puissent créer, entraîner et gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et basé sur des projets offre une expérience utilisateur cohérente de bout en bout et prend en charge le cycle de vie des modèles prédictifs.

La fonction Tâches du service Science des données permet aux experts en science des données de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.

La fonction de déploiement de modèle du service Science des données permet aux experts en science des données de déployer des modèles entraînés en tant que points d'extrémité HTTP entièrement gérés qui peuvent fournir des prédictions en temps réel, fournissant des informations aux processus et aux applications, et permettant à l'entreprise de réagir aux événements pertinents lorsqu'ils se produisent.

Oracle Machine Learning fournit de puissantes capacités d'apprentissage automatique étroitement intégrées dans Oracle Autonomous AI Database, avec la prise en charge de Python et d'AutoML. Il prend en charge les modèles à l'aide d'algorithmes à source ouverte et évolutifs dans la base de données qui réduisent la préparation et le mouvement des données. AutoML aide les spécialistes des données à accélérer le temps nécessaire pour rentabiliser les initiatives d'apprentissage automatique de l'entreprise en utilisant la sélection automatique des algorithmes, l'échantillonnage adaptatif des données, la sélection automatique des fonctions et la mise au point automatique des modèles. Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous AI Lakehouse, vous pouvez non seulement gérer les modèles, mais vous pouvez également les déployer en tant que points d'extrémité REST afin de démocratiser les prédictions en temps réel au sein de l'entreprise en permettant aux entreprises de réagir aux événements pertinents dès qu'ils surviennent, plutôt qu'après coup.

Services d'IA

Les services Oracle Cloud Infrastructure AI Services fournissent un jeu de services d'IA prêts à l'emploi qui peuvent être utilisés pour prendre en charge un éventail de cas d'utilisation, de l'analyse de texte à la maintenance prédictive. Ces services ont des modèles prédéfinis et finement réglés que vous pouvez intégrer dans des pipelines de données, des analyses et des applications à l'aide d'API.

Oracle Cloud Infrastructure Anomaly Detection fournit un jeu étoffé d'outils pour identifier en temps réel les événements indésirables ou les observations dans les données d'affaires afin que vous puissiez prendre des mesures pour éviter les interruptions d'activité.

Oracle Cloud Infrastructure Language effectue des analyses de texte sophistiquées à grande échelle. Avec des modèles préentraînés et personnalisés, les développeurs peuvent traiter du texte non structuré et extraire des informations sans avoir recours à une expertise en science des données. Les modèles préentraînés prennent en charge l'analyse des sentiments, l'extraction des expressions clés, la classification de texte et la reconnaissance d'entités nommées. Vous pouvez également entraîner des modèles personnalisés pour la reconnaissance d'entités nommées et la classification de texte à l'aide de jeux de données propres à un domaine. Le service de traduction vous permet de traduire du texte dans 21 langues différentes.

Oracle Cloud Infrastructure Speech exploite la puissance de la langue parlée en vous permettant de convertir facilement des fichiers multimédias contenant de la parole humaine en transcriptions de texte très précises. Le service Séance OCI peut être utilisé pour transcrire les appels du service à la clientèle, automatiser le sous-titrage et générer des métadonnées pour les ressources multimédias afin de créer une archive entièrement interrogeable.

Oracle Cloud Infrastructure Vision effectue des tâches de reconnaissance d'images et d'analyse de documents telles que la classification des images, la détection et les faces, l'extraction de texte et la reconnaissance des tables. Vous pouvez utiliser des modèles préentraînés ou créer facilement des modèles de vision personnalisés pour des scénarios propres à l'industrie et aux clients. OCI Vision est un service en nuage natif multilocataire entièrement géré qui aide à toutes les tâches de vision par ordinateur courantes.

Le service de compréhension de documents pour Oracle Cloud Infrastructure effectue des tâches d'analyse de documents telles que l'extraction de texte et la reconnaissance des tables. Le service OCI Document Understanding est un service en nuage natif multilocataire entièrement géré qui aide à toutes les tâches d'analyse de document courantes.

Enrichissement des données

L'enrichissement des données peut améliorer les données utilisées pour entraîner les modèles d'apprentissage automatique afin d'obtenir des résultats de prédiction meilleurs et plus précis.

Oracle Cloud Infrastructure Data Labeling vous permet de créer et de parcourir des jeux de données, de voir des enregistrements de données (texte ou images) et d'appliquer des étiquettes aux fins de création de modèles d'intelligence artificielle ou d'apprentissage automatique. Le service fournit également des interfaces utilisateur interactives conçues pour faciliter le processus d'étiquetage. Une fois les enregistrements étiquetés, le jeu de données peut être exporté en tant que JSON délimité par des lignes pour être utilisé dans le développement de modèles d'intelligence artificielle ou d'apprentissage automatique.

API

La couche d'API vous permet d'infuser l'intelligence dérivée du service de science des données et d'Oracle Machine Learning dans des applications, des processus d'affaires et des éléments pour influencer et améliorer leur fonctionnement et leur fonction. La couche d'API fournit une consommation sécurisée des modèles déployés par le service Science des données pour les points d'extrémité REST d'Oracle Machine Learning et la possibilité de régir le système afin de garantir la disponibilité des environnements d'exécution. Vous pouvez également utiliser des fonctions pour exécuter une logique supplémentaire au besoin.

Le service de passerelle d'API pour Oracle Cloud Infrastructure API Gateway vous permet de publier des API avec des points d'extrémité privés qui sont accessibles depuis votre réseau, et que vous pouvez exposer avec des adresses IP publiques si vous souhaitez qu'elles acceptent le trafic Internet. Les points d'extrémité prennent en charge la validation, la transformation des demandes et des réponses, la CORS, l'authentification et l'autorisation, ainsi que la limitation des demandes pour les API. Il permet l'observabilité des API pour surveiller l'utilisation et garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs des API et les clients d'API qui accèdent aux API et pour configurer différents niveaux d'accès pour différents clients afin de suivre l'utilisation des données qui sont consommées à l'aide des API. Les plans d'utilisation sont une fonction clé pour la prise en charge de la monétisation des données.

Oracle Cloud Infrastructure Functions est une plate-forme de fonctions-service entièrement gérée, multilocataire, hautement évolutive et sur demande. Elle s'appuie sur Oracle Cloud Infrastructure de niveau entreprise et utilise le moteur à source ouverte Fn Project.

Oracle REST Data Services (ORDS) est une application Java qui permet aux développeurs disposant de compétences en SQL et en base de données de développer des API REST pour Oracle Database. Tout développeur d'application peut utiliser ces API à partir de n'importe quel environnement de langage, sans installer et tenir à jour les pilotes client, de la même manière qu'ils accèdent à d'autres services externes au moyen de REST, la technologie d'API la plus utilisée. ORDS est déployé en tant que fonction entièrement gérée dans Oracle Autonomous AI Lakehouse et peut être utilisé pour exposer les informations d'entrepôt avec lac de données à l'aide d'API aux consommateurs de données.

Gouvernance des données

Oracle Cloud Infrastructure Data Catalog fournit une visibilité sur l'emplacement des ressources techniques, telles que les métadonnées et les attributs respectifs, et permet de tenir à jour un glossaire d'entreprise mappé à ces métadonnées techniques. Oracle Cloud Infrastructure Data Catalog peut également servir des métadonnées à l'entrepôt Oracle Autonomous AI Lakehouse pour faciliter la création de tables externes dans l'entrepôt de données.

Sécurité des données

La sécurité des données est cruciale pour explorer et utiliser les données des entrepôts avec lac de données dans leur pleine mesure. En tirant parti d'un modèle de sécurité zéro confiance avec des capacités de défense en profondeur et de contrôle d'accès basé sur les rôles, et en assurant la conformité avec la réglementation la plus stricte, la sécurité des données fournit des contrôles de sécurité préventifs, de détection et correctifs pour s'assurer que l'exfiltration et les violations de données sont évitées.

Oracle Data Safe est un service Oracle Cloud entièrement intégré axé sur la sécurité des données. Il fournit un jeu complet et intégré de fonctions permettant de protéger les données sensibles et réglementaires dans les bases de données Oracle Cloud, telles qu'Oracle Autonomous AI Lakehouse. Ces fonctions incluent l'évaluation de la sécurité, l'évaluation des utilisateurs, la détection de données, le masquage de données et la vérification des activités.

Oracle Cloud Infrastructure Audit fournit une visibilité sur les activités liées aux ressources et aux locations Oracle Cloud Infrastructure (OCI). Vous pouvez utiliser les événements du journal de vérification pour vérifier la sécurité afin de suivre l'utilisation des ressources OCI et leurs modifications, ainsi que pour assurer la conformité aux normes et réglementations.

Le service de journalisation pour Oracle Cloud Infrastructure Logging fournit une interface unique très évolutive et entièrement gérée pour tous les journaux de la location, y compris les journaux de vérification. Utilisez le service Journalisation pour OCI pour accéder aux journaux de toutes les ressources OCI afin de les activer, de les gérer et de les rechercher.

Oracle Cloud Infrastructure Vault est un service de gestion du chiffrement qui stocke et gère les clés de chiffrement et les clés secrètes permettant d'accéder en toute sécurité aux ressources. Permet d'utiliser des clés gérées par le client pour le chiffrement d'Oracle Autonomous AI Lakehouse et du lac de données pour une protection accrue des données au repos. Il permet aux clés secrètes de stocker en toute sécurité les services et les données d'identification d'utilisateur afin d'améliorer votre sécurité et de vous assurer que les données d'identification ne sont pas compromises et utilisées de manière inappropriée.

Architecture physique

L'architecture physique de cette plate-forme de données prend en charge les éléments suivants :

Oracle Autonomous AI Lakehouse obtient des données à partir de sources de données fédérées à l'aide des fonctions de connectivité hétérogène gérées par Oracle
Oracle Autonomous AI Lakehouse utilise des bases de données cibles accessibles à partir de l'Internet public qui sont configurées et autorisent les connexions SSL/TLS entrantes, de sorte que la connectivité hétérogène gérée par Oracle puisse se connecter et interroger les données en toute sécurité
Oracle Autonomous AI Lakehouse lit les données de Databricks à l'aide de partages de données
Les partages de données Databricks sont accessibles via l'Internet public, mais sont sécurisés à l'aide des fichiers de données d'identification fournis par Databricks
Les données d'AWS S3, Azure Blob et Google Cloud Storage sont soit fédérées et lues sur demande à l'aide de tables externes, soit copiées dans Oracle Autonomous AI Lakehouse selon le cas d'utilisation et les exigences
Les données provenant de sources de données non fédérées sont ingérées en toute sécurité à l'aide de micro-lots et de fichiers provenant de sources de données relationnelles et non relationnelles qui ne sont pas fédérées
Les données sont traitées à l'aide d'une combinaison d'Oracle Cloud Infrastructure Data Integration et d'Oracle Cloud Infrastructure Data Flow
Les données sont stockées dans Oracle Autonomous AI Lakehouse et Oracle Cloud Infrastructure Object Storage et organisées en fonction de leur qualité et de leur valeur
Oracle Autonomous AI Lakehouse sert les données d'entrepôt, de lac et fédérées en toute sécurité aux consommateurs
Oracle Analytics Cloud transmet les données aux utilisateurs professionnels à l'aide de visualisations
Oracle Analytics Cloud est exposé à l'aide d'Oracle Cloud Infrastructure Load Balancer sécurisé par le service de pare-feu d'application Web pour Oracle Cloud Infrastructure Web Application Firewall (WAF) pour fournir un accès à l'aide d'Internet
Oracle Cloud Infrastructure Data Science est utilisé pour créer, entraîner et déployer des modèles d'apprentissage automatique
Le service Passerelle d'API pour Oracle Cloud Infrastructure API Gateway est utilisé pour régir les déploiements de modèle d'apprentissage automatique du service Science des données
Oracle Cloud Infrastructure Data Catalog collecte les métadonnées à partir d'Oracle Autonomous AI Lakehouse et du stockage d'objets
Oracle Cloud Infrastructure Bastion est utilisé par les administrateurs pour gérer les ressources en nuage privées

Le diagramme suivant illustre l'architecture :

Une description de data-platform-federation-physical.png suit

Description de l'illustration data-platform-federation-physical.png

data-platform-federation-physical-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

La conception de l'architecture physique :

Tire parti de 2 réseaux en nuage virtuels, l'un pour le concentrateur et l'autre pour la charge de travail elle-même
La connectivité sur place exploite à la fois Oracle Cloud Infrastructure FastConnect et Oracle Cloud Infrastructure Site-to-Site VPN à des fins de redondance
Tout le trafic entrant à partir des locaux et d'Internet est d'abord acheminé vers le VCN central, puis vers le VCN de charge de travail
Toutes les données sont sécurisées en transit et au repos
Les services sont déployés avec des points d'extrémité privés pour renforcer la sécurité
Le VCN est séparé en plusieurs sous-réseaux privés pour renforcer la sécurité
Les données de lac sont séparées en plusieurs seaux dans le stockage d'objets, tirant parti d'une architecture de médaillon
Les sources de données fédérées et les magasins en nuage sont accessibles à l'aide de la connectivité publique et de la passerelle NAT attachées au VCN de charge de travail

Les améliorations potentielles de la conception qui ne sont pas décrites dans ce déploiement pour des raisons de simplicité comprennent :

Tirer parti d'une connectivité hétérogène gérée par le client, à l'aide d'Oracle Database Gateway, pour se connecter à des sources de données fédérées à l'aide d'une connectivité privée
Tirer parti d'une zone d'atterrissage complète conforme aux normes CIS
Tirer parti d'un pare-feu de réseau pour améliorer la sécurité globale en inspectant tout le trafic et en appliquant des politiques

Recommandations

Utilisez les recommandations suivantes comme point de départ pour utiliser des données provenant de sources de données hétérogènes à des fins d'analyse commerciale et d'apprentissage automatique.

Vos exigences peuvent différer de l'architecture décrite ici.

Oracle Autonomous AI Lakehouse

Cette architecture utilise Oracle Autonomous AI Lakehouse sur une infrastructure partagée.

Envisagez d'utiliser des vues matérialisées pour augmenter les performances lors de l'accès aux données fédérées.
Envisagez d'actualiser les vues matérialisées avec la fréquence nécessaire pour éviter que les données fédérées ne soient bloquées.
Envisagez de créer des vues pour interroger les données à l'aide de liens de base de données provenant de sources fédérées afin que ces vues soient collectées et cataloguées dans Oracle Cloud Infrastructure Data Catalog pour une gouvernance accrue des données.
Envisagez de stocker les données d'identification de la source de données fédérée dans une clé secrète d'Oracle Cloud Infrastructure Vault pour améliorer la sécurité.
Envisagez d'utiliser les fonctions de sécurité de la base de données d'IA autonome, telles que l'occultation (masquage dynamique des données), dans les vues qui présentent des données fédérées pour accroître la sécurité des données.
Envisagez d'utiliser le partage de données pour consommer des données fédérées à partir de sources de données hétérogènes compatibles avec le protocole ouvert Delta Sharing.
Envisagez d'utiliser le partage de données pour partager des données organisées avec des consommateurs compatibles avec le protocole ouvert Delta Sharing.
Envisagez d'utiliser une connectivité hétérogène gérée par le client avec Oracle Database Gateway pour vous connecter à des sources de données fédérées avec une connectivité privée pour laquelle vous avez besoin d'une sécurité accrue, d'une latence inférieure ou des deux.

Oracle Analytics Cloud

Cette architecture tire parti d'Oracle Analytics Cloud (OAC) pour fournir des analyses augmentées aux utilisateurs finaux.

Envisagez d'utiliser la vaste gamme de sources de données d'OAC pour compléter les sources de données fédérées utilisées par Oracle Autonomous AI Lakehouse.
Envisagez de fédérer les sources de données nécessaires dans OAC sur Oracle Autonomous AI Lakehouse pour une performance accrue, la mise en mémoire cache, le déchargement du traitement vers le moteur de service et la simplification de la couche sémantique analytique.

Notez que cette architecture repose sur une architecture de référence d'entrepôt avec lac de données, y compris les recommandations qui s'appliquent à votre architecture. Consultez la section Explorer plus pour obtenir un lien vers l'architecture de référence de l'entrepôt avec lac de données et les ressources.

Points à considérer

Lorsque vous fédérez des données à des fins d'analyse, tenez compte des options de mise en oeuvre suivantes.

Assistance	Recommandations	Autres options	Explication
Raffinerie de données	Service d'intégration de données pour Oracle Cloud Infrastructure	Oracle Data Integrator Les transformations de données d'Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration fournit une plate-forme d'extraction, de chargement et de chargement (ETL) en nuage native, sans serveur et entièrement gérée, évolutive et rentable.
Persistance des données	Oracle Autonomous AI Lakehouse Service de stockage d'objets pour Oracle Cloud Infrastructure	Service Oracle Exadata Database	Oracle Autonomous AI Lakehouse est une base de données entièrement autonome et facile à utiliser qui s'adapte de manière élastique, fournit des performances rapides en matière d'interrogations et ne nécessite aucune administration. Il offre également un accès direct aux données des tables partitionnées externes ou hybrides du stockage d'objets. Le service Oracle Cloud Infrastructure Object Storage stocke un nombre illimité de données dans un format brut.
Traitement des données	Service d'intégration de données pour Oracle Cloud Infrastructure Service de flux de données pour Oracle Cloud Infrastructure	Outils de tierce partie	Oracle Cloud Infrastructure Data Integration fournit une plate-forme d'extraction, de chargement et de chargement (ETL) en nuage native, sans serveur et entièrement gérée, évolutive et rentable. Le service de flux de données pour Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à grande échelle avec un modèle de paiement à l'utilisation extrêmement élastique.
Accès et interprétation	Oracle Analytics Cloud Service de science des données pour Oracle Cloud Infrastructure Oracle Machine Learning Services d'intelligence artificielle pour Oracle Cloud Infrastructure	Outils de tierce partie	Oracle Analytics Cloud est entièrement géré et étroitement intégré aux données organisées dans l'entrepôt avec lac de données autonome sur l'IA. Le service de science des données est une plate-forme en libre service entièrement gérée qui permet aux équipes d'experts en science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Le service de science des données fournit des outils d'infrastructure et de science des données tels qu'AutoML et les capacités de déploiement de modèles. Oracle Machine Learning est une plateforme en libre-service entièrement gérée pour la science des données disponible sur Oracle Autonomous AI Lakehouse qui tire parti de la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles d'apprentissage automatique à grande échelle sans avoir à déplacer les données en dehors de l'entrepôt. Les services d'intelligence artificielle pour Oracle Cloud Infrastructure sont un ensemble de services qui fournissent des modèles prédéfinis spécialement conçus et entraînés pour effectuer des tâches telles que l'inférence d'anomalies potentielles ou la détection de sentiments.

Informations complémentaires

En savoir plus sur les caractéristiques de cette architecture et sur les architectures connexes.

Remerciements

Author: José Cruz

Contributors: Robert Lies