Data Platform - Fédération de données

Une architecture de data lakehouse vous aidera à collecter et à analyser efficacement les données d'événement et les données de transmission en continu à partir d'appareils en temps réel, et à les corréler avec un large éventail de ressources de données d'entreprise pour tirer parti de votre investissement en données et obtenir les informations que vous souhaitez.

Mais comment corrélez-vous les données de votre data lakehouse avec celles qui résident dans vos sources de données hétérogènes ou déployées sur d'autres clouds ou systèmes on-premise, sans avoir à dupliquer les données ?

La réponse est de tirer parti d'une approche de fédération de données qui combine vos données de data lakehouse avec des données fédérées provenant de magasins cloud tiers et des données de bases de données cloud et sur site, quel que soit leur emplacement physique.

Cette architecture de référence positionne la solution technologique dans le contexte commercial global :

Description de l'image data-driven-business-context.png ci-après

Description de l'illustration data-driven-business-context.png ci-après

La fédération de données est une technique qui permet l'intégration, l'unification et la gouvernance des données stockées dans différentes banques de données à l'aide d'un moteur de requête fédéré qui convertit une requête unique en sous-requêtes envoyées aux banques de données source. Les résultats sont ensuite fusionnés et présentés à l'utilisateur ou à l'application, comme indiqué ci-dessous.

Description de l'image data-platform-federation-overview.png ci-après

Description de l'illustration data-platform-federation-overview.png ci-après

data-platform-federation-overview-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

La fédération de données est souvent interchangée avec la virtualisation des données. La virtualisation des données crée une vue unifiée des données provenant de plusieurs sources sans dupliquer les données et fournit de nouvelles données en temps réel.

Aux fins de cette architecture de référence, le terme fédération de données est utilisé, même si les fonctionnalités décrites ci-dessous concernent à la fois la fédération et la virtualisation.

L'utilisation de la fédération de données simplifie l'accès aux données pour les consommateurs, tels que les moteurs d'analyse et de science des données, en les connectant à un moteur de service fédéré plutôt qu'à plusieurs sources de données, ce qui augmente la réutilisabilité, la gouvernance et la sécurité des données fédérées.

Les moteurs d'analyse offrent traditionnellement des fonctionnalités de fédération de données qui peuvent être utilisées en complément du moteur de service fédéré. Généralement, les moteurs de service de données fédérées ont plus de capacités pour augmenter les performances et gérer l'évolutivité, ce qui profite implicitement à ces moteurs d'analyse.

Ce document décrit une solution potentielle pour la fédération de données dans Oracle Cloud Infrastructure, mais il existe des alternatives qui utilisent différentes technologies pour différents scénarios.

Architecture fonctionnelle

Cette architecture utilise un data lakehouse pour stocker et utiliser les données, quelle que soit leur forme ou leur forme. L'entrepôt de données déployé sur Oracle Autonomous AI Lakehouse est au cœur de cette architecture.

En outre, l'architecture utilise un moteur de requête unifié pour fédérer les données organisées à partir de sources sélectionnées avec les données du lakehouse. Les données fédérées sont obtenues à l'aide de mécanismes tels que les tables externes, les liens de base de données et le partage de données, en fonction de la banque de données.

Une architecture de fédération qui combine des données de lakehouse et des banques de données existantes vous permet d'effectuer les opérations suivantes :

Joindre toutes les données, quel que soit leur emplacement de stockage
Prendre en charge une plate-forme de données multicloud et cloud hybride qui fédère les données stockées sur d'autres clouds et on-premise
Simplifiez l'expérience des consommateurs de données en obtenant et en interrogeant des données provenant de différents moteurs
Améliorer la sécurité en tant que modèle de sécurité des données unique peut être appliqué au moteur de requête fédéré
Améliorer la gouvernance à l'aide d'un catalogue de données qui unifie les métadonnées pour les entités stockées dans le lakehouse et fédérées avec le moteur de requête
Augmenter les performances en tirant parti de la matérialisation des données et de la mise en cache autonome des bases de données
Exposer des données unifiées et organisées à différents consommateurs à l'aide de tableaux de bord d'analyse, d'interfaces SQL, d'adresses d'API et de partage de données
Exploiter une base de données multimodèle en tant que moteur de requête fédéré

Le schéma suivant illustre l'architecture fonctionnelle. Par souci de simplicité, toutes les capacités du lakehouse ne sont pas montrées.

Description de l'image data-platform-federation-functional.png ci-après

Description de l'illustration data-platform-federation-functional.png

plate-forme de données-fédération-fonctionnel-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

Notez que cette architecture représente une plate-forme de données fédérée qui utilise principalement le traitement par lots, mais elle peut être complétée par les fonctionnalités en temps réel du data lakehouse pour traiter les données en continu.

Le traitement des données en continu doit souvent utiliser des données contextuelles dans ses pipelines de données. Les données contextuelles peuvent être stockées sur différentes sources de données, mais un moteur de fédération de données qui dessert toutes les données contextuelles aux pipelines de données simplifie ces pipelines.

L'architecture se concentre sur les divisions logiques suivantes :

Assimilation, transformation

Ingère et affine les données à utiliser dans chacune des couches de données de l'architecture.

Les données fédérées sont utilisées à la demande à partir du stockage cloud, des bases de données et des partages de données. Les données ne sont pas transformées sur cette couche car elles ont déjà été organisées dans la banque de données source.

Conserver, organiser et créer

Facilite l'accès et la navigation aux données pour afficher la vue métier actuelle. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement dans de simples formulaires relationnels, longitudinaux, dimensionnels ou OLAP. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, soit issus d'un processus analytique, soit des données optimisées pour une tâche analytique spécifique.

Cette couche contient le moteur de service fédéré qui unifie et sert les données résidant dans le data warehouse, le lac de données et les sources de données fédérées. Il offre la possibilité d'interroger les données fédérées à la demande et de matérialiser les données fédérées pour améliorer les performances des requêtes.

Le moteur de fédération offre la possibilité de fournir des données à l'aide de SQL, d'API REST ou de partage de données, ce qui augmente l'interopérabilité tout en simplifiant la connectivité, car les consommateurs de données se connectent à un moteur de service unique plutôt qu'à plusieurs banques de données.

Analyser, apprendre, prévoir

Abstrait la vue logique des données pour les consommateurs. Cette abstraction facilite les approches agiles du développement, de la migration vers l'architecture cible et de la fourniture d'une seule couche de reporting à partir de plusieurs sources fédérées.

Cette couche exploite le moteur de service pour obtenir des données fédérées qui peuvent être encore augmentées avec les connecteurs de données disponibles sur cette couche et fournis par les services de visualisation ou de science des données.

L'utilisation d'un moteur d'interrogation fédéré permet au consommateur de données d'être abstrait des banques de données sous-jacentes, ce qui augmente la productivité car les données sont fédérées une fois et consommées par de nombreux consommateurs de données. Cela rend également le système plus interopérable, car tout consommateur capable d'interagir avec SQL, les API REST ou le partage de données peut utiliser et joindre des données de lakehouse et fédérées.

L'architecture comporte les composants fonctionnels suivants :

Assimilation par lot

L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses à adapter pour l'ingestion en temps réel. Il est également important de transformer les données en informations fiables et fiables qui peuvent être organisées et conservées pour une consommation régulière.

L'inclusion par lots complète le moteur de fédération de données car il peut ingérer des données auxquelles le moteur de fédération n'a pas d'accès natif ou pour des cas d'utilisation spécifiques où les données doivent être transformées pour être conformes au modèle de données du lakehouse.

Vous pouvez utiliser les services suivants ensemble ou indépendamment pour obtenir un workflow d'intégration et de transformation des données extrêmement flexible et efficace.

Oracle Cloud Infrastructure Data Integration est un service sans serveur entièrement géré permettant de concevoir et d'exécuter des pipelines de données. Elle permet une extraction, une transformation et un chargement transparents des données vers des cibles OCI telles qu'Autonomous AI Lakehouse et OCI Object Storage. Les utilisateurs peuvent créer des flux d'intégration via une interface intuitive et sans code qui met à l'échelle automatiquement les environnements d'exécution. Il prend en charge à la fois ETL avec le traitement basé sur Spark et ELT avec SQL Pushdown pour les performances et l'efficacité. Le service offre également des outils de préparation des données et protège contre la dérive de schéma grâce à la gestion basée sur des règles.
Oracle Data Integrator fournit une intégration complète des données, des chargements de lots à volume élevé et hautes performances aux processus d'intégration basés sur les événements et sur l'alimentation, en passant par les services de données compatibles SOA. Une approche de conception déclarative garantit un développement et une maintenance plus rapides et plus simples, et fournit une approche unique pour l'extraction de la transformation de charge (ELT) qui permet de garantir le plus haut niveau de performances possible pour les processus de transformation et de validation des données. Les transformations de données Oracle utilisent une interface Web pour simplifier la configuration et l'exécution d'ELT et pour aider les utilisateurs à créer et planifier des données et des flux de travail à l'aide d'une approche de conception déclarative.
Les transformations de données Oracle permettent l'ELT pour les technologies prises en charge sélectionnées, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux et des workflows de données de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous AI Lakehouse pour charger et transformer des données provenant de plusieurs sources de données en une instance Oracle Autonomous AI Lakehouse.

Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour réaliser une intégration et une transformation des données hautement flexibles et performantes.

Traitement par lots

Le traitement par lots transforme les ensembles de données à grande échelle stockés sur le data lakehouse. Le traitement par lots s'appuie sur les services natifs Oracle Cloud Infrastructure qui s'intègrent de manière transparente à Oracle Cloud Infrastructure Object Storage et vous permet de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement des données, l'assimilation des entrepôts de données et l'utilisation à grande échelle des données de machine learning et d'IA.

Oracle Cloud Infrastructure Data Integration, décrit ci-dessus, est un service cloud natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle les données de diverses sources de données en services Oracle Cloud Infrastructure cible, tels qu'Oracle Autonomous AI Lakehouse et Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow est un service Big Data entièrement géré qui vous permet d'exécuter des applications Apache Spark sans avoir à déployer ou à gérer l'infrastructure. Il vous permet de fournir plus rapidement des applications de Big Data et d'IA, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données se composent d'une application Spark, de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut.

Portion

Oracle Autonomous AI Lakehouse est un service de base de données à pilotage automatique, à sécurité automatique et à réparation automatique optimisé pour les workloads d'entreposage de données. Vous n'avez pas besoin de configurer ni de gérer un matériel, ni d'installer un logiciel. OCI gère la création, la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

Une fois le provisionnement terminé, vous pouvez redimensionner à tout moment le nombre de coeurs de processeur ou la capacité de stockage de la base de données sans influer sur la disponibilité ou sur les performances.

Oracle Autonomous AI Lakehouse peut également virtualiser les données qui résident dans le stockage d'objets en tant que tables partitionnées externes et hybrides afin que vous puissiez joindre et utiliser des données dérivées d'autres sources avec les données de l'entrepôt. Vous pouvez également déplacer des données historiques de l'entrepôt vers le stockage d'objets, puis les utiliser en toute transparence à l'aide de tables partitionnées hybrides.

Oracle Autonomous AI Lakehouse peut utiliser les métadonnées précédemment collectées stockées dans Oracle Cloud Infrastructure Data Catalog pour créer des tables externes, et peut synchroniser automatiquement les mises à jour de métadonnées dans Oracle Cloud Infrastructure Data Catalog avec la définition de tables externes afin de maintenir la cohérence, de simplifier la gestion et de réduire les efforts.

Les vues analytiques, une fonctionnalité de base de données d'IA autonome, offrent un moyen rapide et efficace de créer des requêtes analytiques de données stockées dans des tables et des vues de base de données existantes. Les vues analytiques organisent les données à l'aide d'un modèle dimensionnel. Ils permettent d'ajouter facilement des agrégations et des calculs aux ensembles de données, et de présenter des données dans les vues qui peuvent faire l'objet d'une requête avec du code SQL relativement simple. Cette fonctionnalité vous permet de modéliser sémantiquement un schéma en étoile ou en flocons directement dans Oracle Autonomous AI Lakehouse, à l'aide de données stockées en interne et en externe, et permet d'utiliser le modèle à l'aide de SQL et de tout consommateur de données compatible SQL.

Oracle Autonomous AI Lakehouse permet de fédérer et d'interroger les données stockées sur des magasins cloud tiers (à savoir AWS S3, Azure Blob et GCP CGS), sur des bases de données cloud tierces (à savoir AWS Redshift, Azure Synapse Analytics, Google BigQuery et Snowflake), des bases de données tierces (à savoir IBM DB2, MongoDB, PostrgreSQL, Hive) et même des applications SaaS.

Dans une seule requête, Oracle Autonomous AI Lakehouse peut interroger et joindre les données des magasins cloud, des bases de données cloud et d'autres bases de données populaires, ce qui simplifie l'accès aux données pour les consommateurs de moteurs de service, car ils sont abstraits de la complexité de l'interrogation séparément, de plusieurs moteurs de requête, pour obtenir un résultat unifié. Il peut également combiner ces données avec des données obtenues à partir de partages de données fournis par des producteurs conformes au protocole ouvert Delta Sharing.

Stockage cloud

Oracle Cloud Infrastructure Object Storage est une plateforme de stockage hautes performances, à l'échelle d'Internet, qui offre la durabilité fiable et rentable en matière d'accès aux données. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris de données analytiques. Vous pouvez stocker ou extraire des données directement depuis Internet ou à partir de la plate-forme cloud de manière sûre et sécurisée. Les interfaces de gestion multiples vous permettent de démarrer facilement à petite échelle et de vous adapter en toute transparence, sans subir de dégradation des performances ni de la fiabilité du service.

Oracle Cloud Infrastructure Object Storage peut également être utilisé comme couche de stockage à froid pour l'entrepôt de données en stockant les données rarement utilisées, puis en les joignant de manière transparente aux données les plus récentes à l'aide de tables hybrides dans Oracle Autonomous AI Lakehouse.

Visualiser/Apprendre

Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre des fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe de Travail et votre entreprise. Il prend en charge les data scientists citoyens, la formation avancée des business analysts et l'exécution de modèles de machine learning (ML). Les modèles de machine learning peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous AI Lakehouse en tant que modèles intégrés à OML pour les prévisions de batch à grande échelle qui tirent parti de la puissance de traitement, de l'évolutivité et de l'élasticité de l'entrepôt et des services d'IA OCI, tels qu'Oracle Cloud Infrastructure Vision.

Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion des services flexibles, notamment une configuration rapide, une mise à l'échelle et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.

Apprendre et prévoir

Oracle Cloud Infrastructure Data Science fournit aux équipes de data science une infrastructure, des technologies open source, des bibliothèques, des packages et des outils de data science pour créer, entraîner et gérer des modèles de machine learning dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et orienté projet inclut une expérience utilisateur cohérente de bout en fin et prend en charge le cycle de vie des modèles prédictifs.

La fonctionnalité de travaux Data Science permet aux analystes de données de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.

La fonctionnalité de déploiement de modèle Data Science permet aux analystes de données de déployer des modèles entraînés en tant qu'adresses HTTP entièrement gérées, capables de fournir des prédictions en temps réel, d'intégrer des informations dans les processus et les applications et de permettre à l'entreprise de réagir aux événements pertinents lorsqu'ils se produisent.

Oracle Machine Learning fournit de puissantes fonctionnalités de machine learning étroitement intégrées dans Oracle Autonomous AI Database, avec la prise en charge de Python et d'AutoML. Il prend en charge les modèles utilisant des algorithmes open source et évolutifs dans la base de données qui réduisent la préparation et le mouvement des données. AutoML aide les data scientists à accélérer la valorisation des initiatives de machine learning de l'entreprise en utilisant la sélection automatique d'algorithmes, l'échantillonnage adaptatif des données, la sélection automatique des fonctionnalités et le réglage automatique des modèles. Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous AI Lakehouse, vous pouvez non seulement gérer les modèles, mais vous pouvez également déployer ces modèles en tant qu'adresses REST afin de démocratiser les prédictions en temps réel au sein de l'entreprise, ce qui permet aux entreprises de réagir aux événements pertinents au fur et à mesure qu'ils se produisent, plutôt qu'après coup.

Services d'IA

Les services Oracle Cloud Infrastructure AI Services fournissent un ensemble de services d'IA prêts à l'emploi qui peuvent être utilisés pour prendre en charge un large éventail de cas d'utilisation, de l'analyse de texte à la maintenance prédictive. Ces services disposent de modèles prédéfinis et finement ajustés que vous pouvez intégrer dans les pipelines de données, les analyses et les applications à l'aide d'API.

Oracle Cloud Infrastructure Anomaly Detection fournit un vaste ensemble d'outils permettant d'identifier les événements indésirables ou d'effectuer en temps réel des observations dans le données d'activité afin que vous puissiez prendre des actions pour éviter les interruptions d'activité.

Oracle Cloud Infrastructure Language effectue une analyse de texte sophistiquée à grande échelle. Avec des modèles préentraînés et personnalisés, les développeurs peuvent traiter du texte non structuré et extraire des informations sans expertise en data science. Les modèles préentraînés prennent en charge l'analyse des sentiments, l'extraction des expressions clés, la classification du texte et la reconnaissance des entités nommées. Vous pouvez également entraîner des modèles personnalisés pour la reconnaissance d'entités nommées et la classification de texte avec des jeux de données spécifiques au domaine. Le service de traduction vous permet de traduire du texte dans 21 langues différentes.

Oracle Cloud Infrastructure Speech exploite la puissance de la langue parlée en vous permettant de convertir facilement des fichiers multimédias contenant de la parole humaine en transcriptions texte extrêmement précises. OCI Speech peut être utilisé pour transcrire des appels au service client, automatiser le sous-titrage et générer des métadonnées pour la création d'une archive pouvant faire l'objet d'un appel.

Oracle Cloud Infrastructure Vision effectue des tâches de reconnaissance d'images et d'analyse de documents telles que la classification d'images, la détection et les faces, l'extraction de texte et la reconnaissance de tables. Vous pouvez soit tirer parti de modèles préentraînés, soit créer facilement des modèles de vision personnalisés pour des scénarios spécifiques au secteur et au client. OCI Vision est un service cloud natif colocatif entièrement géré qui facilite toutes les tâches courantes de vision par ordinateur.

Oracle Cloud Infrastructure Document Understanding effectue des tâches d'analyse de documents telles que l'extraction de texte et la reconnaissance de tables. Le service OCI Document Understanding est un service cloud natif, colocatif et entièrement géré qui facilite toutes les tâches courantes d'analyse de documents.

Enrichissement de données

L'enrichissement des données peut améliorer les données utilisées pour entraîner des modèles de machine learning afin d'obtenir des résultats de prédiction meilleurs et plus précis.

Oracle Cloud Infrastructure Data Labeling vous permet de créer et de parcourir des ensembles de données, de visualiser des enregistrements de données (texte ou images) et d'appliquer des libellés à des fins de création de modèles d'IA/ML. Le service fournit également des interfaces utilisateur interactives conçues pour faciliter le processus d'étiquetage. Une fois les enregistrements étiquetés, l'ensemble de données peut être exporté en tant que JSON délimité par des lignes pour être utilisé dans le développement de modèles AI/ML.

API

La couche API vous permet d'intégrer l'intelligence dérivée de Data Science et d'Oracle Machine Learning dans les applications, les processus métier et les éléments pour influencer et améliorer leur fonctionnement et leur fonction. La couche d'API fournit une utilisation sécurisée des modèles déployés par Data Science vers les adresses REST Oracle Machine Learning et permet de régir le système afin de garantir la disponibilité des environnements d'exécution. Vous pouvez également utiliser les fonctions pour exécuter une logique supplémentaire selon vos besoins.

Oracle Cloud Infrastructure API Gateway vous permet de publier des API dont les adresses privées sont accessibles à partir de votre réseau. Vous pouvez les afficher avec les adresses IP publiques si vous voulez qu'elles acceptent le trafic Internet. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, la spécification CORS, l'authentification et l'autorisation, ainsi que l'autorisation des demandes. Elle permet à l'observabilité des API de surveiller l'utilisation et de garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs d'API et les clients d'API qui accèdent aux API, et pour configurer différents niveaux d'accès pour différents clients afin de suivre l'utilisation des données consommées par l'utilisation des API. Les plans d'utilisation sont une fonctionnalité clé pour prendre en charge la monétisation des données.

Oracle Cloud Infrastructure Functions est une plate-forme de fonctions en tant que service entièrement gérée, colocative, hautement évolutive et à la demande. Elle repose sur la solution de niveau entreprise Oracle Cloud Infrastructure, sur le moteur open source du projet Fn.

Oracle REST Data Services (ORDS) est une application Java qui permet aux développeurs dotés de compétences en langage SQL et en bases de données de développer des API REST pour l'Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement de langage, sans installer ni gérer de pilotes client, de la même manière qu'il accède à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée. ORDS est déployé en tant que fonctionnalité entièrement gérée dans Oracle Autonomous AI Lakehouse et peut être utilisé pour exposer les informations des lakehouses à l'aide d'API aux consommateurs de données.

Gouvernance des données

Oracle Cloud Infrastructure Data Catalog offre une visibilité sur l'emplacement des ressources techniques telles que les métadonnées et les attributs respectifs, et offre la possibilité de tenir à jour un glossaire métier mis en correspondance avec ces métadonnées techniques. Oracle Cloud Infrastructure Data Catalog peut également fournir des métadonnées à l'entrepôt Oracle Autonomous AI Lakehouse afin de faciliter la création de tables externes dans l'entrepôt de données.

Sécurité des données

La sécurité des données est cruciale pour explorer et utiliser pleinement les données des lakehouses. Tirant parti d'un modèle de sécurité à confiance zéro avec des capacités de défense en profondeur et RBAC, et assurant la conformité avec la réglementation la plus stricte, la sécurité des données fournit des contrôles de sécurité préventifs, détectifs et correctifs pour s'assurer que l'exfiltration et les violations de données sont évitées.

Oracle Data Safe est un service Oracle Cloud entièrement intégré axé sur la sécurité des données. Il fournit un ensemble complet et intégré de fonctionnalités qui protègent les valeurs confidentielles et réglementées des bases de donnéesOracle Cloud, telles qu'Oracle Autonomous AI Lakehouse. Ces fonctionnalités comprennent l'évaluation de la sécurité, l'évaluation des utilisateurs, le repérage des données, le masquage des données et l'audit d'activité.

Oracle Cloud Infrastructure Audit offre une visibilité sur les activités liées aux ressources et locations Oracle Cloud Infrastructure (OCI). Les événements du journal d'audit peuvent être utilisés dans le cadre d'audits de sécurité pour suivre l'utilisation des ressources OCI et les modifications apportées, et pour garantir la conformité aux normes et réglementations.

Oracle Cloud Infrastructure Logging fournit une interface unique hautement évolutive et entièrement gérée pour tous les journaux de la location, y compris les journaux d'audit. Utilisez OCI Logging pour accéder aux journaux à partir de toutes les ressources OCI afin de pouvoir les activer, les gérer et les rechercher.

Oracle Cloud Infrastructure Vault est un service de gestion du cryptage qui stocke et gère les clés secrète et de cryptage afin d'accéder aux ressources de manière sécurisée. Permet d'utiliser des clés gérées par le client pour le cryptage d'Oracle Autonomous AI Lakehouse et de lac de données afin d'améliorer la protection des données au repos. Il permet aux secrets de stocker en toute sécurité les services et les informations d'identification utilisateur afin d'améliorer votre posture de sécurité et de vous assurer que les informations d'identification ne sont pas compromises et utilisées de manière inappropriée.

Architecture physique

L'architecture physique de cette plate-forme de données prend en charge les éléments suivants :

Oracle Autonomous AI Lakehouse obtient des données à partir de sources de données fédérées à l'aide de fonctionnalités de connectivité hétérogènes gérées par Oracle
Oracle Autonomous AI Lakehouse utilise des bases de données cible accessibles à partir du réseau Internet public qui sont configurées et autorisent les connexions SSL/TLS entrantes, afin que la connectivité hétérogène gérée par Oracle puisse connecter et interroger les données en toute sécurité
Oracle Autonomous AI Lakehouse lit les données à partir de bases de données à l'aide de partages de données
Les partages de données Databricks sont accessibles via le réseau Internet public mais sont sécurisés à l'aide de fichiers d'informations d'identification fournis par Databricks
Les données d'AWS S3, d'Azure Blob et de Google Cloud Storage sont fédérées et lues à la demande à l'aide de tables externes ou copiées dans Oracle Autonomous AI Lakehouse en fonction du cas d'utilisation et des exigences
Les données provenant de sources de données non fédérées sont ingérées en toute sécurité à l'aide de micro batches et de fichiers provenant de sources de données relationnelles et non relationnelles qui ne sont pas fédérées.
Les données sont traitées à l'aide de la combinaison d'Oracle Cloud Infrastructure Data Integration et d'Oracle Cloud Infrastructure Data Flow
Les données sont stockées dans Oracle Autonomous AI Lakehouse et Oracle Cloud Infrastructure Object Storage et sont organisées en fonction de leur qualité et de leur valeur
Oracle Autonomous AI Lakehouse fournit des données d'entrepôt, de lac et fédérées en toute sécurité aux consommateurs
Oracle Analytics Cloud fournit des données aux utilisateurs professionnels à l'aide de visualisations
Oracle Analytics Cloud est exposé à l'aide d'Oracle Cloud Infrastructure Load Balancer, sécurisé par Oracle Cloud Infrastructure Web Application Firewall (WAF) pour fournir l'accès à l'aide d'Internet.
Oracle Cloud Infrastructure Data Science est utilisé pour créer, entraîner et déployer des modèles de machine learning (ML)
Oracle Cloud Infrastructure API Gateway est utilisé pour régir les déploiements de modèle d'apprentissage automatique Data Science
Oracle Cloud Infrastructure Data Catalog collecte les métadonnées à partir d'Oracle Autonomous AI Lakehouse et du stockage d'objets
Oracle Cloud Infrastructure Bastion est utilisé par les administrateurs pour gérer les ressources de cloud privé

L'architecture est illustrée ci-après :

Description de l'image data-platform-federation-physical.png ci-après

Description de l'illustration data-platform-federation-physical.png

plate-forme de données-fédération-physique-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

Conception de l'architecture physique :

Tire parti de 2 réseaux cloud virtuels, l'un pour le hub et l'autre pour la charge globale elle-même
La connectivité sur site utilise Oracle Cloud Infrastructure FastConnect et Oracle Cloud Infrastructure Site-to-Site VPN à des fins de redondance.
Tout le trafic entrant provenant d'Internet et sur site est d'abord acheminé vers le VCN hub, puis vers le VCN de charge de travail
Toutes les données sont sécurisées en transit et au repos
Les services sont déployés avec des adresses privées pour améliorer l'état de sécurité
Le VCN est divisé en plusieurs sous-réseaux privés pour améliorer l'état de sécurité
Les données de lac sont divisées en plusieurs buckets dans le stockage d'objets, tirant parti d'une architecture médaillon
Les sources de données fédérées et les magasins cloud sont accessibles via la connectivité publique et la passerelle NAT attachée au VCN de charge globale

Les améliorations de conception potentielles non décrites dans ce déploiement pour simplifier comprennent :

Exploiter la connectivité hétérogène gérée par le client, à l'aide d'Oracle Database Gateway, pour se connecter à des sources de données fédérées à l'aide de la connectivité privée
Exploitation d'une zone de renvoi complète conforme au CIS
Exploiter un pare-feu réseau pour améliorer l'état général de sécurité en inspectant tout le trafic et en appliquant des stratégies

Recommandations

Utilisez les recommandations suivantes comme point de départ pour utiliser les données provenant de sources de données hétérogènes à des fins d'analyse métier et d'apprentissage automatique.

Vos exigences peuvent différer de l'architecture décrite ici.

Oracle Autonomous AI Lakehouse

Cette architecture utilise Oracle Autonomous AI Lakehouse sur une infrastructure partagée.

Envisagez d'utiliser des vues matérialisées pour améliorer les performances lors de l'accès aux données fédérées.
Envisagez d'actualiser les vues matérialisées avec la fréquence nécessaire pour éviter que les données fédérées ne soient bloquées.
Envisagez de créer des vues pour interroger les données à l'aide de liens de base de données provenant de sources fédérées afin que ces vues soient collectées et cataloguées dans Oracle Cloud Infrastructure Data Catalog pour une gouvernance des données accrue.
Envisagez de stocker les informations d'identification de source de données fédérées dans une clé secrète dans Oracle Cloud Infrastructure Vault pour améliorer l'état de sécurité.
Envisagez d'utiliser les fonctionnalités de sécurité de la base de données d'IA autonome, telles que la protection par occultation (masquage dynamique des données), dans des vues qui font apparaître des données fédérées pour augmenter la sécurité des données.
Envisagez d'utiliser le partage de données pour consommer des données fédérées provenant de sources de données hétérogènes compatibles avec le protocole ouvert Delta Sharing.
Envisagez d'utiliser le partage de données pour partager des données organisées avec des consommateurs compatibles avec le protocole ouvert Delta Sharing.
Envisagez d'utiliser une connectivité hétérogène gérée par le client avec Oracle Database Gateway pour vous connecter à des sources de données fédérées avec une connectivité privée pour laquelle vous avez besoin d'une sécurité accrue, d'une latence réduite ou des deux.

Oracle Analytics Cloud

Cette architecture s'appuie sur Oracle Analytics Cloud (OAC) pour fournir des analyses augmentées aux utilisateurs finaux.

Envisagez d'utiliser la vaste gamme de sources de données d'OAC pour compléter les sources de données fédérées utilisées par Oracle Autonomous AI Lakehouse.
Envisagez de fédérer les sources de données nécessaires dans OAC sur Oracle Autonomous AI Lakehouse pour améliorer les performances, la mise en cache, le déchargement du traitement vers le moteur de service et la simplification de la couche sémantique analytique.

Notez que cette architecture s'appuie sur une architecture de référence de data lakehouse, y compris les recommandations applicables à votre architecture. Voir la section Explorer plus pour un lien vers l'architecture de référence du lakehouse et les ressources.

Points à prendre en compte

Lorsque vous fédérez des données pour analyse, tenez compte des options d'implémentation suivantes.

Orientation	Recommandé	Autres options	Raisonnement
Raffinerie de données	Oracle Cloud Infrastructure Data Integration	Oracle Data Integrator Transformation des données Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable.
Persistance des données	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse est une base de donnée facile à utiliser, entièrement autonome, qui s'adapte de manière élastique, offre des performances de requête rapides et qui ne nécessite pas d'administration. Il offre également un accès direct aux données à partir de tables partitionnées externes ou hybrides de stockage d'objets. Oracle Cloud Infrastructure Object Storage stocke des données illimitées au format brut.
Traitement des données	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow	Outils tiers	Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable. Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à l'échelle avec un modèle extrêmement élastique et payant à l'utilisation.
Accès & Interprétation	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Services d'IA Oracle Cloud Infrastructure	Outils tiers	Oracle Analytics Cloud est entièrement géré et étroitement intégré aux données organisées dans Oracle Autonomous AI Lakehouse. Data Science est une plate-forme en libre-service entièrement gérée à laquelle les équipes de data science peuvent créer, entraîner et gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Le service Data Science fournit des outils d'infrastructure et de science des données tels que AutoML et les fonctionnalités de déploiement de modèles. Oracle Machine Learning est une plate-forme en libre-service entièrement gérée pour la data science disponible avec Oracle Autonomous AI Lakehouse qui exploite la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles de machine learning à grande échelle sans avoir à déplacer les données en dehors de l'entrepôt. Les services d'IA Oracle Cloud Infrastructure sont un ensemble de services qui fournissent des modèles prédéfinis spécifiquement conçus et entraînés pour effectuer des tâches telles que l'inférence d'anomalies potentielles ou la détection de sentiments.

En savoir plus

En savoir plus sur les fonctionnalités de cette architecture et sur les architectures associées.

Accusés de réception

Author: José Cruz

Contributors: Robert Lies