Data Platform - Entrepôt avec lac de données
Vous pouvez recueillir et analyser efficacement les données d'événement et les données en continu à partir de l'Internet des objets (IoT) et de sources de médias sociaux, mais comment les corréler avec la vaste gamme de ressources de données d'entreprise pour tirer parti de votre investissement et obtenir les renseignements que vous voulez?
Tirez parti d'un entrepôt avec lac de données en nuage qui combine les capacités d'un lac de données et d'un entrepôt de données pour traiter une large gamme de données d'entreprise et en continu à des fins d'analyse commerciale et d'apprentissage automatique.
Cette architecture de référence positionne la solution technologique dans le contexte commercial global, où les intentions stratégiques conduisent à la création de résultats stratégiques mesurables. Ces résultats génèrent de nouvelles intentions stratégiques, offrant ainsi des améliorations commerciales continues et axées sur les données.
Un lac de données permet à une entreprise de stocker toutes ses données dans un environnement élastique et rentable tout en fournissant les services de traitement, de persistance et d'analyse nécessaires pour découvrir de nouvelles perspectives d'affaires. Un lac de données stocke et organise les données structurées et non structurées et fournit des méthodes pour organiser de grands volumes de données très diverses provenant de plusieurs sources.
Avec un entrepôt de données, vous effectuez la transformation et le nettoyage des données avant de valider les données dans l'entrepôt. Avec un lac de données, vous associez les données rapidement et les préparez à la volée à mesure que les utilisateurs y accèdent. Un lac de données prend en charge la production de rapports opérationnels et la surveillance d'entreprise qui nécessitent un accès immédiat aux données et des analyses flexibles pour comprendre ce qui se passe dans l'entreprise pendant qu'elle se passe.
Architecture fonctionnelle
Vous pouvez combiner les capacités d'un lac de données et d'un entrepôt de données pour fournir une plate-forme moderne d'entrepôt avec lac de données qui traite les flux et d'autres types de données provenant d'un large éventail de ressources de données d'entreprise afin de tirer parti des données pour l'analyse commerciale, l'apprentissage automatique, les services de données et les produits de données.
Une architecture d'entrepôt avec lac de données combine les capacités du lac de données et de l'entrepôt de données pour augmenter l'efficacité opérationnelle et offrir des capacités améliorées qui permettent :
- Utilisation transparente des données et des informations sans avoir à les répliquer dans le lac de données et l'entrepôt de données
- Prise en charge de différents types de données dans une architecture multimodèle et polyglotte améliorée
- Ingestion de données transparente à partir de tout consommateur à l'aide de mécanismes d'ingestion en masse, de diffusion en continu, de traitement par lots et d'interface de programmation d'applications (API) en temps réel.
- Extraction continue des données à partir de données à l'aide de services d'intelligence artificielle, d'intelligence artificielle générative et d'apprentissage automatique
- La capacité d'infuser et de servir l'intelligence à n'importe quel consommateur de données à l'aide de l'API, de l'interface utilisateur, de la diffusion en continu et des mécanismes d'intégration
- Gouvernance et sécurité détaillée des données tirant parti d'un modèle de sécurité sans confiance
- Possibilité de découpler complètement les ressources de stockage et de calcul et de consommer uniquement les ressources nécessaires à tout moment.
- Capacité d'exploiter plusieurs moteurs de calcul, dont des moteurs à source ouverte, pour traiter les mêmes données pour différents cas d'utilisation afin d'optimiser la réaffectation des données, la liquidité et l'utilisation
- Possibilité de stocker des données à l'aide de différents formats de fichier et de table ouverts dans le lac de données
- Capacité à tirer parti des services natifs Oracle Cloud Infrastructure (OCI) gérés par Oracle et qui réduisent les frais généraux d'exploitation
- Meilleure économie du nuage grâce à l'ajustement automatique qui ajuste l'infrastructure de ressources en nuage en fonction de la demande réelle
- Modularité pour que l'utilisation du service soit guidée par des cas d'utilisation
- Interopérabilité avec tout système ou nuage respectant les normes ouvertes
- Prise en charge d'un ensemble diversifié de cas d'utilisation, dont la diffusion en continu, l'analyse, la science des données et l'apprentissage automatique
- Prise en charge de différentes approches architecturales, d'un entrepôt avec lac de données centralisé à un maillage de données décentralisé
Le diagramme suivant illustre l'architecture fonctionnelle.
entrepôt avec lac de données-fonctionnel-oracle.zip
L'architecture se concentre sur les divisions logiques suivantes :
- Connexion, ingestion, transformation
Se connecte aux sources de données, ingère et affine leurs données pour les utiliser dans chacune des couches de données de l'architecture.
- Persister, organiser, créer
Facilite l'accès et la navigation des données pour afficher la vue d'affaires courante. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement dans des formes relationnelles, longitudinales, dimensionnelles ou OLAP simples. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, issus d'un processus analytique ou optimisés pour une tâche analytique spécifique.
- Analyser, apprendre et prédire
Abstraction de la vue métier logique des données pour les consommateurs. Cette abstraction facilite les approches agiles en matière de développement, de migration vers l'architecture cible et de fourniture d'une seule couche de production de rapports à partir de plusieurs sources fédérées.
L'architecture comporte les composants fonctionnels suivants :
- Ingestion par lots
L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses pour s'adapter à l'ingestion en temps réel. Il est également important de transformer les données en informations fiables et fiables qui peuvent être organisées et conservées pour une consommation régulière. Vous pouvez utiliser les services suivants ensemble ou de manière indépendante pour obtenir un flux de travail d'intégration et de transformation des données hautement flexible et efficace.
-
Oracle Cloud Infrastructure Data Integration est un service en nuage natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle des données provenant de diverses sources de données en services Oracle Cloud Infrastructure cibles, tels que Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. Les utilisateurs conçoivent des processus d'intégration de données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en adaptant automatiquement l'environnement d'exécution.
L'outil d'extraction, de transformation et de chargement (ETC) tire parti du traitement évolutif entièrement géré sur Spark et l'outil ELT (extract load transform) tire parti des capacités de poussée vers le bas SQL complètes d'Autonomous Data Warehouse afin de réduire le déplacement des données et d'améliorer le délai de rentabilité des données nouvellement ingérées.
Oracle Cloud Infrastructure Data Integration fournit une exploration interactive et une préparation des données, et aide les ingénieurs de données à se protéger contre la dérive de schéma en définissant des règles pour gérer les modifications de schéma.
-
Oracle Data Integrator fournit une intégration complète des données, des chargements par lots à haut volume et à haute performance aux processus d'intégration axés sur les événements, en passant par les processus d'intégration à flux tendu et les services de données basés sur SOA. Une approche de conception déclarative garantit un développement et une maintenance plus rapides et plus simples, et fournit une approche unique pour extraire la transformation de charge (ELT) qui contribue à garantir le plus haut niveau de performance possible pour les processus de transformation et de validation des données. Les transformations de données Oracle utilisent une interface Web pour simplifier la configuration et l'exécution des ELT et pour aider les utilisateurs à créer et planifier des données et des flux de travail à l'aide d'une approche de conception déclarative.
-
Oracle Data Transforms permet l'ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux de données et des flux de travail de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse (ADW) pour charger et transformer des données de plusieurs sources de données en une instance ADW.
Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour assurer une intégration et une transformation des données hautement flexibles et performantes.
-
- Ingestion basée sur des API
L'ingestion basée sur des API permet aux applications et aux systèmes de pousser les données d'événements à l'aide d'API ou de webhooks.
-
Oracle Integration est un environnement préconfiguré entièrement géré qui permet d'intégrer des applications en nuage et sur place, d'automatiser des processus d'affaires et de développer des applications visuelles. Il utilise un serveur de fichiers conforme à SFTP pour stocker et extraire des fichiers et vous permet d'échanger des documents avec des partenaires commerciaux interentreprises en utilisant un portefeuille de centaines d'adaptateurs et de recettes pour vous connecter à des applications Oracle et tierces.
-
Oracle Cloud Infrastructure API Gateway vous permet de publier des API avec des points d'extrémité privés qui sont accessibles à partir de votre réseau, et que vous pouvez exposer à l'Internet public si nécessaire. Les points d'extrémité prennent en charge la validation, la transformation des demandes et des réponses, la spécification CORS, l'authentification et l'autorisation, ainsi que la limitation des demandes pour les API.
Le service Passerelle d'API OCI permet l'observabilité des API pour surveiller l'utilisation et garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs et les clients d'API et pour configurer différents niveaux d'accès d'API pour différents clients. Les plans d'utilisation sont une fonction clé pour la prise en charge de la monétisation des données.
Les plans d'utilisation prennent en charge la monétisation des données en créant des plans d'utilisation par niveaux pour gérer les consommateurs et les clients d'API et pour suivre leur utilisation des données.
-
Oracle Cloud Infrastructure Functions est une plate-forme de fonctions-service (FaaS) sur demande, entièrement gérée, multilocataire et hautement évolutive. Il est alimenté par le moteur open source Fn Project. Les fonctions vous permettent de déployer votre code et de l'appeler directement ou de le déclencher en réponse à des événements. Oracle Functions utilise des conteneurs Docker hébergés dans Oracle Cloud Infrastructure Registry.
-
Oracle REST Data Services (ORDS) est une application Java qui permet à tout développeur ayant des compétences en SQL et en base de données de développer des API REST pour Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement linguistique sans devoir installer et maintenir les pilotes clients de la même manière qu'ils accèdent à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée.
ORDS est déployé en tant que fonction entièrement gérée dans Oracle Autonomous Data Warehouse et peut être utilisé pour exposer les informations de l'entrepôt avec lac de données à l'aide d'API aux consommateurs de données.
-
-
Ingestion en temps réel
Oracle Cloud Infrastructure GoldenGate est un service entièrement géré qui permet l'ingestion de données à partir de sources résidant sur place ou dans n'importe quel nuage. Elle tire parti de la technologie CDC GoldenGate pour une saisie et une transmission des données non intrusive et efficace vers Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage ou Oracle Cloud Infrastructure Streaming en temps réel et à grande échelle pour mettre les informations pertinentes à la disposition des consommateurs le plus rapidement possible.
- Transfert en masse
Le transfert en masse vous permet de déplacer de grands volumes de données par lots à l'aide de différentes méthodes. Pour les entrepôts avec lac de données à grande échelle, nous recommandons les services Oracle Cloud Infrastructure FastConnect et de transfert de données.
-
Oracle Cloud Infrastructure FastConnect offre un moyen facile de créer une connexion privée dédiée entre votre centre de données et Oracle Cloud Infrastructure. FastConnect fournit des options de bande passante supérieure et permet une utilisation du réseau plus fiable que les connexions Internet.
- L'interface de ligne de commande d'Oracle Cloud Infrastructure (OCI) vous permet d'exécuter et d'automatiser le transfert de données des installations sur place vers OCI en tirant parti du circuit privé Oracle Cloud Infrastructure FastConnect. Les trousses SDK pour OCI vous permettent d'écrire du code pour copier ou synchroniser des données et des fichiers sur place ou à partir d'autres nuages dans Oracle Cloud Infrastructure Object Storage, en tirant parti d'une variété de langages de programmation tels que Python, Java ou Go pour n'en nommer que quelques-uns. Les API REST vous permettent d'interfacer avec et de contrôler les services OCI, tels que le déplacement des données vers le stockage d'objets à l'aide de l'API du service de stockage d'objets.
- Le transfert de données d'Oracle Cloud Infrastructure est un service de migration des données hors ligne qui vous permet de déplacer, en toute sécurité, des jeux de données de plusieurs pétaoctets de votre centre de données vers le service Oracle Cloud Infrastructure Object Storage ou le service de stockage d'archives. Il n'est pas toujours possible d'utiliser l'Internet public pour déplacer des données vers le nuage en raison des coûts de réseau élevés, d'une connectivité réseau pas toujours fiable, de longs délais de transfert ou de problèmes de sécurité. Le service de transfert de données permet de surmonter ces obstacles et peut considérablement réduire le temps nécessaire à la migration des données vers le nuage. Le transfert de données est disponible sur disque ou sur boîtier. Le choix de l'un sur l'autre dépend principalement de la quantité de données, le boîtier de transfert de données prenant en charge des jeux de données plus volumineux pour chaque boîtier.
-
- Ingestion de flux
L'ingestion de flux est prise en charge par l'utilisation des services natifs OCI qui permettent l'ingestion en temps réel de jeux de données à grande échelle à partir d'un large éventail de producteurs de données. L'ingestion de flux persiste et synchronise les données dans le stockage d'objets, qui est au cœur de l'entrepôt avec lac de données. La synchronisation des données avec le stockage d'objets vous permet de conserver des données historiques qui peuvent être organisées et transformées pour extraire des informations précieuses.
-
Le service de flux pour Oracle Cloud Infrastructure fournit une solution de stockage entièrement gérée, évolutive et durable pour les flux de données en continu à volume élevé que vous consommez et traitez en temps réel. Le service de flux peut être utilisé pour la messagerie, les journaux d'application à volume élevé, la télémétrie opérationnelle, les données de flux liés aux clics Web, ou d'autres cas d'utilisation de modèle de messagerie de publication et d'abonnement dans lesquels les données sont produites et traitées en continu et séquentiellement. Les données sont synchronisées avec Oracle Cloud Infrastructure Object Storage et peuvent être organisées et transformées pour extraire des informations précieuses.
-
Oracle Cloud Infrastructure Queue est un service sans serveur entièrement géré qui permet de découpler les systèmes et d'autoriser les opérations asynchrones. Ce service traite de grands volumes de données transactionnelles qui nécessitent un traitement indépendant des messages sans aucune perte ni duplication.
-
Le centre de connecteurs de service Oracle Cloud Infrastructure est une plate-forme de bus de messages en nuage qui offre un seul écran pour décrire, exécuter et surveiller le déplacement des données entre les services dans Oracle Cloud Infrastructure. Pour cette architecture de référence particulière, elle sera utilisée pour déplacer des données d'Oracle Cloud Infrastructure Streaming ou de la file d'attente OCI vers Oracle Cloud Infrastructure Object Storage afin de conserver les données brutes et préparées dans la couche de persistance de l'entrepôt avec lac de données.
-
-
Traitement en continu
Le traitement du service de flux enrichit les données en continu, détecte les modèles d'événement et crée un autre jeu de flux qui sont persistants dans l'entrepôt avec lac de données.
-
Oracle Cloud Infrastructure GoldenGate Stream Analytics traite et analyse des informations à grande échelle en temps réel à l'aide de modèles de corrélation sophistiqués, d'enrichissement de données et d'apprentissage automatique. Les utilisateurs peuvent explorer des données en temps réel au moyen de graphiques, de cartes et de visualisations en direct et créer graphiquement des pipelines de diffusion en continu sans codage manuel. Ces pipelines s'exécutent dans un service entièrement géré et évolutif pour traiter les cas d'utilisation critiques en temps réel des entreprises modernes.
-
Oracle Cloud Infrastructure Data Flow est un service de mégadonnées entièrement géré qui vous permet d'exécuter des applications de diffusion en continu Apache Spark et Spark sans avoir à déployer ou à gérer l'infrastructure. Il vous permet d'offrir des mégadonnées et des applications d'intelligence artificielle plus rapidement, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données sont des modèles réutilisables qui se composent d'une application Spark et de ses dépendances, de paramètres par défaut et d'une spécification de ressource d'exécution par défaut.
-
- écosystème open source
Vous pouvez utiliser l'écosystème Open Source :
- Pour le traitement par lots et de flux à l'aide de plusieurs moteurs open source populaires tels que Hadoop, Spark, Flink ou Trino
- Avec Oracle Cloud Infrastructure Streaming à la fois en tant que fournisseur et en tant que consommateur
- Avec Oracle Cloud Infrastructure Object Storage, il peut à la fois conserver les données et consommer des données
Vous pouvez utiliser le service Oracle Cloud Infrastructure Object Storage en tant que lac de données pour conserver les jeux de données que vous voulez partager entre les différents services Oracle Cloud Infrastructure à différents moments.
Le service de mégadonnées provisionne sur demande des grappes Hadoop, Spark ou Flink entièrement configurées, sécurisées, hautement disponibles et dédiées, entre autres. Adaptez la grappe à vos charges de travail de mégadonnées et d'analyse à l'aide d'un éventail de formes de calcul Oracle Cloud Infrastructure, qui prennent en charge tout, des petites grappes de test et de développement aux grappes de production importantes. Ajustez rapidement les données à la demande de l'entreprise et optimisez les coûts en tirant parti des configurations d'ajustement automatique, que ce soit en fonction des mesures ou de l'échéancier. Tirer parti des profils de grappe pour créer des grappes optimales pour une charge de travail ou une technologie spécifique. - Traitement par lots
Le traitement par lots transforme les jeux de données à grande échelle stockés dans l'entrepôt avec lac de données. Le traitement par lots tire parti des services natifs d'Oracle Cloud Infrastructure qui s'intègrent de façon transparente à Oracle Cloud Infrastructure Object Storage et vous permet de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement de données, l'ingestion d'entrepôts de données et l'utilisation évolutive des données de l'apprentissage automatique et de l'intelligence artificielle.
-
Le service Oracle Cloud Infrastructure Data Integration, décrit ci-dessus, est un service en nuage natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle les données d'une variété de sources de données en services Oracle Cloud Infrastructure cibles, tels que Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage.
-
Oracle Cloud Infrastructure Data Flow est un service de mégadonnées entièrement géré qui vous permet d'exécuter des applications de diffusion en continu Apache Spark et Spark sans avoir à déployer ou à gérer l'infrastructure. Il vous permet d'offrir des mégadonnées et des applications d'intelligence artificielle plus rapidement, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données sont des modèles réutilisables qui se composent d'une application Spark et de ses dépendances, de paramètres par défaut et d'une spécification de ressource d'exécution par défaut.
-
Oracle Data Transforms permet l'extraction-transformation de chargement pour certaines technologies prises en charge, simplifiant la configuration et l'exécution de pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux de données et des flux de travail de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse (ADW) pour charger et transformer des données de plusieurs sources de données en une instance ADW.
Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour obtenir un traitement de données hautement flexible et performant.
-
- Portion
Oracle Autonomous Data Warehouse est un service de base de données entièrement géré, autosécurisé et autoréparable qui est optimisé pour les charges de travail d'entreposage de données. Il n'est pas nécessaire de configurer ou de gérer du matériel ni d'installer des logiciels. Oracle Cloud Infrastructure gère la création, la sauvegarde, l'application de correctifs, la mise à niveau et le réglage de la base de données.
Une fois le provisionnement effectué, vous pouvez augmenter le nombre de coeurs d'UC ou la capacité de stockage de la base de données à tout moment, sans aucune incidence sur la disponibilité ou la performance.
Oracle Autonomous Data Warehouse peut également virtualiser les données qui résident dans le stockage d'objets en tant que tables partitionnées externes et hybrides afin que vous puissiez joindre et consommer des données dérivées d'autres sources aux données de l'entrepôt. Vous pouvez également déplacer les données historiques de l'entrepôt vers le service de stockage d'objets, puis les consommer de façon transparente à l'aide de tables partitionnées hybrides.
Oracle Autonomous Data Warehouse peut utiliser les métadonnées collectées précédemment stockées dans le catalogue de données pour créer des tables externes et synchroniser automatiquement les mises à jour de métadonnées dans le catalogue de données avec la définition des tables externes pour assurer la cohérence, simplifier la gestion et réduire les efforts.
Les secteurs sont pris en charge dans Autonomous Database, car il s'agit d'une base de données à modèles multiples prenant en charge plusieurs types de données, à savoir relationnel, JSON, spatial et graphique. Le type de données Vectors permet de charger et de stocker des intégrations de vecteurs, ainsi que de créer des index vectoriels qui peuvent ensuite être utilisés pour les applications de génération augmentée (RAG), le tout dans une seule instance Autonomous Data Warehouse en nuage. Cette fonctionnalité multimodèle permet d'effectuer des analyses en utilisant tous les types de données qui peuvent être joints en une seule requête, réduisant ainsi la complexité et le risque d'avoir des bases de données en silo spécialisées par type de données, tout en assurant une sécurité, une fiabilité, une évolutivité et une facilité d'analyse de toutes les données.
La sélection de l'intelligence artificielle, une fonction d'Autonomous Database, permet d'interroger des données à l'aide du langage naturel, à l'aide de LLM pour convertir le texte d'entrée de l'utilisateur en SQL Oracle. Sélectionnez IA pour traiter l'invite en langage naturel, compléter l'invite avec des métadonnées, puis générer et exécuter une interrogation SQL.
Le partage de données, une fonction d'Autonomous Database, permet de fournir et d'utiliser des données et des métadonnées en toute sécurité, à partir d'autres parties qui utilisent Autonomous Database ou une technologie conforme à Delta-Sharing. Le partage de données facilite la consommation transparente de données provenant de fournisseurs de partage, en tant que vues abstraites des tables partagées sous-jacentes. En outre, les partages en direct, qui permettent aux destinataires de consommer des données en direct et des données nouvelles, peuvent être utilisés lorsque le fournisseur et le destinataire utilisent Autonomous Database.
Les vues analytiques, une fonction Autonomous Database, fournissent un moyen rapide et efficace de créer des interrogations analytiques des données stockées dans des tables et des vues de base de données existantes. Les vues analytiques organisent les données à l'aide d'un modèle dimensionnel. Ils vous permettent d'ajouter facilement des agrégations et des calculs aux jeux de données et de présenter des données dans des vues qui peuvent être interrogées à l'aide d'un énoncé SQL relativement simple. Cette fonction vous permet de modéliser de manière sémantique un schéma en étoile ou en flocon de neige directement dans ADW, à l'aide de données stockées en interne et en externe, et de consommer le modèle à l'aide de SQL et de tout consommateur de données conforme à SQL.
En outre, Autonomous Data Lake Accelerator, un composant d'Autonomous Database, peut consommer des données de stockage d'objets de façon transparente, ajuster le traitement pour fournir des interrogations rapides, ajuster automatiquement l'instance de calcul de base de données au besoin et réduire l'incidence sur la charge de travail de la base de données en isolant les interrogations de stockage d'objets de l'instance de calcul de base de données.
- Stockage en nuage
Oracle Cloud Infrastructure Object Storage est une plate-forme de stockage haute performance à l'échelle d'Internet qui assure la durabilité des données de manière fiable et rentable. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées pour tout type de contenu, notamment des données d'analyse. Vous pouvez stocker ou extraire des données en toute sécurité directement à partir d'Internet ou de la plate-forme en nuage. Plusieurs interfaces de gestion vous permettent de commencer facilement à petite échelle et de vous adapter en toute transparence, sans subir de dégradation des performances ou de la fiabilité des services.
Oracle Cloud Infrastructure Object Storage peut également être utilisé comme couche de stockage à froid pour l'entrepôt de données en stockant les données qui sont rarement utilisées, puis en les joignant de façon transparente aux données les plus récentes à l'aide de tables hybrides dans Oracle Autonomous Data Warehouse.
Le contrôle d'accès granulaire au niveau de l'objet peut être appliqué à l'aide des politiques IAM pour les objets, ce qui augmente la sécurité des données pour les accès directs de lac de données.
- Visualiser et apprendre
Oracle Analytics Cloud est un service en nuage public, évolutif et sécurisé, qui offre un jeu complet de fonctionnalités d'exploration et qui effectue des analyses collaboratives, pour vous, votre groupe de travail et votre entreprise. Il prend en charge les scientifiques de données citoyens, la formation avancée d'analystes d'affaires et l'exécution de modèles d'apprentissage automatique. Les modèles d'apprentissage automatique peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous Data Warehouse en tant que modèles intégrés à OML pour les prédictions par lots à grande échelle qui tirent parti de la puissance de traitement, de l'extensibilité et de l'élasticité de l'entrepôt et des services d'intelligence artificielle pour OCI, tels que le service de visualisation Oracle Cloud Infrastructure.
Grâce à Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités flexibles de gestion du service, notamment une configuration rapide, une mise à l'échelle et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.
-
Apprendre et prédire
-
Le service de science des données fournit une infrastructure, des technologies à code source libre, des bibliothèques, des ensembles et des outils de science des données pour que les équipes de science des données puissent créer, entraîner et gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et basé sur des projets offre une expérience utilisateur cohérente de bout en bout et prend en charge le cycle de vie des modèles prédictifs. Le service de science des données permet aux experts en science des données et aux ingénieurs en apprentissage automatique de télécharger et d'installer des ensembles directement à partir du référentiel d'Anaconda sans frais et ainsi d'innover sur leurs projets grâce à un écosystème organisé de bibliothèques d'apprentissage automatique.
La fonction Tâches du service de science des données permet aux experts en science des données de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.
La fonction de déploiement de modèle du service de science des données permet aux experts en science des données de déployer des modèles formés en tant que points d'extrémité HTTP entièrement gérés qui peuvent fournir des prédictions en temps réel, d'infuser des informations dans les processus et les applications et de permettre à l'entreprise de réagir aux événements pertinents dès leur apparition.
-
Oracle Machine Learning fournit de puissantes capacités d'apprentissage automatique étroitement intégrées dans Autonomous Database, avec prise en charge de Python et de AutoML. Il prend en charge des modèles à code source libre et des algorithmes évolutifs intégrés à la base de données qui réduisent la préparation et le déplacement des données. AutoML aide les spécialistes des données à accélérer le temps de rentabilisation des initiatives d'apprentissage automatique de la société à l'aide de la sélection automatique d'algorithmes, de l'échantillonnage adaptatif des données, de la sélection automatique de fonctions et de la mise au point automatique des modèles. Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous Data Warehouse, vous pouvez non seulement gérer des modèles, mais vous pouvez également déployer ces modèles en tant que points d'extrémité REST afin de démocratiser les prédictions en temps réel au sein de l'entreprise, permettant ainsi aux entreprises de réagir aux événements pertinents dès qu'ils se produisent, plutôt qu'après coup.
-
- Services d'IA et d'IA générative
Les services d'IA d'Oracle Cloud Infrastructure fournissent un jeu de services d'IA prêts à consommer qui peuvent être utilisés pour prendre en charge un éventail de cas d'utilisation, de l'analyse de texte à la maintenance prédictive. Ces services ont des modèles prédéfinis et peaufinés que vous pouvez intégrer dans vos pipelines de données, vos analyses et vos applications à l'aide d'API.
-
Oracle Cloud Infrastructure Language effectue des analyses et des traductions de texte sophistiquées à grande échelle. Avec des modèles préentraînés et personnalisés, les développeurs peuvent traiter du texte non structuré et extraire des informations sans avoir recours à une expertise en science des données. Effectuer une analyse de sentiment, une extraction d'expression clé, une classification de texte, une reconnaissance d'entité nommée et détecter les données d'identification personnelle dans le texte. Personnaliser des modèles pour les tâches propres à un domaine et traduire facilement du texte dans différentes langues. Oracle Cloud Infrastructure Language prend également en charge la traduction de documents et les tâches asynchrones pour un traitement efficace des charges de travail volumineuses.
- Oracle Cloud Infrastructure Speech exploite la puissance de la langue parlée en vous permettant de convertir facilement des fichiers multimédias contenant de la parole humaine en transcriptions de texte très précises. Le discours OCI peut être utilisé pour transcrire les appels du service à la clientèle, automatiser le sous-titrage et générer des métadonnées pour les ressources multimédias afin de créer une archive entièrement interrogeable. Le service de reconnaissance de la parole pour OCI prend en charge les tâches de transcription par lots et en direct.
-
Le service Vision OCI effectue des tâches de reconnaissance d'images et d'analyse vidéo telles que la classification des images, la détection des objets et des faces et l'extraction de texte. Vous pouvez tirer parti des modèles préentraînés ou créer facilement des modèles de vision personnalisés pour des scénarios propres à l'industrie et au client. Le service Vision OCI est un service en nuage natif multilocataire entièrement géré qui vous aide à effectuer toutes les tâches courantes de visualisation par ordinateur.
- Le service de compréhension de documents d'Oracle Cloud Infrastructure effectue des tâches de classification et d'analyse de documents telles que l'extraction de texte, de valeurs clés et de tables. Le service de compréhension de documents OCI est un service en nuage natif multilocataire entièrement géré qui facilite toutes les tâches d'analyse de documents courantes.
- Oracle Cloud Infrastructure Generative AI est une solution entièrement gérée qui fournit un jeu de grands modèles de langage (LLM) de pointe et personnalisables qui couvrent un large éventail de cas d'utilisation, y compris le clavardage, la génération de texte, la récapitulation et la création d'intégrations de texte. Utilisez le terrain de jeu pour tester les modèles préentraînés prêts à l'emploi ou créez et hébergez vos propres modèles personnalisés réglés avec précision à l'aide de vos données dans des grappes dédiées à l'IA.
-
- Enrichissement des données
L'enrichissement des données peut améliorer les données utilisées pour former les modèles d'apprentissage automatique afin d'obtenir des résultats de prédiction meilleurs et plus précis.
Le service d'étiquetage de données pour Oracle Cloud Infrastructure permet de créer et de parcourir des jeux de données, de voir des enregistrements de données (textes ou images) et d'appliquer des étiquettes aux fins de création de modèles d'intelligence artificielle et d'apprentissage automatique. Le service fournit également des interfaces utilisateur interactives conçues pour faciliter le processus d'étiquetage. Une fois les enregistrements étiquetés, le jeu de données peut être exporté en tant que JSON délimité par des lignes pour être utilisé dans le développement de modèles d'intelligence artificielle et d'apprentissage automatique. - Rechercher
Les capacités de recherche peuvent être utilisées comme fonction complémentaire pour exposer les données aux utilisateurs finaux qui ont besoin de données d'analyse opérationnelle préindexées et donc servies avec une faible latence.
Le service de recherche pour Oracle Cloud Infrastructure avec OpenSearch est un moteur de recherche distribué, entièrement géré, sans maintenance et en texte intégral. OpenSearch vous permet de stocker, de rechercher et d'analyser rapidement de grands volumes de données avec des temps de réponse rapides. Le service prend en charge les API OpenSearch à code source libre et la visualisation de données des tableaux de bord OpenSearch. - Analyse de flux en continu
Les analyses de flux fournissent des tableaux de bord qui fournissent des analyses en temps réel des données diffusées contextualisées avec des données organisées et principales stockées dans l'entrepôt avec lac de données afin de détecter les modèles d'intérêt qu'elles peuvent ensuite servir aux utilisateurs, aux applications et aux objets.
Oracle Cloud Infrastructure GoldenGate Stream Analytics traite et analyse des informations à grande échelle en temps réel en utilisant des modèles de corrélation sophistiqués, l'enrichissement des données et l'apprentissage automatique. Les utilisateurs peuvent explorer des données en temps réel au moyen de graphiques en direct, de cartes, de visualisations et de créer graphiquement des pipelines de diffusion en continu sans codage manuel. Ces pipelines s'exécutent dans un service entièrement géré et évolutif pour traiter les cas d'utilisation critiques en temps réel des entreprises modernes.
- Annuler ETL/Rétroaction
L'ETC inverse, parfois appelé réécriture, permet l'activation des données dans les systèmes et les périphériques opérationnels, ce qui permet d'infuser l'intelligence dérivée des données, directement dans les applications et les périphériques utilisés pour prendre en charge les processus métier.
Les données sont fournies aux consommateurs à l'aide de plusieurs mécanismes, à savoir par l'intermédiaire de flux et de files d'attente qui prennent en charge un grand ensemble de consommateurs qui extraient simultanément des informations en temps quasi réel et qui sont découplées de le système d'analyse en continu afin d'augmenter la résilience et l'évolutivité, au moyen de l'intégration d'applications ou de données pour pousser des données au moyen d'adaptateurs prédéfinis ou de fonctions sans serveur pour appeler pratiquement n'importe quel point d'extrémité d'application ou d'appareil.
-
Le service de flux d'Oracle Cloud Infrastructure fournit une solution de stockage entièrement gérée, évolutive et durable pour les flux de données en continu à volume élevé que vous consommez et traitez en temps réel. Le service de flux peut être utilisé pour la messagerie, les journaux d'application à volume élevé, la télémétrie opérationnelle, les données de flux liés aux clics Web, ou d'autres cas d'utilisation de modèle de messagerie de publication et d'abonnement dans lesquels les données sont produites et traitées en continu et séquentiellement.
-
Oracle Cloud Infrastructure Queue est un service sans serveur entièrement géré qui permet de découpler les systèmes et d'autoriser les opérations asynchrones. Ce service traite de grands volumes de données transactionnelles qui nécessitent un traitement indépendant des messages sans aucune perte ni duplication.
-
Oracle Integration Cloud est un environnement préconfiguré entièrement géré qui permet l'intégration d'applications en nuage et sur place, l'automatisation de processus d'affaires, le développement d'applications visuelles, l'utilisation d'un serveur de fichiers conforme à SFTP pour stocker et extraire des fichiers et l'échange de documents d'affaires avec un partenaire commercial B2B à l'aide d'un portefeuille de centaines d'adaptateurs et de recettes pour la connexion à des applications Oracle et de tierce partie.
-
Oracle Data Transforms permet l'ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux de données et des flux de travail de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse (ADW) pour charger et transformer des données de plusieurs sources de données en une instance ADW.
-
Oracle Cloud Infrastructure Functions est une plate-forme de fonctions-service sur demande, très évolutive, entièrement gérée, multilocataire. Elle repose sur l'environnement de niveau entreprise Oracle Cloud Infrastructure et utilise le moteur à source ouverte Fn Project.
-
- API
La couche d'API vous permet d'infuser les informations dérivées du service de science des données et d'Oracle Machine Learning dans des applications, des processus d'affaires et des éléments pour influencer et améliorer leur fonctionnement et leur fonction. La couche d'API fournit une consommation sécurisée des modèles déployés par le service de science des données aux points d'extrémité REST d'Oracle Machine Learning et la possibilité de régir le système pour assurer la disponibilité des environnements d'exécution. Vous pouvez également tirer parti des fonctions pour exécuter une logique supplémentaire si nécessaire.
-
Le service de passerelle d'API d'Oracle Cloud Infrastructure vous permet de publier des API avec des points d'extrémité privés qui sont accessibles depuis votre réseau, et que vous pouvez exposer avec des adresses IP publiques si vous souhaitez qu'elles acceptent le trafic Internet. Les points d'extrémité prennent en charge la validation, la transformation des demandes et des réponses, la spécification CORS, l'authentification et l'autorisation, ainsi que la limitation des demandes pour les API. Il permet l'observabilité des API pour surveiller l'utilisation et garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs et les clients d'API qui accèdent aux API et pour configurer différents niveaux d'accès pour différents clients afin de suivre l'utilisation des données à l'aide des API. Les plans d'utilisation sont une fonction clé pour la prise en charge de la monétisation des données.
-
Oracle Cloud Infrastructure Functions est une plate-forme de fonctions-service sur demande, très évolutive, entièrement gérée, multilocataire. Elle repose sur l'environnement de niveau entreprise Oracle Cloud Infrastructure et utilise le moteur à source ouverte Fn Project.
-
Oracle REST Data Services (ORDS) est une application Java qui permet aux développeurs possédant des compétences en SQL et en base de données de développer des API REST pour Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement linguistique, sans devoir installer et maintenir les pilotes clients, de la même manière qu'ils accèdent à d'autres services externes en utilisant REST, la technologie d'API la plus utilisée. ORDS est déployé en tant que fonction entièrement gérée dans ADW et peut être utilisé pour présenter les informations de l'entrepôt avec lac de données à l'aide d'API aux consommateurs de données.
-
- Gouvernance des données
Oracle Cloud Infrastructure Data Catalog fournit une visibilité sur l'emplacement des ressources techniques telles que les métadonnées et les attributs respectifs, et permet de tenir à jour un glossaire d'entreprise mappé à ces métadonnées techniques. Le catalogue de données peut également servir de métadonnées à Oracle Autonomous Data Warehouse pour faciliter la création de tables externes dans l'entrepôt de données.
-
Sécurité des données
La sécurité des données est cruciale pour explorer et utiliser au maximum les données de l'entrepôt avec lac de données. En tirant parti d'un modèle de sécurité zéro confiance avec des capacités de défense en profondeur et de contrôle d'accès par rôle (RBAC) et en assurant la conformité à la réglementation la plus stricte, la sécurité des données fournit des contrôles de sécurité préventifs, policiers et correctifs pour s'assurer que l'exfiltration et les violations des données sont évitées.
-
Oracle Data Safe est un service Oracle Cloud entièrement intégré dédié à la sécurité des données. Il fournit un jeu complet et intégré de fonctions permettant de protéger les données sensibles et réglementaires dans les bases de données Oracle Cloud, telles qu'Oracle Autonomous Data Warehouse. Ces fonctions incluent l'évaluation de la sécurité, l'évaluation des utilisateurs, la détection de données, le masquage de données et la vérification des activités.
-
Oracle Cloud Infrastructure Audit assure le suivi des activités liées aux ressources et aux locations Oracle Cloud Infrastructure (OCI). Vous pouvez utiliser les événements du journal de vérification pour vérifier la sécurité afin de suivre l'utilisation des ressources OCI et leurs modifications, ainsi que pour assurer la conformité aux normes et aux réglementations.
-
Le service de journalisation pour Oracle Cloud Infrastructure fournit une interface unique hautement évolutive et entièrement gérée pour tous les journaux d'une location, y compris les journaux de vérification. Utilisez le service de journalisation OCI pour accéder aux journaux de toutes les ressources OCI afin que vous puissiez les activer, les gérer et les rechercher.
-
Oracle Cloud Infrastructure Vault est un service de gestion du chiffrement qui stocke et gère les clés de chiffrement et les clés secrètes permettant d'accéder en toute sécurité aux ressources. Permet d'utiliser des clés gérées par le client pour le chiffrement d'Oracle Autonomous Data Warehouse et de lac de données pour une protection accrue des données au repos. Active les clés secrètes pour stocker en toute sécurité les services et les données d'identification d'utilisateur afin d'améliorer votre sécurité et de vous assurer que les données d'identification ne sont pas compromises et utilisées de manière inappropriée.
-
Architecture physique
L'architecture physique de cet entrepôt avec lac de données prend en charge les éléments suivants :
- L'ingestion des données est sécurisée à l'aide de micro lots, de flux, d'API et de fichiers provenant de sources de données relationnelles et non relationnelles.
- Les données sont traitées à l'aide d'une combinaison d'Oracle Cloud Infrastructure Data Integration et d'Oracle Cloud Infrastructure Data Flow
- Les données sont stockées dans Oracle Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage et organisées en fonction de leur qualité et de leur valeur
- Oracle Autonomous Data Warehouse fournit aux consommateurs des services de données d'entrepôt et de lac de données en toute sécurité
- Oracle Analytics Cloud présente des données aux utilisateurs professionnels à l'aide de visualisations
- Oracle Analytics Cloud est exposé à l'aide d'Oracle Cloud Infrastructure Load Balancing sécurisé par Oracle Cloud Infrastructure Web Application Firewall (WAF) pour fournir l'accès à l'aide d'Internet
- Le service Oracle Cloud Infrastructure Data Science permet de créer, d'entraîner et de déployer des modèles d'apprentissage automatique
- Le service de passerelle d'API pour Oracle Cloud Infrastructure est utilisé pour régir les déploiements de modèle d'apprentissage automatique du service de science des données
- Oracle Cloud Infrastructure Data Catalog collecte les métadonnées d'Oracle Autonomous Data Warehouse et du stockage d'objets
- Oracle Data Safe évalue les risques pour les données, met en oeuvre et surveille les contrôles de sécurité, évalue la sécurité des utilisateurs, surveille l'activité des utilisateurs et répond aux exigences de conformité en matière de sécurité des données
- Oracle Cloud Infrastructure Bastion est utilisé par les administrateurs pour gérer les ressources du nuage privé
Le diagramme suivant illustre cette architecture de référence.
entrepôt avec lac de données-architecture-oracle.zip
La conception de l'architecture physique :
- Tire parti de 2 réseaux en nuage virtuels, l'un pour concentrateur et l'autre pour la charge de travail elle-même
- La connectivité sur place tire parti d'Oracle Cloud Infrastructure FastConnect et du RPV site à site pour la redondance
- Tout le trafic entrant provenant des installations sur place et d'Internet est d'abord acheminé vers le VCN central, puis vers le VCN de charge de travail
- Toutes les données sont sécurisées en transit et au repos
- Les services sont déployés avec des points d'extrémité privés pour renforcer la sécurité
- Le VCN est séparé en plusieurs sous-réseaux privés pour renforcer la sécurité
- Les données du lac sont réparties en plusieurs compartiments du service de stockage d'objets à l'aide d'une architecture médaillon
Les améliorations de conception potentielles qui ne sont pas présentées sur ce déploiement pour simplifier comprennent :
- Exploitation d'une zone d'atterrissage entièrement conforme à la norme CIS
- Utiliser un pare-feu de réseau pour améliorer la sécurité globale en inspectant tout le trafic et en appliquant des politiques
Recommandations
Utilisez les recommandations suivantes comme point de départ pour traiter les données en continu et un large éventail de ressources de données d'entreprise à des fins d'analyse commerciale et d'apprentissage automatique.
Vos exigences peuvent différer de l'architecture décrite ici.
- Base de données Oracle Autonomous Data Warehouse
Cette architecture utilise Oracle Autonomous Data Warehouse sur une infrastructure partagée.
- Activez l'ajustement automatique pour donner aux charges de travail de base de données jusqu'à trois fois la puissance de traitement.
- Envisagez d'utiliser Oracle Autonomous Data Warehouse sur une infrastructure dédiée si vous souhaitez que la fonctionnalité de base de données en libre-service s'exécute dans un environnement de base de données en nuage privé sur le nuage public.
- Envisagez d'utiliser la fonction de tables partitionnées hybrides d'Autonomous Data Warehouse pour déplacer des partitions de données vers Oracle Cloud Infrastructure Object Storage et les servir aux utilisateurs et aux applications de manière transparente. Nous vous recommandons d'utiliser cette fonction pour les données qui ne sont pas souvent consommées et pour lesquelles vous n'avez pas besoin de la même performance que pour les données stockées dans Autonomous Data Warehouse.
- Envisagez d'utiliser la fonction de tables externes pour consommer les données stockées dans Oracle Cloud Infrastructure Object Storage en temps réel sans avoir à les répliquer dans Autonomous Data Warehouse. Cette fonction joint, de façon transparente et transparente, des jeux de données organisés en dehors d'Autonomous Data Warehouse, quel que soit le format (parquet, avro, orc, json, csv, etc.), avec des données hébergées dans Autonomous Data Warehouse.
- Envisagez d'utiliser la fonction de base de données en mémoire pour améliorer considérablement les performances des analyses en temps réel et des charges de travail mixtes. Chargez les données de l'entrepôt avec lac de données dans la mémoire qui doit être servie avec une faible latence et qui réside dans les tables internes, hybrides partitionnées ou externes ADW.
- Envisagez d'utiliser Autonomous Data Lake Accelerator lors de l'utilisation des données de stockage d'objets pour offrir une expérience améliorée et plus rapide aux utilisateurs consommant et joignant des données entre l'entrepôt de données et le lac de données.
- Envisagez de stocker des intégrations vectorielles dans Autonomous Data Warehouse, ainsi que d'autres types de données tels que des données relationnelles ou des données JSON, afin de simplifier l'ingénierie et l'analyse des données sur toutes les données, et de mettre en terre efficacement les agents RAG utilisant toutes les données.
- Envisagez d'utiliser Select AI comme accélérateur pour créer du code SQL simple et complexe qui peut être utilisé dans l'ingénierie des données, l'intelligence d'affaires, le développement d'applications ou toute tâche nécessitant la création de code SQL.
- Envisagez d'utiliser Select AI avec des applications à faible code pour simplifier davantage la couche applicative.
- Envisagez d'utiliser des vues analytiques pour modéliser sémantiquement le schéma sous-jacent en étoile ou en flocon de neige DW directement dans ADW afin que les données granulaires soient automatiquement agrégées sans qu'il soit nécessaire de le préagréger, le modèle sémantique est consommé en utilisant SQL de manière cohérente avec tout client conforme à SQL, y compris Oracle Analytics Cloud, ce qui garantit des faits et des indicateurs clés de rendement sont servies de manière cohérente, quel que soit le client, et toutes les données peuvent être utilisées sur le modèle sémantique, peu importe si elles sont stockées dans ADW ou dans le stockage d'objets, ce qui fait de cette fonction une couche de modélisation sémantique parfaite pour une architecture d'entrepôt avec lac de données où les faits et les dimensions peuvent traverser à la fois l'entrepôt de données et le lac de données.
- Envisagez d'utiliser les clés gérées par le client en tirant parti du service de chambre forte si un contrôle complet des clés de chiffrement ADW est nécessaire en raison des politiques de la société ou de la réglementation.
- Envisagez d'utiliser Database Vault dans ADW pour empêcher les utilisateurs privilégiés non autorisés d'accéder aux données sensibles et ainsi empêcher l'exfiltration des données et les violations de données.
- Envisagez d'utiliser Autonomous Data Guard pour prendre en charge un plan de continuité des activités en configurant et en conservant les données répliquées sur une instance de secours, soit dans la même région, soit dans une autre région.
- Envisagez d'utiliser le masquage dynamique des données avec occultation de données pour fournir des données masquées aux utilisateurs en fonction de leur rôle et garantir ainsi un accès approprié aux données sans avoir besoin de duplication des données et de masquage statique.
- Envisagez d'utiliser des clones ADW pour créer rapidement d'autres environnements transitoires ou non. Utilisez des clones actualisables si l'environnement cible doit disposer de données à jour. Utilisez Oracle Data Safe pour masquer statiquement les données sensibles dans les clones pour une sécurité accrue.
- Envisagez d'utiliser le partage de données comme moyen simple et sécurisé de consommer et de fournir des données, que ce soit avec d'autres instances Autonomous Database ou avec une technologie conforme à Delta Sharing.
- Envisagez d'utiliser le partage de données en direct entre les instances Autonomous Database pour consommer et fournir des données en temps réel.
- Envisagez d'utiliser le partage de données avec version pour partager des données avec les consommateurs. Cela évite le coût de l'interrogation des données, car les données sont traitées par les consommateurs et non par le fournisseur.
- Envisagez d'utiliser des URL de demande préauthentifiée pour un accès de données en lecture seule et limité dans le temps sur ADW afin de permettre le partage de données non sensibles dans les cas d'utilisation où le consommateur ne prend pas en charge Delta Sharing.
- Stockage d'objets/lac de données
Cette architecture utilise Oracle Cloud Infrastructure Object Storage, un stockage en nuage hautement évolutif et durable, en tant que stockage sur lac.
- Envisagez d'organiser votre lac entre différents ensembles de seaux en tirant parti d'une architecture médaillon (bronze, argent, or) ou d'une autre logique de partitionnement pour séparer les données en fonction de leur qualité et de leur enrichissement, appliquer une sécurité détaillée aux consommateurs lisant les données et appliquer différentes politiques de gestion du cycle de vie aux différents niveaux.
- Envisagez d'utiliser différents niveaux de stockage d'objets et des politiques de cycle de vie pour optimiser les coûts de stockage des données de lac à grande échelle.
- Envisagez d'utiliser les clés gérées par le client pour tirer parti du service de chambre forte si un contrôle complet des clés de chiffrement du stockage d'objets est nécessaire en raison des politiques de la société ou de la réglementation.
- Envisagez d'utiliser la réplication du stockage d'objets pour prendre en charge un plan de continuité des activités au moyen de la configuration de la réplication de seau vers une autre région. Comme le service de stockage d'objets est hautement durable et tient à jour plusieurs copies du même objet dans une seule région pour la récupération sur le même seau de région, la réplication n'est pas nécessaire.
- Envisagez d'utiliser des politiques Oracle Cloud Infrastructure Identity and Access Management (IAM) pour les objets, en utilisant des noms ou des modèles d'objet, ce qui augmente la sécurité des données pour les accès directs de lac de données.
- Envisagez d'utiliser des points d'extrémité privés dans Oracle Cloud Infrastructure Object Storage pour assurer un accès sécurisé et privé au lac de données à partir du VCN de la plate-forme de données.
- Envisagez d'utiliser des sources de réseau et des politiques IAM pour les référencer afin de gérer les adresses IP autorisées à accéder aux seaux et aux objets du lac de données.
- Envisagez d'utiliser OCIFS, un utilitaire basé sur python, pour monter des seaux Oracle Cloud Infrastructure Object Storage en tant que systèmes de fichiers, ce qui permet la prise en charge des applications qui ne fonctionnent qu'avec NFS et qui doivent charger des fichiers dans le stockage d'objets.
- Oracle Machine Learning et Oracle Cloud Infrastructure Data Science
Cette architecture tire parti d'Oracle Machine Learning et d'Oracle Cloud Infrastructure Data Science pour exécuter et fournir des prédictions en temps réel aux personnes et aux applications.
- Envisagez d'utiliser AutoML dans le service de science des données pour OCI ou Oracle Machine Learning pour accélérer le développement de modèles d'apprentissage automatique.
- Envisagez d'utiliser Open Neural Networks Exchange (ONNX) pour l'interopérabilité. Les modèles de partie 3 ONNX peuvent être déployés dans OML et exposés en tant que point d'extrémité REST ou dans le service de science des données pour OCI et exposés en tant que point d'extrémité HTTP.
- Envisagez d'enregistrer le modèle dans le service de science des données pour OCI en tant qu'ONNX et de l'importer dans OCI GoldenGate Stream Analytics s'il est nécessaire d'exécuter la notation et la prédiction dans un pipeline de données en temps réel pour avoir des prédictions plus rapides qui peuvent générer des résultats d'affaires en temps réel.
- Envisagez d'utiliser les environnements Conda du service de science des données pour OCI pour une meilleure gestion et un meilleur emballage des dépendances Python dans les sessions de carnet Jupyter. Tirez parti du référentiel organisé d'Anaconda d'ensembles au sein du service de science des données pour OCI pour utiliser vos outils en accès libre préférés pour créer, entraîner et déployer des modèles.
- Envisagez d'utiliser les actions rapides d'IA d'Oracle Cloud Infrastructure Data Science pour déployer, évaluer et peaufiner des modèles de base dans le service de science des données pour OCI. Travaillez avec des LLM open source organisés disponibles dans l'explorateur de modèles ou pour apporter votre propre modèle.
- Envisagez d'utiliser les opérateurs d'IA à faible code du service Science des données, disponibles dans l'ensemble Accelerated Data Science Python, pour effectuer rapidement et efficacement des prévisions, la détection d'anomalies ou pour créer une fonctionnalité de recommandation.
- Envisagez d'utiliser le service de flux de données OCI dans l'environnement Data Science Jupyter pour effectuer une analyse des données exploratoires, un profilage et une préparation des données à grande échelle en tirant parti du traitement évolutif de Spark.
- Envisagez d'utiliser le service d'étiquetage de données pour étiqueter des données telles que des images, du texte ou des documents et de les utiliser pour entraîner des modèles d'apprentissage automatique fondés sur le service de science des données pour OCI ou les services d'intelligence artificielle pour OCI et ainsi améliorer l'exactitude des prédictions.
- Envisagez de déployer une passerelle d'API pour sécuriser et régir la consommation du modèle déployé si des prédictions en temps réel sont consommées par des partenaires et des entités externes.
- Oracle Cloud Infrastructure Data Integration
Cette architecture utilise Oracle Cloud Infrastructure Data Integration pour prendre en charge le développement d'ETC et de pipeline de données déclaratif et sans code ou à code réduit.
- Tirez parti d'Oracle Cloud Infrastructure Data Integration pour coordonner et programmer les exécutions d'application Oracle Cloud Infrastructure Data Flow et être en mesure de mélanger et de mettre en correspondance des processus ETC déclaratifs avec la logique de code Spark personnalisée. Utilisez les fonctions d'Oracle Cloud Infrastructure Data Integration pour étendre davantage les capacités des pipelines de données.
- Envisagez d'utiliser la poussée vers le bas SQL pour les transformations qui ont ADW comme cible pour utiliser une approche ELT plus efficace, performante et sécurisée par rapport à l'ETC.
- Envisagez de permettre au service d'intégration de données pour OCI de gérer la dérive de schéma de sources de données afin d'avoir des pipelines de données plus résilients et à l'épreuve du temps qui soutiendront les modifications de schéma de sources de données.
- Oracle Cloud Infrastructure Data Flow
Cette architecture utilise Oracle Cloud Infrastructure Data Flow pour prendre en charge le traitement en continu Spark et Spark à grande échelle sans avoir à disposer et à gérer de grappes permanentes.
- Envisagez d'utiliser Oracle Cloud Infrastructure Data Catalog en tant que magasin de métadonnées Hive pour Oracle Cloud Infrastructure Data Flow afin de stocker et d'extraire de manière sécurisée les définitions de schéma pour les objets des ressources de données non structurées et semi-structurées telles qu'Oracle Cloud Infrastructure Object Storage.
- Envisagez d'utiliser Delta Lake sur le service de flux de données OCI si des transactions ACID et l'unification du traitement en continu et par lots sont nécessaires pour les données du lac.
- Service de mégadonnées
Cette architecture s'appuie sur le service de mégadonnées pour Oracle Cloud Infrastructure afin de déployer des grappes hautement disponibles et évolutives de diverses technologies à code source libre telles que Spark, Hadoop, Trino ou Flink, qui peuvent traiter les données par lots et en continu. Le service de mégadonnées conserve les données dans HDFS, les conserve et les lit à partir d'Oracle Cloud Infrastructure Object Storage et peut échanger des jeux de données avec d'autres services Oracle Cloud Infrastructure tels qu'Oracle Cloud Infrastructure Data Flow et Oracle Autonomous Data Warehouse.
- Envisagez d'utiliser l'ajustement automatique pour une mise à l'échelle horizontale ou verticale des noeuds de travail en fonction de mesures ou d'un programme pour optimiser continuellement les coûts en fonction de la demande en ressources.
- Envisagez d'utiliser le connecteur HDFS OCI pour le stockage d'objets pour lire et écrire des données vers et depuis le stockage d'objets afin de fournir un mécanisme permettant de produire et de consommer des données partagées avec d'autres services OCI sans avoir à les répliquer ni à les dupliquer.
- Envisagez d'utiliser Delta Lake sur OCI BDS si des transactions ACID et l'unification du traitement en continu et par lots sont nécessaires pour les données de lac.
- Si vous devez utiliser d'autres logiciels à source ouverte, envisagez d'utiliser Oracle Cloud Infrastructure Registry, des instances de conteneur ou Oracle Cloud Infrastructure Kubernetes Engine pour déployer tous les logiciels à source ouverte pouvant être conteneurisés.
- Service de diffusion en continu pour Oracle Cloud Infrastructure
Cette architecture tire parti du service de diffusion en continu d'Oracle Cloud Infrastructure pour consommer des données en continu provenant de sources et fournir des données en continu aux consommateurs.
Envisagez de tirer parti du centre de connecteurs de service Oracle Cloud Infrastructure pour déplacer des données du service de diffusion en continu pour Oracle Cloud Infrastructure et pour les conserver dans Oracle Cloud Infrastructure Object Storage afin de prendre en charge l'analyse des données historiques.
- Oracle Analytics Cloud
Cette architecture tire parti d'Oracle Analytics Cloud (OAC) pour fournir des analyses augmentées aux utilisateurs finaux.
Envisagez de tirer parti de l'intégration prédéfinie qu'OAC a avec les services d'intelligence artificielle pour OCI (modèles de langue et de visualisation) et OML (n'importe quel modèle) pour intégrer l'intelligence dans les flux de données et les visualisations que les utilisateurs finaux consomment et ainsi démocratiser la consommation d'intelligence artificielle et d'apprentissage automatique.
- Services d'intelligence artificielle pour Oracle Cloud Infrastructure
Cette architecture peut tirer parti des services d'intelligence artificielle d'Oracle Cloud Infrastructure, selon les cas d'utilisation déployés.
Envisagez d'utiliser l'étiquetage de données pour étiqueter les données de formation qui seront utilisées pour régler et obtenir des prédictions plus précises pour les services d'IA tels que Vision, Compréhension de documents et Langage.
- Services Oracle Cloud Infrastructure Generative AI
Cette architecture peut tirer parti des services Oracle Cloud Infrastructure Generative AI, selon les cas d'utilisation déployés.
- Envisagez d'utiliser l'aire de jeu et les API sur demande qui utilisent des LLM préentraînés pour traiter la génération de texte, la conversation, l'extraction de données, la récapitulation, la classification, le transfert de style ou la similarité sémantique, et d'intégrer rapidement l'IA générative dans vos pipelines et processus.
- Envisagez d'utiliser des grappes d'IA dédiées pour adapter efficacement et peaufiner les LLM de base à vos données, assurant ainsi un isolement complet et une sécurité des données.
- Envisagez de partager l'hébergement de grappes d'IA dédiées au sein de différentes équipes à l'échelle de l'organisation à des fins de rentabilité. Une seule grappe peut être utilisée pour héberger plusieurs modèles personnalisés, qui peuvent tous être servis avec des points d'extrémité indépendants et sécurisés au moyen de politiques IAM dédiées.
- Passerelle d'API
Cette architecture tire parti du service de passerelle d'API pour exposer en toute sécurité les services de données et l'inférence en temps réel aux consommateurs de données.
- Envisagez d'utiliser Oracle Cloud Infrastructure Functions pour ajouter la logique d'exécution éventuellement nécessaire pour prendre en charge un traitement d'API spécifique hors de la portée des couches de traitement et d'accès et d'interprétation des données.
- Envisagez d'utiliser des plans d'utilisation pour gérer l'accès des abonnés aux API, surveiller et gérer la consommation des API, configurer différents niveaux d'accès pour différents consommateurs et prendre en charge la monétisation des données en suivant les mesures d'utilisation qui peuvent être fournies à un système de facturation externe.
- Oracle Cloud Infrastructure Data Catalog
Pour avoir une vue complète et holistique de bout en bout des données stockées et circulant sur la plate-forme, envisagez de collecter non seulement les magasins de données prenant en charge la couche de persistance des données, mais également les magasins de données sources. Le mappage de ces métadonnées techniques collectées au glossaire d'affaires et leur enrichissement avec des propriétés personnalisées vous permettent de mapper des concepts d'affaires et de documenter et de régir les définitions de sécurité et d'accès.
- Pour faciliter la création de tables externes Oracle Autonomous Data Warehouse qui virtualisent les données stockées dans Oracle Cloud Infrastructure Object Storage, tirez parti des métadonnées précédemment collectées par Oracle Cloud Infrastructure Data Catalog. Cela simplifie la création de tables externes, assure la cohérence des métadonnées dans les magasins de données et est moins sensible aux erreurs humaines.
- Envisagez d'utiliser le suivi de lignage pour Oracle Cloud Infrastructure Data Integration et Oracle Cloud Infrastructure Data Flow pour avoir une visibilité sur la façon dont les données ont été ingérées, transformées et stockées. Pour une couverture accrue, utilisez l'ingestion basée sur l'API afin d'exploiter le cadre ouvert OpenLineage pour suivre le lignage de n'importe quelle source et système.
- Service de transfert de données d'Oracle Cloud Infrastructure
Utilisez le service de transfert de données pour Oracle Cloud Infrastructure lorsqu'il n'est pas possible de charger des données à l'aide d'une connexion à l'Internet public. Nous vous recommandons d'envisager d'utiliser le transfert de données si le chargement de données sur le réseau Internet public prend plus de 1 à 2 semaines.
- Service de sécurité et de vérification des données
L'augmentation de la sécurité en tirant parti des capacités d'audit et d'alerte permettra d'empêcher l'exfiltration des données et d'effectuer des analyses judiciaires en cas de violation de données.
- Envisagez d'utiliser Oracle Data Safe pour vérifier l'activité dans l'entrepôt de données et envisagez d'utiliser Oracle Cloud Infrastructure Audit pour vérifier le trafic vers les données du lac.
- Envisagez d'utiliser Oracle Data Safe pour la détection des données sensibles sur ADW et de les masquer statiquement lors de la création de clones ADW pour les environnements hors production, évitant ainsi les risques de sécurité.
- Envisagez d'utiliser le pare-feu SQL d'Oracle Data Safe avec ADW pour renforcer la sécurité des données, en vous protégeant contre les risques tels que les attaques par injection SQL ou les comptes compromis.
- Déploiement et automatisation
Cette architecture physique est déployée à l'aide de l'automatisation de l'infrastructure en tant que code (IaC) pour créer les ressources nécessaires au déploiement d'un entrepôt avec lac de données
Oracle Cloud Infrastructure Resource Manager vous permet de créer des piles Terraform de ressources en nuage déployables, de partager et de gérer des configurations d'infrastructure, ainsi que des fichiers d'état pour plusieurs équipes et plates-formes. Envisagez d'utiliser Oracle Cloud Infrastructure Resource Manager pour créer des piles de déploiement pour l'environnement hors production : création, intégration de nouvelles équipes qui ont besoin de services supplémentaires, standardisation et intégration de politiques IAM cohérentes et de gardes de sécurité conformes aux politiques définies de sécurité et de gouvernance de l'organisation.
- Continuité des activités
Cette architecture décrit un déploiement dans une seule région et peut être étendue à deux régions pour prendre en charge la reprise après sinistre et permettre un plan de continuité des activités.
- Le service Oracle Cloud Infrastructure de récupération après sinistre de pile complète est un service d'orchestration et de gestion de la récupération après sinistre qui fournit des fonctions complètes de récupération pour toutes les couches d'une pile d'applications, notamment l'infrastructure, l'intergiciel, la base de données et l'application.
Envisagez d'utiliser la récupération après sinistre de pile complète pour configurer des plans de permutation et de basculement pour l'entrepôt avec lac de données afin d'automatiser les tâches de récupération après sinistre et de réduire les étapes manuelles en cas de transition planifiée ou non planifiée vers la région de secours.
- Optimisation des coûts
Envisagez d'utiliser le suivi des coûts et de l'utilisation d'Oracle Cloud Infrastructure ainsi que les fonctions d'optimisation des coûts pour prendre en charge vos opérations financières en continu.
- Envisagez d'utiliser des rapports de coûts et d'utilisation pour obtenir et suivre l'utilisation des ressources en nuage et leurs coûts respectifs. Tirer parti des rapports de coût CSV conformes aux normes de l'industrie qui sont produits pour s'intégrer à des solutions d'opérations financières de 3e partie.
- Envisagez d'utiliser l'analyse des coûts pour suivre les coûts engagés par différentes équipes, projets et environnements.
- Envisagez d'utiliser des marqueurs de suivi des coûts pour marquer les ressources en nuage pour des équipes, des projets ou des environnements spécifiques.
- Envisagez d'utiliser des budgets pour définir des limites souples de dépenses et des alertes afin de vous informer lorsque vous pourriez dépasser votre budget pour un projet, une équipe ou des dépenses globales.
- Interopérabilité
Cette architecture s'appuie sur de nombreuses normes de l'industrie pour interagir avec le paysage hétérogène informatique de toute organisation afin de consommer et de servir toutes les données à n'importe quelle application, système ou personne.
L'architecture prend en charge les formats de fichier ouverts tels que Parquet ou Avro, de sorte que les données peuvent être stockées dans le format le plus approprié pour chaque cas d'utilisation. En outre, il prend en charge les formats de table ouverte tels qu'Iceberg et Delta Lake pour assurer l'interopérabilité entre les technologies d'Oracle et d'autres technologies de 3e partie.- Envisagez d'utiliser la prise en charge d'Oracle Autonomous Data Warehouse Iceberg pour lire les tables d'iceberg persistantes sur le lac de données et les servir aux consommateurs. Les tables d'iceberg peuvent être utilisées comme tables externes ou chargées dans ADW.
- Envisagez d'utiliser la prise en charge du flux de données au format universel Delta Lake pour lire, traiter et conserver les données dans le lac de données. L'utilisation de Delta Lake lors de la génération de métadonnées pour d'autres formats de table ouverts tels que Iceberg et Hudi permet à différents moteurs de traitement de lire les mêmes données.
- Approche organisationnelle
Cette architecture est flexible et peut prendre en charge différents types d'approches organisationnelles allant d'une approche centralisée à une approche complètement décentralisée et peut donc être adoptée et utilisée par toute organisation qui souhaite extraire de la valeur de ses données.
Cette architecture tire parti de contrôles détaillés et étendus pour l'authentification et l'autorisation avec le service de gestion des identités et des accès d'OCI (IAM).
Envisagez d'utiliser IAM pour séparer les différents secteurs d'activité et les équipes à l'aide de l'entrepôt avec lac de données pour décentraliser la propriété de la création de produits de données et appliquer la séparation des domaines de données si votre organisation souhaite adopter une approche organisationnelle décentralisée.
OCI offre des capacités d'automatisation et d'infrastructure en tant que code pour un déploiement d'architecture réussi, tirant parti de cadres tels que Terraform et Ansible.
Si votre organisation adopte une approche décentralisée et met en œuvre des domaines de données selon cette approche, envisagez de tirer parti des modèles terraform prédéfinis et du gestionnaire de ressources OCI pour intégrer rapidement et uniformément les domaines de données dans la plate-forme de données.
Points à considérer
Lors de la collecte, du traitement et de la conservation des données d'application aux fins d'analyse et d'apprentissage automatique, tenez compte des options de mise en oeuvre suivantes.
Assistance | Recommandations | Autres options | Explication |
---|---|---|---|
Raffinerie de données |
|
|
Oracle Cloud Infrastructure Data Integration fournit une plate-forme d'extraction, de chargement et de chargement (ETL) en nuage native, sans serveur et entièrement gérée, évolutive et rentable. Oracle Cloud Infrastructure GoldenGate fournit une plate-forme de réplication de données native en nuage, sans serveur, entièrement gérée et non intrusive qui est évolutive, rentable et peut être déployée dans des environnements hybrides. |
Persistance des données |
|
Service Oracle Exadata Database |
Oracle Autonomous Data Warehouse est une base de données entièrement autonome et facile à utiliser qui s'adapte de façon élastique, permet des interrogations rapides et ne nécessite aucune administration. Il offre également un accès direct aux données des tables partitionnées externes ou hybrides du service de stockage d'objets. Le service Oracle Cloud Infrastructure Object Storage stocke un nombre illimité de données dans un format brut. |
Traitement des données |
|
Outils de tierce partie |
Oracle Cloud Infrastructure Data Integration fournit une plate-forme d'extraction, de chargement et de chargement (ETL) en nuage native, sans serveur et entièrement gérée, évolutive et rentable. Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à grande échelle avec un modèle à facturation à l'utilisation extrêmement élastique. Le service de mégadonnées pour Oracle Cloud Infrastructure fournit un environnement Hadoop-service de niveau entreprise, sécurisé de bout en bout, haute performance, et facile à gérer et à mettre à niveau. |
Accès & Interprétation |
|
Outils de tierce partie |
Oracle Analytics Cloud est entièrement géré et étroitement intégré aux données organisées dans Oracle Autonomous Data Warehouse. Le service de science des données est une plate-forme en libre-service entièrement gérée, utilisée par les équipes d'experts en science des données pour créer, entraîner et gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Le service de science des données fournit des outils d'infrastructure et de science des données tels que AutoML et des capacités de déploiement de modèle. Oracle Machine Learning est une plate-forme en libre-service entièrement gérée pour la science des données disponible avec Oracle Autonomous Data Warehouse qui tire parti de la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles d'apprentissage automatique à grande échelle sans avoir à déplacer les données à l'extérieur de l'entrepôt. Les services d'intelligence artificielle pour Oracle Cloud Infrastructure sont un ensemble de services qui fournissent des modèles prédéfinis spécialement conçus et entraînés pour effectuer des tâches telles que l'inférence d'anomalies potentielles ou la détection des sentiments. |
Déployez
- Déployer à l'aide d'Oracle Cloud Infrastructure Resource Manager :
- Cliquez sur
Si vous n'êtes pas déjà connecté, entrez la location et les données d'identification de l'utilisateur.
- Réviser et accepter les conditions générales.
- Sélectionnez la région dans laquelle déployer la pile.
- Suivez les invites à l'écran et les instructions pour créer la pile.
- Après avoir créé la pile, cliquez sur Actions Terraform et sélectionnez Planifier.
- Attendez que la tâche soit terminée et vérifiez le plan.
Pour apporter des modifications, retournez à la page Détails de la pile, cliquez sur Modifier la pile et apportez les modifications requises. Ensuite, exécutez de nouveau l'action Planifier.
- Si aucune autre modification n'est nécessaire, retournez à la page Détails de la pile, cliquez sur Actions Terraform et sélectionnez Appliquer.
- Cliquez sur
- Déployer à l'aide de l'interface de ligne de commande Terraform :
- Allez à GitHub.
- Clonez ou téléchargez le référentiel sur votre ordinateur local.
- Suivez les instructions du document
README
.
Informations complémentaires
En savoir plus sur les caractéristiques de cette architecture et sur les architectures connexes.
Confirmation
- Author: José Cruz
- Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies
Journal des modifications
Ce journal répertorie les modifications importantes :
Octobre 28, 2024 |
|
Juin 21, 2023 |
|