Plate-forme de données - Lakehouse de données

Vous pouvez collecter et analyser efficacement les données d'événements et les données de diffusion en continu à partir d'Internet des objets (IoT) et de sources de médias sociaux, mais comment les mettre en corrélation avec le large éventail de ressources de données d'entreprise pour tirer parti de votre investissement et obtenir les informations que vous souhaitez ?

Tirez parti d'un data lakehouse cloud qui combine les fonctionnalités d'un data lake et d'un data warehouse pour traiter une large gamme de données d'entreprise et de diffusion en continu pour l'analyse commerciale et le machine learning.

Cette architecture de référence positionne la solution technologique dans le contexte commercial global, où les intentions stratégiques favorisent la création de résultats stratégiques mesurables. Ces résultats génèrent de nouvelles intentions stratégiques, apportant ainsi des améliorations continues et basées sur les données.



Un lac de données permet à une entreprise de stocker toutes ses données dans un environnement élastique et rentable tout en fournissant les services de traitement, de persistance et d'analyse nécessaires pour découvrir de nouvelles informations commerciales. Un lac de données stocke et organise des données structurées et non structurées et fournit des méthodes pour organiser de grands volumes de données très diverses provenant de plusieurs sources.

Avec un data warehouse, vous effectuez la transformation et le nettoyage des données avant de les valider. Avec un lac de données, vous ingérez rapidement des données et vous les préparez à la volée lorsque les gens y accèdent. Un lac de données prend en charge le reporting opérationnel et la surveillance de l'activité, qui nécessitent un accès immédiat aux données et des analyses flexibles pour comprendre ce qui se passe dans l'activité.

Architecture fonctionnelle

Vous pouvez combiner les capacités d'un lac de données et d'un data warehouse pour fournir une plate-forme moderne de data lakehouse qui traite la transmission en continu et d'autres types de données à partir d'un large éventail de ressources de données d'entreprise afin de pouvoir exploiter les données pour l'analyse commerciale, le machine learning, les services de données et les produits de données.

Une architecture de data lakehouse combine les capacités du data lake et du data warehouse pour augmenter l'efficacité opérationnelle et offrir des fonctionnalités améliorées qui permettent :

  • Utilisation transparente des données et des informations sans avoir à les répliquer sur le lac de données et l'entrepôt de données
  • Prise en charge de différents types de données dans une architecture multi-modèle et polyglotte améliorée
  • Assimilation transparente des données, quel que soit le consommateur, à l'aide de mécanismes d'assimilation en temps réel, de diffusion en continu, de traitement par lots, d'interface de programmation d'applications (API) et en masse
  • Extraction continue des données à l'aide de services d'intelligence artificielle, d'IA générative et de machine learning
  • Possibilité d'infuser et de fournir des informations à tout consommateur de données à l'aide d'API, d'interface utilisateur, de transmission en continu et de mécanismes d'intégration
  • Gouvernance et sécurité fine des données qui exploite un modèle de sécurité zéro confiance
  • Possibilité de découpler complètement les ressources de stockage et de calcul, et de n'utiliser que les ressources nécessaires à tout moment
  • Possibilité d'exploiter plusieurs moteurs de calcul, y compris des moteurs open source, pour traiter les mêmes données dans différents cas d'utilisation afin d'optimiser la réaffectation, la liquidité et l'utilisation des données
  • Possibilité de stocker des données à l'aide de différents formats de fichier et de table ouverts dans le lac de données
  • Possibilité d'exploiter les services natifs Oracle Cloud Infrastructure (OCI) gérés par Oracle et réduisant les frais généraux opérationnels
  • Meilleure économie du cloud grâce à la mise à l'échelle automatique qui ajuste l'infrastructure des ressources cloud pour répondre à la demande réelle
  • Modularité permettant d'utiliser le service en fonction du cas d'utilisation
  • Interopérabilité avec tout système ou cloud respectant des normes ouvertes
  • Prise en charge d'un ensemble diversifié de cas d'utilisation, notamment la diffusion en continu, les analyses, la science des données et le machine learning
  • Prise en charge de différentes approches architecturales, d'un lakehouse centralisé à un maillage de données décentralisé

Le schéma suivant illustre l'architecture fonctionnelle.



lakehouse-fonctionnel-oracle.zip

L'architecture se concentre sur les divisions logiques suivantes :

  • Connexion, ingestion et transformation

    Se connecte aux sources de données, ingère et affine leurs données pour les utiliser dans chacune des couches de données de l'architecture.

  • Conserver, organiser, créer

    Facilite l'accès aux données et leur navigation pour afficher la vue métier actuelle. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement sous des formes relationnelles, longitudinales, dimensionnelles ou OLAP simples. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, soit issus d'un processus analytique, soit optimisés pour une tâche analytique spécifique.

  • Analyser, apprendre, prévoir

    Abstraction de la vue logique métier des données pour les destinataires. Cette abstraction facilite les approches agiles du développement, de la migration vers l'architecture cible et de la fourniture d'une seule couche de reporting à partir de plusieurs sources fédérées.

L'architecture comporte les composants fonctionnels suivants :

  • Ingestion par lots

    L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses à adapter pour l'ingestion en temps réel. Il est également important de transformer les données en informations fiables et fiables qui peuvent être organisées et conservées pour une consommation régulière. Vous pouvez utiliser les services suivants ensemble ou indépendamment pour obtenir un workflow d'intégration et de transformation des données extrêmement flexible et efficace.

    • Oracle Cloud Infrastructure Data Integration est un service cloud natif, sans serveur et entièrement géré qui extrait, charge, transforme, nettoie et remodèle des données de diverses sources de données vers des services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. Les utilisateurs conçoivent les processus d'intégration des données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en redimensionnant automatiquement l'environnement d'exécution.

      L'ETL (extraction de la charge de transformation) tire parti d'un traitement évolutif entièrement géré sur Spark, et l'ELT (extraction de la charge de transformation) tire parti des fonctionnalités de propagation SQL complètes d'Autonomous Data Warehouse afin de minimiser les mouvements de données et d'améliorer le délai de rentabilisation des données nouvellement ingérées.

      Oracle Cloud Infrastructure Data Integration fournit une exploration interactive et une préparation des données, et aide les ingénieurs de données à se protéger contre les dérives de schéma en définissant des règles pour gérer les modifications de schéma.

    • Oracle Data Integrator fournit une intégration complète des données à partir de chargements de lots hautes performances de gros volumes de données, de processus d'intégration déclenchés par des événements et d'influx de données, de services de données compatibles SOA. Une approche de conception déclarative garantit un développement et une maintenance plus rapides et plus simples, et fournit une approche unique pour extraire la transformation de charge (ELT) qui permet de garantir le plus haut niveau de performances possible pour les processus de transformation et de validation des données. Les transformations de données Oracle utilisent une interface Web pour simplifier la configuration et l'exécution d'ELT et pour aider les utilisateurs à créer et à planifier des données et des flux de travail à l'aide d'une approche de conception déclarative.

    • Oracle Data Transforms permet l'ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de planifier de manière déclarative des flux de données et des workflows. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse (ADW) pour charger et transformer des données de plusieurs sources de données en une instance ADW.

    Selon le cas d'emploi, ces composants peuvent être utilisés indépendamment ou ensemble pour réaliser une intégration et une transformation des données hautement flexibles et performantes.

  • Inclusion basée sur l'API

    L'ingestion basée sur les API permet aux applications et aux systèmes de propager des données d'événements à l'aide d'API ou de webhooks.

    • Oracle Integration est un environnement entièrement géré et préconfiguré qui permet d'intégrer des applications cloud et sur site, d'automatiser les processus métier et de développer des applications visuelles. Il utilise un serveur de fichiers compatible SFTP pour stocker et extraire des fichiers et vous permet d'échanger des documents avec des partenaires commerciaux interentreprises en utilisant un portefeuille de centaines d'adaptateurs et de recettes pour vous connecter à Oracle et à des applications tierces.

    • Oracle Cloud Infrastructure API Gateway vous permet de publier des API avec des adresses privées accessibles à partir de votre réseau. Vous pouvez les rendre visibles sur le réseau Internet public si nécessaire. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, CORS, l'authentification et l'autorisation, ainsi que la limitation des demandes.

      OCI API Gateway permet l'observabilité des API pour surveiller l'utilisation et garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les clients et les consommateurs d'API et pour configurer différents niveaux d'accès d'API pour différents clients. Les plans d'utilisation sont une fonctionnalité clé pour la prise en charge de la monétisation des données.

      Les plans d'utilisation prennent en charge la monétisation des données en créant des plans d'utilisation hiérarchisés pour gérer les clients et les consommateurs d'API et suivre leur utilisation des données.

    • Oracle Cloud Infrastructure Functions est une plate-forme Functions-as-a-Service (FaaS) entièrement gérée, colocative, hautement évolutive, à la demande. Il est optimisé par le moteur open source du projet Fn. Les fonctions vous permettent de déployer votre code et de l'appeler directement ou de le déclencher en réponse à des événements. Oracle Functions utilise des conteneurs Docker hébergés dans Oracle Cloud Infrastructure Registry.

    • Oracle REST Data Services (ORDS) est une application Java qui permet à tout développeur possédant des compétences en matière de SQL et de base de données de développer des API REST pour Oracle Database. Tout développeur d'application peut utiliser ces API à partir de n'importe quel environnement de langage sans installer et gérer de pilotes client de la même manière qu'il accède à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée.

      ORDS est déployé en tant que fonctionnalité entièrement gérée dans Oracle Autonomous Data Warehouse et peut être utilisé pour exposer les informations de lakehouse à l'aide d'API aux consommateurs de données.

  • Ingestion en temps réel

    Oracle Cloud Infrastructure GoldenGate est un service entièrement géré qui permet l'assimilation des données à partir de sources résidant sur site ou dans n'importe quel cloud. Elle tire parti de la technologie CDC GoldenGate pour une capture et une distribution de données efficaces et non intrusives vers Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage ou Oracle Cloud Infrastructure Streaming en temps réel et à grande échelle afin de mettre les informations pertinentes à la disposition des consommateurs le plus rapidement possible.

  • Transfert en masse

    Le transfert en masse vous permet de déplacer de grands volumes de données par lots à l'aide de différentes méthodes. Pour les data lakehouses à grande échelle, nous recommandons les services Oracle Cloud Infrastructure FastConnect et Data Transfer.

    • Oracle Cloud Infrastructure FastConnect permet de créer facilement une connexion privée dédiée entre le centre de données et Oracle Cloud Infrastructure. FastConnect offre des options de bande passante plus élevée et une expérience de réseau plus fiable par rapport aux connexions Internet.

    • L'interface de ligne de commande d'Oracle Cloud Infrastructure (OCI) vous permet d'exécuter et d'automatiser le transfert de données d'un environnement sur site vers OCI en utilisant le circuit privé Oracle Cloud Infrastructure FastConnect. Les kits SDK OCI vous permettent d'écrire du code pour copier ou synchroniser des données et des fichiers sur site ou à partir d'autres clouds dans Oracle Cloud Infrastructure Object Storage, en tirant parti de divers langages de programmation tels que Python, Java ou Go to name. Les API REST vous permettent d'interagir avec les services OCI et de les contrôler, tels que le déplacement de données vers le stockage d'objets à l'aide de l'API Object Storage Service.
    • Oracle Cloud Infrastructure Data Transfer est un service de migration de données hors ligne qui vous permet de déplacer en toute sécurité des ensembles de données de plusieurs pétaoctets de votre centre de données vers Oracle Cloud Infrastructure Object Storage ou Archive Storage. A cause du coût élevé du réseau, de la connectivité réseau peu fiable, des temps de transfert très longs et des questions de sécurité, utiliser l'Internet public pour transférer des données vers le cloud n'est pas toujours faisable. Le service Data Transfer résout ces problèmes et permet de réduire considérablement le délai nécessaire à la migration des données vers le cloud. Data Transfer est disponible via Disk ou Appliance. Le choix entre les deux dépend principalement de la quantité de données. Data Transfer Appliance prend en charge des ensembles de données plus volumineux pour chaque appliance.
  • Ingestion de flux

    L'ingestion de flux de données est prise en charge par l'utilisation de services OCI natifs qui permettent l'ingestion en temps réel d'ensembles de données à grande échelle à partir d'un large ensemble de producteurs de données. L'ingestion en continu persiste et synchronise les données dans le stockage d'objets, qui est au cœur du data lakehouse. La synchronisation des données dans le stockage d'objets vous permet de conserver des données historiques qui peuvent être organisées et transformées pour extraire des informations précieuses.

    • Oracle Cloud Infrastructure Streaming offre une solution de stockage évolutive et durable entièrement gérée permettant d'inclure des flux de données importants transmis en continu, que vous pouvez utiliser et traiter en temps réel. Vous pouvez utiliser Streaming pour l'échange de messages, les journaux d'application volumineux, la télémétrie opérationnelle, les données de flux de clics Web ou d'autres cas d'emploi de modèle d'échange de messages de publication/souscription dans lesquels des données sont produites et traitées de manière continue et séquentielle. Les données sont synchronisées avec Oracle Cloud Infrastructure Object Storage et peuvent être organisées et transformées pour extraire des informations précieuses.

    • Oracle Cloud Infrastructure Queue est un service sans serveur entièrement géré qui permet de séparer les systèmes et d'effectuer des opérations asynchrones. Queue gère les données transactionnelles en grand nombre qui nécessitent des messages traités indépendamment sans perte ni duplication.

    • Oracle Cloud Infrastructure Service Connector Hub est une plate-forme cloud Message Bus qui offre une interface unique pour la description, l'exécution et la surveillance des déplacements de données entre les services dans Oracle Cloud Infrastructure. Pour cette architecture de référence particulière, elle sera utilisée pour déplacer les données d'Oracle Cloud Infrastructure Streaming ou de la file d'attente OCI vers Oracle Cloud Infrastructure Object Storage afin de rendre persistantes les données brutes et préparées dans la couche de persistance du data lakehouse.

  • Traitement en continu

    Le traitement en continu enrichit les données en continu, détecte les modèles d'événement et crée un ensemble différent de flux persistants dans le data lakehouse.

    • Oracle Cloud Infrastructure GoldenGate Stream Analytics traite et analyse les informations à grande échelle en temps réel à l'aide de modèles de corrélation sophistiqués, d'enrichissement des données et de machine learning. Les utilisateurs peuvent explorer des données en temps réel via des graphiques, des cartes et des visualisations en direct et créer graphiquement des pipelines de diffusion en continu sans codage manuel. Ces pipelines s'exécutent dans un service entièrement géré et évolutif pour répondre aux cas d'utilisation critiques en temps réel des entreprises modernes.

    • Oracle Cloud Infrastructure Data Flow est un service Big Data entièrement géré qui vous permet d'exécuter des applications Apache Spark et Spark Streaming sans avoir à déployer ni à gérer l'infrastructure. Il vous permet de fournir plus rapidement des applications de Big Data et d'IA, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données sont des modèles réutilisables composés d'une application Spark et de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut.

  • Écosystème open source

    Vous pouvez utiliser l'écosystème Open Source :

    • Pour le traitement par lots et par flux utilisant plusieurs moteurs open source populaires tels que Hadoop, Spark, Flink ou Trino
    • Avec Oracle Cloud Infrastructure Streaming à la fois en tant que producteur et en tant que consommateur
    • Avec Oracle Cloud Infrastructure Object Storage, où il peut à la fois persister des données et consommer des données

    Vous pouvez utiliser Oracle Cloud Infrastructure Object Storage en tant que lac de données pour rendre persistants les ensembles de données à partager entre les différents services Oracle Cloud Infrastructure à des moments différents.

    Big Data Service provisionne, à la demande, des clusters Hadoop, Spark ou Flink dédiés, sécurisés, hautement disponibles et entièrement configurés, entre autres technologies. Adaptez le cluster à vos charges globales de Big Data et d'analyse à l'aide de formes de calcul Oracle Cloud Infrastructure qui prennent en charge tout, des petits clusters de test et de développement aux clusters de production volumineux. Adaptez-vous rapidement à la demande de l'entreprise et optimisez les coûts en tirant parti des configurations de redimensionnement automatique, qu'elles soient basées sur des mesures ou dans les délais. Tirez parti des profils de cluster pour créer des clusters optimaux pour une charge de travail ou une technologie spécifique.
  • Traitement en batch

    Le traitement par lots transforme les ensembles de données à grande échelle stockés sur le data lakehouse. Le traitement par lots exploite les services natifs Oracle Cloud Infrastructure qui s'intègrent de manière transparente à Oracle Cloud Infrastructure Object Storage et vous permet de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement des données, l'ingestion d'entrepôt de données et l'utilisation des données d'apprentissage automatique et d'IA à grande échelle.

    • Oracle Cloud Infrastructure Data Integration, décrit ci-dessus, est un service cloud natif, sans serveur et entièrement géré qui extrait, charge, transforme, nettoie et remodèle les données de diverses sources de données vers des services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage.

    • Oracle Cloud Infrastructure Data Flow est un service Big Data entièrement géré qui vous permet d'exécuter des applications Apache Spark et Spark Streaming sans avoir à déployer ni à gérer l'infrastructure. Il vous permet de fournir plus rapidement des applications de Big Data et d'IA, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données sont des modèles réutilisables composés d'une application Spark et de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut.

    • Oracle Data Transforms permet l'extraction-chargement-transformation (ELT) pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web permettant aux utilisateurs de créer et de programmer de manière déclarative des flux de données et des flux de travail. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse (ADW) pour charger et transformer des données de plusieurs sources de données en une instance ADW.

      Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour obtenir un traitement de données hautement flexible et performant.

  • Portion

    Oracle Autonomous Data Warehouse est un service de base de données à pilotage, sécurité et réparation automatiques optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas à configurer ni à gérer le matériel, ni à installer de logiciel. Oracle Cloud Infrastructure gère la création, la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

    Une fois le provisionnement terminé, vous pouvez redimensionner à tout moment le nombre de coeurs de processeur ou la capacité de stockage de la base de données sans influer sur la disponibilité ou sur les performances.

    Oracle Autonomous Data Warehouse peut également virtualiser les données qui résident dans le stockage d'objets en tant que tables partitionnées externes et hybrides afin que vous puissiez joindre et utiliser des données dérivées d'autres sources avec les données de l'entrepôt. Vous pouvez également déplacer des données historiques de l'entrepôt vers le stockage d'objets, puis les utiliser de manière transparente à l'aide de tables partitionnées hybrides.

    Oracle Autonomous Data Warehouse peut utiliser des métadonnées précédemment collectées stockées dans Data Catalog pour créer des tables externes, et peut synchroniser automatiquement les mises à jour de métadonnées dans Data Catalog avec la définition des tables externes afin de maintenir la cohérence, de simplifier la gestion et de réduire les efforts.

    Les vecteurs sont pris en charge dans Autonomous Database, car il s'agit d'une base de données multimodèle prenant en charge plusieurs types de données, à savoir relationnelle, JSON, spatiale et graphique. Le type de données Vecteurs permet de charger et de stocker des incorporations vectorielles, ainsi que de créer des index vectoriels qui peuvent ensuite être utilisés pour les applications de génération augmentée d'extraction (RAG), le tout dans une seule instance cloud Autonomous Data Warehouse. Cette fonctionnalité multimodèle permet l'analyse à l'aide de tous les types de données pouvant être joints dans une seule requête, réduisant ainsi la complexité et le risque d'avoir des bases de données cloisonnées spécialisées par type de données, tout en garantissant une sécurité, une fiabilité, une évolutivité et une facilité d'analyse accrues de toutes les données.

    Sélectionnez AI, une fonctionnalité Autonomous Database, qui permet d'interroger des données en langage naturel, à l'aide de LLM pour convertir le texte d'entrée de l'utilisateur en code SQL Oracle. Sélectionnez AI traite l'invite en langage naturel, complète l'invite avec des métadonnées, puis génère et exécute une requête SQL.

    Le partage de données, une fonctionnalité Autonomous Database, permet de fournir et d'utiliser en toute sécurité des données et des métadonnées, provenant d'autres parties qui utilisent Autonomous Database ou une technologie compatible avec le partage delta. Le partage de données facilite l'utilisation transparente des données des fournisseurs de partage, sous forme de vues qui abstraient les tables partagées sous-jacentes. En outre, les partages en direct, qui permettent aux destinataires d'utiliser des données en direct et fraîches, peuvent être utilisés lorsque le fournisseur et le destinataire utilisent Autonomous Database.

    Les vues analytiques, une fonctionnalité Autonomous Database, constituent un moyen rapide et efficace de créer des requêtes analytiques de données stockées dans des tables et des vues de base de données existantes. Les vues analytiques organisent les données à l'aide d'un modèle dimensionnel. Ils vous permettent d'ajouter facilement des agrégations et des calculs aux jeux de données et de présenter les données dans des vues qui peuvent faire l'objet d'une requête avec des instructions SQL relativement simples. Cette fonctionnalité vous permet de modéliser sémantiquement un schéma en étoile ou en flocon directement dans ADW, à l'aide de données stockées en interne et en externe, et permet la consommation du modèle à l'aide de SQL et de tout consommateur de données compatible SQL.

    En outre, Autonomous Data Lake Accelerator, un composant d'Autonomous Database, peut utiliser de manière transparente des données de stockage d'objets, redimensionner le traitement pour fournir des requêtes rapides, redimensionner automatiquement l'instance de calcul de base de données si nécessaire et réduire l'impact sur la charge globale de base de données en isolant les requêtes de stockage d'objets de l'instance de calcul de base de données.

  • Stockage cloud

    Oracle Cloud Infrastructure Object Storage est une plate-forme de stockage hautes performances, à l'échelle d'Internet, qui offre une durabilité fiable et rentable en matière de données. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris des données analytiques. Vous pouvez stocker des données ou en extraire directement à partir d'Internet ou de la plate-forme cloud, en toute sécurité. Plusieurs interfaces de gestion vous permettent de démarrer facilement à petite échelle et d'évoluer en toute transparence, sans subir de dégradation des performances ou de la fiabilité du service.

    Oracle Cloud Infrastructure Object Storage peut également être utilisé en tant que couche de stockage à froid pour l'entrepôt de données en stockant les données rarement utilisées, puis en les joignant de manière transparente aux données les plus récentes à l'aide de tables hybrides dans Oracle Autonomous Data Warehouse.

    Le contrôle d'accès granulaire au niveau objet peut être appliqué à l'aide de stratégies IAM pour les objets, ce qui augmente la sécurité des données pour les accès directs aux lacs de données.

  • Visualisez et apprenez

    Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre des fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe de travail et votre entreprise. Il prend en charge les data scientists citoyens, la formation avancée des analystes métier et l'exécution de modèles de machine learning (ML). Les modèles de machine learning peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous Data Warehouse en tant que modèles intégrés à OML pour des prédictions de batch à grande échelle qui tirent parti de la puissance de traitement, de l'évolutivité et de l'élasticité des services d'entrepôt et d'IA OCI, tels que Oracle Cloud Infrastructure Vision.

    Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion des services flexibles, notamment une configuration rapide, une mise à l'échelle et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.

  • Apprendre et prévoir

    • Data Science fournit une infrastructure, des technologies open source, des bibliothèques, des packages et des outils de science des données pour que les équipes de science des données puissent créer, entraîner et gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et orienté projet offre une expérience utilisateur cohérente de bout en bout et prend en charge le cycle de vie des modèles prédictifs. Data Science permet aux data scientists et aux ingénieurs en machine learning de télécharger et d'installer des packages directement à partir du référentiel Anaconda sans frais, ce qui leur permet d'innover sur leurs projets avec un écosystème de data science organisé de bibliothèques de machine learning.

      La fonctionnalité de travaux Data Science permet aux data scientists de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.

      La fonctionnalité de déploiement de modèle Data Science permet aux data scientists de déployer des modèles entraînés en tant qu'adresses HTTP entièrement gérées qui peuvent fournir des prédictions en temps réel, en introduisant des informations dans les processus et les applications, et en permettant à l'entreprise de réagir aux événements pertinents lorsqu'ils se produisent.

    • Oracle Machine Learning fournit de puissantes fonctionnalités d'apprentissage automatique étroitement intégrées à Autonomous Database, avec prise en charge de Python et de AutoML. Il prend en charge les modèles utilisant des algorithmes open source et évolutifs dans la base de données qui réduisent la préparation et le déplacement des données. AutoML aide les data scientists à accélérer la valorisation des initiatives de machine learning de l'entreprise en utilisant la sélection automatique d'algorithmes, l'échantillonnage adaptatif des données, la sélection automatique des fonctionnalités et le réglage automatique des modèles. Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous Data Warehouse, vous pouvez non seulement gérer des modèles, mais également les déployer en tant qu'adresses REST afin de démocratiser les prévisions en temps réel au sein de l'entreprise, ce qui permet aux entreprises de réagir aux événements pertinents au fur et à mesure qu'ils se produisent, plutôt qu'après coup.

  • Services d'IA et d'IA générative

    Les services d'IA Oracle Cloud Infrastructure fournissent un ensemble de services d'IA prêts à l'emploi qui peuvent être utilisés pour prendre en charge divers cas d'utilisation, de l'analyse de texte à la maintenance prédictive. Ces services disposent de modèles prédéfinis et finement réglés que vous pouvez intégrer dans les pipelines de données, les analyses et les applications à l'aide d'API.

    • Oracle Cloud Infrastructure Language effectue des analyses de texte sophistiquées et des traductions à grande échelle. Avec des modèles préentraînés et personnalisés, les développeurs peuvent traiter du texte non structuré et extraire des informations sans expertise en science des données. Effectuez une analyse des sentiments, une extraction d'expressions clés, une classification de texte, une reconnaissance d'entité nommée et détectez les informations d'identification personnelle dans le texte. Personnalisez les modèles pour les tâches spécifiques au domaine et traduisez facilement du texte dans différentes langues. Oracle Cloud Infrastructure Language prend également en charge la traduction de documents et les travaux asynchrones pour traiter efficacement des charges de travail volumineuses.

    • Oracle Cloud Infrastructure Speech exploite toute la puissance du langage parlé en vous permettant de convertir facilement des fichiers multimédias contenant de la parole humaine en transcriptions de texte extrêmement précises. OCI Speech permet de retranscrire des appels au service client, d'automatiser le sous-titrage et de générer des métadonnées pour les ressources média afin de créer une archive pouvant faire l'objet d'une recherche. OCI Speech prend en charge les travaux de transcription en batch et en direct.
    • OCI Vision effectue des tâches de reconnaissance d'images et d'analyse vidéo, telles que la classification des images, la détection des objets et des visages et l'extraction de texte. Vous pouvez tirer parti de modèles préentraînés ou créer facilement des modèles de vision personnalisés pour des scénarios spécifiques au secteur et au client. OCI Vision est un service cloud natif, multi-locataire et entièrement géré qui facilite toutes les tâches courantes de vision par ordinateur.

    • Oracle Cloud Infrastructure Document Understanding effectue des tâches de classification et d'analyse de documents telles que l'extraction de texte, de valeurs et de tables clés. Le service OCI Document Understanding est un service cloud natif, multi-locataire et entièrement géré qui facilite toutes les tâches courantes d'analyse de documents.
    • Oracle Cloud Infrastructure Generative AI est un ensemble entièrement géré de grands modèles de langage de pointe et personnalisables couvrant un large éventail de cas d'emploi, notamment la discussion, la génération de texte, la synthèse et la création d'intégrations de texte. Utilisez le playground de test pour essayer les modèles préentraînés prêts à l'emploi ou créez et hébergez vos propres modèles personnalisés affinés en fonction de vos propres données sur des clusters d'AI dédiés.
  • Data Enrichment

    L'enrichissement des données peut améliorer les données utilisées pour entraîner des modèles de machine learning afin d'obtenir des résultats de prédiction meilleurs et plus précis.

    Oracle Cloud Infrastructure Data Labeling vous permet de créer et de parcourir des ensembles de données, d'afficher des enregistrements de données (texte ou images), et d'appliquer des libellés à des fins de création de modèles d'IA et d'apprentissage automatique. Le service fournit également des interfaces utilisateur interactives conçues pour faciliter le processus d'étiquetage. Une fois les enregistrements étiquetés, l'ensemble de données peut être exporté au format JSON délimité par des lignes pour être utilisé dans le développement de modèles AI/ML.
  • Recherche

    Les fonctionnalités de recherche peuvent être utilisées comme fonction complémentaire pour exposer les données aux utilisateurs finaux qui ont besoin de données d'analyse opérationnelle préindexées et qui sont donc traitées avec une faible latence.

    Oracle Cloud Infrastructure Search with OpenSearch est un moteur de recherche en texte intégral, distribué, entièrement géré et sans maintenance. OpenSearch vous permet de stocker, de rechercher et d'analyser rapidement d'importants volumes de données avec des temps de réponse rapides. Le service prend en charge les API OpenSearch open source et la visualisation de données des tableaux de bord OpenSearch.
  • Analyses de transmission en continu

    Les analyses de diffusion fournissent des tableaux de bord qui fournissent une analyse en temps réel des données transmises en contexte avec des données organisées et des données principales stockées dans le data lakehouse afin de détecter les modèles d'intérêt qu'il peut ensuite servir aux utilisateurs, aux applications et aux autres.

    Oracle Cloud Infrastructure GoldenGate Stream Analytics traite et analyse les informations à grande échelle en temps réel à l'aide de modèles de corrélation sophistiqués, de l'enrichissement des données et du machine learning. Les utilisateurs peuvent explorer des données en temps réel via des graphiques, des cartes, des visualisations et créer graphiquement des pipelines de diffusion en continu sans codage manuel. Ces pipelines s'exécutent dans un service entièrement géré et évolutif pour répondre aux cas d'utilisation critiques en temps réel des entreprises modernes.

  • Contrepasser un processus ETL/Writeback

    L'ETL inversé, parfois appelé réécriture, permet l'activation des données dans les systèmes et les appareils opérationnels, ce qui permet d'infuser des informations dérivées des données, directement dans les applications et les appareils utilisés pour prendre en charge les processus métier.

    Les données sont fournies aux consommateurs à l'aide de plusieurs mécanismes, à savoir via des flux et des files d'attente qui prennent en charge un grand ensemble de consommateurs qui extraient simultanément des informations en temps quasi réel et qui sont découplées de le système d'analyse de diffusion en continu afin d'augmenter la résilience et l'évolutivité, via l'intégration d'applications ou de données pour transmettre des données via des adaptateurs prédéfinis, ou via des fonctions sans serveur pour appeler pratiquement n'importe quelle adresse d'application ou d'appareil.

    • Le service de diffusion en continu Oracle Cloud Infrastructure fournit une solution de stockage évolutive et durable entièrement gérée pour l'inclusion de flux de données volumineux continus que vous pouvez utiliser et traiter en temps réel. Vous pouvez utiliser Streaming pour l'échange de messages, les journaux d'application volumineux, la télémétrie opérationnelle, les données de flux de clics Web ou d'autres cas d'emploi de modèle d'échange de messages de publication/souscription dans lesquels des données sont produites et traitées de manière continue et séquentielle.

    • Oracle Cloud Infrastructure Queue est un service sans serveur entièrement géré qui permet de séparer les systèmes et d'effectuer des opérations asynchrones. Queue gère les données transactionnelles en grand nombre qui nécessitent des messages traités indépendamment sans perte ni duplication.

    • Oracle Integration Cloud est un environnement entièrement géré et préconfiguré qui permet d'intégrer des applications cloud et on-premise, d'automatiser les processus métier, de développer des applications visuelles, d'utiliser un serveur de fichiers compatible SFTP pour stocker et extraire des fichiers, et d'échanger des documents commerciaux avec un partenaire commercial B2B à l'aide d'un portefeuille de centaines d'adaptateurs et de recettes pour la connexion avec des applications Oracle et tierces.

    • Oracle Data Transforms permet l'ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de planifier de manière déclarative des flux de données et des workflows. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous Data Warehouse (ADW) pour charger et transformer des données de plusieurs sources de données en une instance ADW.

    • Oracle Cloud Infrastructure Functions est une plate-forme FaaS (Fun-as-a-Service) entièrement gérée, colocative, hautement évolutive, à la demande. Elle est basée sur Oracle Cloud Infrastructure de niveau entreprise et sur le moteur open source du projet Fn.

  • API

    La couche d'API vous permet d'infuser l'intelligence dérivée de Data Science et d'Oracle Machine Learning dans des applications, des processus métier et des éléments pour influencer et améliorer leur fonctionnement. La couche d'API fournit une utilisation sécurisée des modèles déployés par Data Science vers les adresses REST Oracle Machine Learning et la possibilité de régir le système pour assurer la disponibilité des environnements d'exécution. Vous pouvez également tirer parti des fonctions pour exécuter une logique supplémentaire si nécessaire.

    • La passerelle d'API Oracle Cloud Infrastructure vous permet de publier des API avec des adresses privées accessibles à partir de votre réseau. Vous pouvez rendre ces API visibles avec des adresses IP publiques si vous voulez qu'elles acceptent le trafic Internet. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, CORS, l'authentification et l'autorisation, ainsi que la limitation des demandes. Il permet l'observabilité des API pour surveiller l'utilisation et garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs d'API et les clients d'API qui accèdent aux API, et pour configurer différents niveaux d'accès pour différents clients afin de suivre l'utilisation des données utilisées par les API. Les plans d'utilisation sont une fonctionnalité clé pour la prise en charge de la monétisation des données.

    • Oracle Cloud Infrastructure Functions est une plate-forme FaaS (Fun-as-a-Service) entièrement gérée, colocative, hautement évolutive, à la demande. Elle est basée sur Oracle Cloud Infrastructure de niveau entreprise et sur le moteur open source du projet Fn.

    • Oracle REST Data Services (ORDS) est une application Java qui permet aux développeurs dotés de compétences en matière de SQL et de base de données de développer des API REST pour Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement de langage, sans installer ni gérer de pilotes client, de la même manière qu'il accède à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée. ORDS est déployé en tant que fonctionnalité entièrement gérée dans ADW et peut être utilisé pour exposer les informations de lakehouse à l'aide d'API aux consommateurs de données.

  • Gouvernance des données

    Oracle Cloud Infrastructure Data Catalog offre une visibilité sur l'emplacement des ressources techniques telles que les métadonnées et les attributs respectifs, et permet de tenir à jour un glossaire métier mis en correspondance avec ces métadonnées techniques. Data Catalog peut également fournir des métadonnées à Oracle Autonomous Data Warehouse afin de faciliter la création de tables externes dans l'entrepôt de données.

  • Sécurité des données

    La sécurité des données est cruciale pour explorer et utiliser au maximum les données des lakehouses. En s'appuyant sur un modèle de sécurité de confiance zéro avec des capacités de défense en profondeur et RBAC, et en assurant la conformité avec la réglementation la plus stricte, la sécurité des données fournit des contrôles de sécurité préventifs, détectifs et correctifs pour s'assurer que l'exfiltration des données et les violations sont évitées.

    • Oracle Data Safe est un service Oracle Cloud entièrement intégré qui se concentre sur la sécurité des données. Il fournit un ensemble complet et intégré de fonctionnalités permettant de protéger les données confidentielles et réglementées des bases de données Oracle Cloud, telles qu'Oracle Autonomous Data Warehouse. Ces fonctionnalités comprennent l'évaluation de la sécurité, l'évaluation des utilisateurs, le repérage des données, le masquage des données et l'audit d'activité.

    • Oracle Cloud Infrastructure Audit vous fournit la visibilité nécessaire sur les activités liées aux ressources et aux locations Oracle Cloud Infrastructure (OCI). Vous pouvez utiliser les événements de journal d'audit pour des audits de sécurité afin de suivre l'utilisation des ressources OCI et leurs modifications, ainsi que pour assurer la conformité aux normes et aux réglementations.

    • Oracle Cloud Infrastructure Logging fournit une interface unique hautement évolutive et entièrement gérée pour tous les journaux de la location, y compris les journaux d'audit. Utilisez OCI Logging pour accéder aux journaux à partir de toutes les ressources OCI afin de pouvoir les activer, les gérer et les rechercher.

    • Oracle Cloud Infrastructure Vault est un service de gestion du cryptage qui stocke et gère les clés de cryptage ainsi que les clés secrètes afin d'accéder aux ressources en toute sécurité. Permet d'utiliser des clés gérées par le client pour Oracle Autonomous Data Warehouse et le cryptage de lac de données afin d'améliorer la protection des données au repos. Permet aux clés secrètes de stocker en toute sécurité des services et des informations d'identification utilisateur afin d'améliorer votre état de sécurité et de garantir que les informations d'identification ne sont pas compromises et utilisées de manière inappropriée.

Architecture physique

L'architecture physique de ce data lakehouse prend en charge les éléments suivants :

  • Les données sont ingérées en toute sécurité à l'aide de micro-par lots, de la transmission en continu, d'API et de fichiers provenant de sources de données relationnelles et non relationnelles
  • Les données sont traitées à l'aide d'une combinaison d'Oracle Cloud Infrastructure Data Integration et d'Oracle Cloud Infrastructure Data Flow
  • Les données sont stockées dans Oracle Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage et sont organisées en fonction de leur qualité et de leur valeur
  • Oracle Autonomous Data Warehouse fournit des services de données d'entrepôt et de lac en toute sécurité aux consommateurs
  • Oracle Analytics Cloud met les données à la disposition des utilisateurs professionnels à l'aide de visualisations
  • Oracle Analytics Cloud est exposé à l'aide d'Oracle Cloud Infrastructure Load Balancing sécurisé par Oracle Cloud Infrastructure Web Application Firewall (WAF) afin de fournir un accès à l'aide d'Internet.
  • Oracle Cloud Infrastructure Data Science est utilisé pour créer, entraîner et déployer des modèles de machine learning (ML)
  • La passerelle d'API Oracle Cloud Infrastructure est exploitée pour régir les déploiements de modèle de machine learning Data Science
  • Oracle Cloud Infrastructure Data Catalog collecte des métadonnées à partir d'Oracle Autonomous Data Warehouse et du stockage d'objets
  • Oracle Data Safe évalue les risques liés aux données, implémente et surveille les contrôles de sécurité, évalue la sécurité des utilisateurs, surveille l'activité des utilisateurs et répond aux exigences de conformité en matière de sécurité des données
  • Oracle Cloud Infrastructure Bastion est utilisé par les administrateurs pour gérer les ressources de cloud privé

Le schéma suivant illustre cette architecture de référence.



lakehouse-architecture-oracle.zip

Conception de l'architecture physique :

  • Exploite 2 réseaux cloud virtuels, l'un pour le hub et l'autre pour la charge de travail elle-même
  • La connectivité sur site exploite à la fois Oracle Cloud Infrastructure FastConnect et le VPN site à site pour la redondance
  • Tout le trafic entrant à partir d'Internet et sur site est d'abord acheminé vers le VCN hub, puis vers le VCN de charge de travail
  • Toutes les données sont sécurisées en transit et au repos
  • Les services sont déployés avec des adresses privées pour améliorer l'état de sécurité
  • Le VCN est séparé en plusieurs sous-réseaux privés pour améliorer l'état de sécurité
  • Les données de lac sont séparées en plusieurs buckets dans le stockage d'objets en tirant parti d'une architecture médaillon

Les améliorations possibles de la conception qui ne sont pas décrites dans ce déploiement pour des raisons de simplicité sont les suivantes :

  • Exploitation d'une zone d'atterrissage entièrement compatible CIS
  • Tirer parti d'un pare-feu réseau pour améliorer la posture de sécurité globale en inspectant tout le trafic et en appliquant des stratégies

Recommandations

Utilisez les recommandations suivantes comme point de départ pour traiter les données de transmission en continu et un large éventail de ressources de données d'entreprise pour l'analyse commerciale et le machine learning.

Vos exigences peuvent différer de l'architecture décrite ici.

  • Oracle Autonomous Data Warehouse

    Cette architecture utilise Oracle Autonomous Data Warehouse sur une infrastructure partagée.

    • Activez le redimensionnement automatique pour multiplier par trois la puissance de traitement des charges globales de base de données.
    • Envisagez d'utiliser Oracle Autonomous Data Warehouse sur une infrastructure dédiée si vous voulez la fonctionnalité de base de données en libre-service dans un environnement cloud de base de données privé exécuté sur le cloud public.
    • Envisagez d'utiliser la fonctionnalité de tables partitionnées hybrides d'Autonomous Data Warehouse pour déplacer des partitions de données vers Oracle Cloud Infrastructure Object Storage et les servir aux utilisateurs et aux applications de manière transparente. Nous vous recommandons d'utiliser cette fonctionnalité pour les données qui ne sont pas souvent utilisées et pour lesquelles vous n'avez pas besoin des mêmes performances que pour les données stockées dans Autonomous Data Warehouse.
    • Envisagez d'utiliser la fonctionnalité de tables externes pour utiliser les données stockées dans Oracle Cloud Infrastructure Object Storage en temps réel sans avoir à les répliquer vers Autonomous Data Warehouse. Cette fonctionnalité joint les ensembles de données organisés en dehors d'Autonomous Data Warehouse de manière transparente et transparente, quel que soit le format (parquet, avro, orc, json, csv, etc.), avec des données résidant sur Autonomous Data Warehouse.
    • Envisagez d'utiliser la fonctionnalité de base de données en mémoire pour améliorer considérablement les performances des analyses en temps réel et des charges de travail mixtes. Chargez les données de lakehouse dans de la mémoire qui doit être servie avec une faible latence et qui réside dans des tables internes, hybrides partitionnées ou externes ADW.
    • Envisagez d'utiliser Autonomous Data Lake Accelerator lors de l'utilisation de données de stockage d'objets pour offrir une expérience améliorée et plus rapide aux utilisateurs qui utilisent et joignent des données entre l'entrepôt de données et le lac de données.
    • Envisagez de stocker des incorporations vectorielles dans Autonomous Data Warehouse avec d'autres types de données tels que les données relationnelles ou les données JSON pour simplifier l'ingénierie et l'analyse des données sur toutes les données, et mettez efficacement les agents RAG à la terre à l'aide de toutes les données.
    • Envisagez d'utiliser Select AI comme accélérateur pour créer des instructions SQL simples et complexes qui peuvent être utilisées dans l'ingénierie des données, la business intelligence, le développement d'applications ou toute tâche nécessitant la création d'instructions SQL.
    • Envisagez d'utiliser Select AI avec des applications low code pour simplifier davantage la couche d'application.
    • Envisagez d'utiliser des vues analytiques pour modéliser sémantiquement le schéma sous-jacent en étoile ou en flocon de neige directement dans ADW afin que les données granulaires soient automatiquement agrégées sans qu'il soit nécessaire de les préagréger. Le modèle sémantique est utilisé en utilisant SQL de manière cohérente avec tout client compatible SQL, y compris Oracle Analytics Cloud, ce qui garantit des faits et des indicateurs clés de performance sont traitées de manière cohérente quel que soit le client, et toutes les données peuvent être utilisées sur le modèle sémantique, qu'elles soient stockées dans ADW ou dans Object Storage, ce qui en fait une couche de modélisation sémantique parfaite pour une architecture de lakehouse où les faits et les dimensions peuvent traverser le lac et le lac.
    • Envisagez d'utiliser les clés gérées par le client en tirant parti du service Vault si un contrôle complet des clés de cryptage ADW est nécessaire en raison des stratégies de l'entreprise ou de la réglementation.
    • Envisagez d'utiliser Database Vault dans ADW pour empêcher les utilisateurs privilégiés non autorisés d'accéder aux données sensibles et ainsi empêcher l'exfiltration et les violations de données.
    • Envisagez d'utiliser Autonomous Data Guard pour prendre en charge un plan de continuité des activités via la configuration et la conservation des données répliquées sur une instance de secours dans la même région ou dans une autre région.
    • Envisagez d'utiliser le masquage dynamique des données avec la protection par occultation pour fournir des données masquées aux utilisateurs en fonction de leur rôle et, par conséquent, de garantir un accès aux données approprié sans avoir besoin de duplication des données et de masquage statique.
    • Envisagez d'utiliser des clones ADW pour créer rapidement d'autres environnements transitoires ou non. Utilisez des clones actualisables si l'environnement cible doit disposer de données à jour. Utilisez Oracle Data Safe pour masquer de manière statique les données confidentielles dans les clones afin d'améliorer la sécurité.
    • Envisagez d'utiliser le partage de données comme moyen sécurisé et facile de consommer et de fournir des données, que ce soit avec d'autres instances Autonomous Database ou avec toute technologie compatible avec le partage Delta.
    • Envisagez d'utiliser le partage de données en direct entre les instances Autonomous Database pour utiliser et fournir des données en temps réel.
    • Envisagez d'utiliser le partage de données avec numéro de version pour partager des données avec les consommateurs. Cela évite le coût de l'interrogation des données, car les données sont traitées par les consommateurs et non par le fournisseur.
    • Envisagez d'utiliser des URL de demande pré-authentifiée pour un accès aux données en lecture seule et limité dans le temps sur ADW afin d'activer le partage de données non sensibles dans les cas d'emploi où le consommateur ne prend pas en charge le partage delta.
  • Object Storage/Data Lake

    Cette architecture utilise Oracle Cloud Infrastructure Object Storage, un stockage cloud hautement évolutif et durable, en tant que stockage de lac.

    • Envisagez d'organiser votre lac sur différents ensembles de buckets en tirant parti d'une architecture médaillon (bronze, argent, or) ou d'une autre logique de partitionnement pour séparer les données en fonction de leur qualité et de leur enrichissement, appliquer une sécurité affinée aux consommateurs qui lisent les données et appliquer différentes stratégies de gestion du cycle de vie aux différents niveaux.
    • Envisagez d'utiliser différents niveaux de stockage d'objets et stratégies de cycle de vie pour optimiser les coûts de stockage des données de lac à grande échelle.
    • Envisagez d'utiliser des clés gérées par le client en tirant parti du service Vault si un contrôle complet des clés de cryptage Object Storage est nécessaire en raison des stratégies de l'entreprise ou de la réglementation.
    • Envisagez d'utiliser la réplication Object Storage pour prendre en charge un plan de continuité des activités via la configuration de la réplication de bucket vers une autre région. Dans la mesure où Object Storage est hautement durable et gère plusieurs copies du même objet dans une seule région à des fins de récupération sur la même réplication de bucket de région, il n'est pas nécessaire de le faire.
    • Envisagez d'utiliser des stratégies Oracle Cloud Infrastructure Identity and Access Management (IAM) pour les objets, en utilisant des noms d'objet ou des modèles, afin d'augmenter la sécurité des données pour les accès directs aux lacs de données.
    • Envisagez d'utiliser des adresses privées dans Oracle Cloud Infrastructure Object Storage pour garantir un accès sécurisé et privé au lac de données à partir du VCN de la plate-forme de données.
    • Envisagez d'utiliser des sources réseau et des stratégies IAM pour vous y référer afin de gérer les adresses IP autorisées à accéder aux buckets et aux objets de lac de données.
    • Envisagez d'utiliser OCIFS, un utilitaire basé sur python, pour monter des buckets Oracle Cloud Infrastructure Object Storage en tant que systèmes de fichiers, afin de prendre en charge les applications qui fonctionnent uniquement avec NFS et qui ont besoin de télécharger des fichiers vers Object Storage.
  • Oracle Machine Learning et Oracle Cloud Infrastructure Data Science

    Cette architecture s'appuie sur Oracle Machine Learning et Oracle Cloud Infrastructure Data Science pour exécuter et fournir des prévisions en temps réel aux personnes et aux applications.

    • Envisagez d'utiliser AutoML dans OCI Data Science ou Oracle Machine Learning pour accélérer le développement de modèles de machine learning.
    • Envisagez d'utiliser Open Neural Networks Exchange (ONNX) pour l'interopérabilité. Les modèles 3ème partie ONNX peuvent être déployés dans OML et exposés en tant qu'adresse REST ou dans OCI Data Science et exposés en tant qu'adresse HTTP.
    • Envisagez d'enregistrer le modèle dans OCI Data Science en tant qu'ONNX et de l'importer dans OCI GoldenGate Stream Analytics s'il est nécessaire d'exécuter le scoring et la prévision dans un pipeline de données en temps réel pour disposer de prévisions plus opportunes pouvant générer des résultats commerciaux en temps réel.
    • Envisagez d'utiliser les environnements OCI Data Science Conda pour une meilleure gestion et un meilleur packaging des dépendances Python dans les sessions de bloc-notes Jupyter. Tirez parti du référentiel de packages organisé par Anaconda dans OCI Data Science pour utiliser vos outils open source préférés afin de créer, d'entraîner et de déployer des modèles.
    • Envisagez d'utiliser les actions rapides d'IA d'Oracle Cloud Infrastructure Data Science pour déployer, évaluer et affiner les modèles de base dans OCI Data Science. Utilisez des LLM open source organisés disponibles dans l'explorateur de modèles ou utilisez votre propre modèle.
    • Envisagez d'utiliser des opérateurs d'IA low code Data Science, disponibles dans le package Python Accelerated Data Science, pour effectuer rapidement et efficacement des prévisions, détecter des anomalies ou créer des fonctionnalités de recommandation.
    • Envisagez d'utiliser OCI Data Flow dans l'environnement Jupyter Data Science pour effectuer une analyse exploratoire des données, un profilage des données et une préparation des données à grande échelle, en tirant parti du traitement d'augmentation Spark.
    • Envisagez d'utiliser Data Labeling pour étiqueter des données telles que des images, du texte ou des documents et utilisez-les pour entraîner des modèles de machine learning basés sur OCI Data Science ou OCI AI Services et ainsi améliorer la précision des prédictions.
    • Envisagez de déployer une passerelle d'API pour sécuriser et régir la consommation du modèle déployé si les prévisions en temps réel sont utilisées par les partenaires et les entités externes.
  • Oracle Cloud Infrastructure Data Integration

    Cette architecture utilise Oracle Cloud Infrastructure Data Integration pour prendre en charge le développement déclaratif et sans code ou de pipeline de données ETL et low-code.

    • Tirez parti d'Oracle Cloud Infrastructure Data Integration pour coordonner et programmer les exécutions d'application Oracle Cloud Infrastructure Data Flow, et être en mesure de mélanger et de mettre en correspondance un ETL déclaratif avec une logique de code Spark personnalisée. Utilisez des fonctions d'Oracle Cloud Infrastructure Data Integration pour étendre les fonctionnalités des pipelines de données.
    • Envisagez d'utiliser la propagation SQL pour les transformations dont la cible est ADW afin d'utiliser une approche ELT plus efficace, plus performante et plus sécurisée que l'ETL.
    • Envisagez d'autoriser OCI Data Integration à gérer la dérive du schéma des sources de données afin de disposer de pipelines de données plus résilients et pérennes qui soutiendront les modifications du schéma des sources de données.
  • Oracle Cloud Infrastructure Data Flow

    Cette architecture utilise Oracle Cloud Infrastructure Data Flow pour prendre en charge le traitement de transmission en continu Spark et Spark à grande échelle sans avoir besoin de disposer de clusters permanents et de les gérer.

    • Envisagez d'utiliser Oracle Cloud Infrastructure Data Catalog en tant que metastore Hive pour Oracle Cloud Infrastructure Data Flow afin de stocker et d'extraire en toute sécurité des définitions de schéma pour les objets dans des ressources de données non structurées et semi-structurées telles qu'Oracle Cloud Infrastructure Object Storage.
    • Envisagez d'utiliser Delta Lake sur OCI Data Flow si les transactions ACID et l'unification de la transmission en continu et du traitement par lots sont nécessaires pour les données de lac.
  • Big Data Service

    Cette architecture s'appuie sur Oracle Cloud Infrastructure Big Data Service pour déployer des clusters à haute disponibilité et évolutifs de diverses technologies open source telles que Spark, Hadoop, Trino ou Flink, capables de traiter des données en batch et en continu. Big Data Service conserve les données dans HDFS, persiste et lit les données à partir d'Oracle Cloud Infrastructure Object Storage, et peut échanger des ensembles de données avec d'autres services Oracle Cloud Infrastructure tels qu'Oracle Cloud Infrastructure Data Flow et Oracle Autonomous Data Warehouse.

    • Envisagez d'utiliser le redimensionnement automatique pour redimensionner automatiquement horizontalement ou verticalement les noeuds de processus actif en fonction de mesures ou de calendriers afin d'optimiser en permanence les coûts en fonction de la demande de ressources.
    • Envisagez d'utiliser le connecteur OCI HDFS pour Object Storage afin de lire et d'écrire des données vers et à partir d'Object Storage. Cela fournit donc un mécanisme pour produire/consommer des données partagées avec d'autres services OCI sans avoir à les répliquer ni à les dupliquer.
    • Envisagez d'utiliser Delta Lake sur OCI BDS si les transactions ACID et l'unification de la transmission en continu et du traitement par lots sont nécessaires pour les données de lac.
    • Si vous avez besoin d'utiliser d'autres logiciels open source, envisagez d'utiliser Oracle Cloud Infrastructure Registry, des instances de conteneur ou Oracle Cloud Infrastructure Kubernetes Engine pour déployer tout logiciel open source pouvant être mis en conteneur.
  • Oracle Cloud Infrastructure Streaming

    Cette architecture s'appuie sur Oracle Cloud Infrastructure Streaming pour utiliser les données de transmission en continu des sources, et pour fournir des données de transmission en continu aux clients.

    Envisagez d'utiliser Oracle Cloud Infrastructure Service Connector Hub pour déplacer des données à partir d'Oracle Cloud Infrastructure Streaming et pour assurer leur persistance sur Oracle Cloud Infrastructure Object Storage afin de prendre en charge une analyse plus approfondie des données historiques.

  • Oracle Analytics Cloud

    Cette architecture s'appuie sur Oracle Analytics Cloud (OAC) pour fournir des analyses augmentées aux utilisateurs finaux.

    Envisagez d'exploiter l'intégration prédéfinie qu'OAC a avec OCI AI Services (modèles de langue et de vision) et OML (n'importe quel modèle) pour intégrer l'intelligence dans les flux de données et visualisations que les utilisateurs finaux consomment et démocratiser ainsi la consommation d'IA et de machine learning.

  • Services d'IA Oracle Cloud Infrastructure

    Cette architecture peut tirer parti des services d'IA Oracle Cloud Infrastructure, en fonction des cas d'utilisation déployés.

    Envisagez d'utiliser Data Labeling pour étiqueter les données d'entraînement qui seront utilisées pour régler et obtenir des prévisions plus précises pour les services d'IA tels que Vision, Document Understanding et Language.

  • Services Oracle Cloud Infrastructure Generative AI

    Cette architecture peut tirer parti des services Oracle Cloud Infrastructure Generative AI, en fonction des cas d'utilisation déployés.

    • Envisagez d'utiliser le terrain de jeu et les API à la demande qui utilisent des LLM préentraînés pour traiter la génération de texte, la conversation, l'extraction de données, la synthèse, la classification, le transfert de style ou la similarité sémantique, et d'intégrer rapidement l'IA générative dans vos pipelines et processus.
    • Envisagez d'utiliser des clusters d'IA dédiés pour adapter et affiner efficacement les LLM de base à vos données, garantissant ainsi une isolation et une sécurité complètes des données.
    • Envisagez de partager l'hébergement de clusters d'IA dédiés au sein de différentes équipes au sein de l'entreprise pour une rentabilité. Un seul cluster peut être utilisé pour héberger plusieurs modèles personnalisés, qui peuvent tous être servis avec des adresses indépendantes et peuvent être sécurisés avec des stratégies IAM dédiées.
  • API Gateway

    Cette architecture s'appuie sur API Gateway pour exposer en toute sécurité les services de données et l'inférence en temps réel aux consommateurs de données.

    • Envisagez d'utiliser Oracle Cloud Infrastructure Functions pour ajouter la logique d'exécution éventuellement nécessaire pour prendre en charge un traitement d'API spécifique hors de portée des couches de traitement des données, d'accès et d'interprétation.
    • Envisagez d'utiliser des plans d'utilisation pour gérer l'accès des abonnés aux API, surveiller et gérer la consommation des API, configurer différents niveaux d'accès pour différents consommateurs et prendre en charge la monétisation des données en suivant les mesures d'utilisation qui peuvent être fournies à un système de facturation externe.
  • Oracle Cloud Infrastructure Data Catalog

    Pour avoir une vue complète et holistique de bout en bout des données stockées et circulant sur la plate-forme, envisagez de collecter non seulement les banques de données prenant en charge la couche de persistance des données, mais également les banques de données source. La mise en correspondance de ces métadonnées techniques collectées avec le glossaire métier et leur enrichissement avec des propriétés personnalisées vous permet de mettre en correspondance des concepts métier, de documenter et de régir les définitions de sécurité et d'accès.

    • Pour faciliter la création de tables externes Oracle Autonomous Data Warehouse qui virtualisent les données stockées sur Oracle Cloud Infrastructure Object Storage, tirez parti des métadonnées précédemment collectées par Oracle Cloud Infrastructure Data Catalog. Cela simplifie la création de tables externes, applique la cohérence des métadonnées entre les banques de données et est moins susceptible aux erreurs humaines.
    • Envisagez d'utiliser le suivi de lignage pour Oracle Cloud Infrastructure Data Integration et Oracle Cloud Infrastructure Data Flow afin d'avoir une visibilité sur la façon dont les données ont été ingérées, transformées et stockées. Pour une couverture accrue, utilisez l'ingestion basée sur les API pour tirer parti de la structure ouverte OpenLineage afin de suivre le lignage pour n'importe quelle source et n'importe quel système.
  • Oracle Cloud Infrastructure Data Transfer Service

    Utilisez le service Oracle Cloud Infrastructure Data Transfer lorsqu'il est impossible de procéder au téléchargement de données à l'aide d'une connectivité Internet public. Nous vous recommandons d'envisager l'utilisation de Data Transfer si le téléchargement de données via le réseau Internet public nécessite plus de 1-2 semaines.

  • Data Safe et Audit

    L'augmentation de la posture de sécurité en tirant parti des capacités d'audit et d'alerte permettra d'empêcher l'exfiltration des données et de pouvoir effectuer des analyses médico-légales en cas de violation de données.

    • Envisagez d'utiliser Oracle Data Safe pour auditer l'activité dans l'entrepôt de données et envisagez d'utiliser Oracle Cloud Infrastructure Audit pour auditer le trafic vers les données de lac.
    • Envisagez d'utiliser Oracle Data Safe pour le repérage de données sensibles sur ADW et pour les masquer de manière statique lors de la création de clones ADW pour les environnements hors production, afin d'éviter les risques de sécurité.
    • Envisagez d'utiliser Oracle Data Safe SQL Firewall avec ADW pour améliorer l'état de sécurité des données, en vous protégeant contre les risques tels que les attaques par injection SQL ou les comptes compromis.
  • Déploiement et automatisation

    Cette architecture physique est déployée à l'aide de l'automatisation Infrastructure-as-Code (IaC) pour créer les ressources permettant de déployer un data lakehouse

    Oracle Cloud Infrastructure Resource Manager vous permet de créer des piles Terraform de ressources cloud déployables, de partager et de gérer les configurations d'infrastructure, ainsi que d'indiquer les fichiers entre plusieurs équipes et plates-formes. Envisagez d'utiliser Oracle Cloud Infrastructure Resource Manager afin de créer des piles de déploiement pour la création d'environnements hors production, d'intégrer de nouvelles équipes ayant besoin de services supplémentaires, et de standardiser et d'intégrer des stratégies IAM cohérentes et des glissières de sécurité qui respectent les stratégies définies en matière de gouvernance et de sécurité de l'entreprise.

  • Continuité des activités

    Cette architecture décrit un déploiement dans une seule région et peut être étendue de deux régions pour prendre en charge la récupération après sinistre et permettre un plan de continuité des activités.

  • Oracle Cloud Infrastructure Full Stack Disaster Recovery Service est un service de gestion et d'orchestration de récupération après sinistre qui fournit des fonctionnalités complètes pour toutes les couches de la pile d'applications, y compris l'infrastructure, le middleware, la base de données et l'application.

    Envisagez d'utiliser Full Stack Disaster Recovery pour configurer des plans de permutation et de basculement pour le data lakehouse afin d'automatiser les tâches de récupération après sinistre et de réduire les étapes manuelles en cas de transition planifiée ou non planifiée vers la région de secours.

  • Optimisation des coûts

    Envisagez d'utiliser le suivi des coûts et de l'utilisation d'Oracle Cloud Infrastructure, ainsi que les fonctionnalités d'optimisation des coûts pour soutenir en permanence vos opérations financières.

    • Envisagez d'utiliser des rapports sur les coûts et l'utilisation pour obtenir et suivre l'utilisation des ressources cloud et les coûts respectifs. Tirez parti des rapports de coûts CSV FOCUS standard produits pour l'intégration aux solutions d'opérations financières 3rd party.
    • Envisagez d'utiliser l'analyse des coûts pour suivre les coûts engagés par les différentes équipes, projets et environnements.
    • Envisagez d'utiliser des balises de suivi des coûts pour baliser des ressources cloud pour des équipes, des projets ou des environnements spécifiques.
    • Envisagez d'utiliser des budgets pour définir des limites souples sur les dépenses et de définir des alertes pour vous informer lorsque vous risquez de dépasser votre budget pour le projet, l'équipe ou les dépenses globales.
  • Interopérabilité

    Cette architecture s'appuie largement sur les normes du secteur pour interagir avec l'environnement informatique hétérogène de toute entreprise, afin qu'elle puisse consommer et fournir toutes les données nécessaires à toute application, système ou personne.

    L'architecture prend en charge les formats de fichier ouverts tels que Parquet ou Avro, de sorte que les données peuvent être stockées dans le format le plus approprié pour chaque cas d'utilisation. En outre, il prend également en charge les formats de table ouverte tels que Iceberg et Delta Lake pour assurer l'interopérabilité entre les technologies Oracle et les autres technologies 3rd party.
    • Envisagez d'utiliser la prise en charge d'iceberg d'Oracle Autonomous Data Warehouse pour lire les tables d'iceberg conservées sur le lac de données et les servir aux consommateurs. Les tables d'iceberg peuvent être utilisées en tant que tables externes ou chargées dans ADW.
    • Envisagez d'utiliser la prise en charge du format universel Delta Lake Data Flow pour lire, traiter et rendre persistantes les données dans le lac de données. L'utilisation de Delta Lake lors de la génération de métadonnées pour d'autres formats de table ouverte tels que Iceberg et Hudi permet à différents moteurs de traitement de lire les mêmes données.
  • Approche organisationnelle

    Cette architecture est flexible et peut prendre en charge différents types d'approches organisationnelles allant d'une approche centralisée à une approche complètement décentralisée et peut donc être adoptée et utilisée par toute organisation qui souhaite extraire de la valeur de ses données.

    Cette architecture s'appuie sur des contrôles détaillés pour l'authentification et l'autorisation avec OCI Identity and Access Management (IAM).

    Envisagez d'utiliser IAM pour séparer les différents secteurs d'activité et les différentes équipes en utilisant le lakehouse afin de décentraliser la propriété de la création de produits de données et d'appliquer la ségrégation des domaines de données si votre organisation souhaite adopter une approche organisationnelle décentralisée.

    OCI dispose de fonctionnalités d'automatisation et d'Infrastructure as Code en tant que clés pour un déploiement d'architecture réussi, en tirant parti de structures telles que Terraform et Ansible.

    Si votre organisation adopte une approche décentralisée et implémente des domaines de données dans le cadre de cette approche, envisagez d'utiliser des modèles terraform prédéfinis et OCI Resource Manager pour intégrer rapidement et de manière cohérente les domaines de données dans la plate-forme de données.

Points à prendre en compte

Lors de la collecte, du traitement et de la conservation des données d'application à des fins d'analyse et d'apprentissage automatique, tenez compte des options d'implémentation suivantes.

Instructions Recommandé Autres options Raisonnement
Raffinerie de données
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Transformations de données Oracle Autonomous Database

Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL native du cloud, sans serveur et entièrement gérée, évolutive et rentable.

Oracle Cloud Infrastructure GoldenGate fournit une plate-forme de réplication de données native du cloud, sans serveur, entièrement gérée et non intrusive, évolutive, rentable et pouvant être déployée dans des environnements hybrides.

Persistance des données
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse est une base de données facile à utiliser et entièrement autonome, d'une capacité élastique, sur laquelle les performances des requêtes sont excellentes et qui ne nécessite pas d'administration. Il offre également un accès direct aux données à partir de tables partitionnées externes ou hybrides du stockage d'objets.

Oracle Cloud Infrastructure Object Storage stocke un nombre illimité de données au format brut.

Traitement des données
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure Big Data Service
Outils tiers

Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL native du cloud, sans serveur et entièrement gérée, évolutive et rentable.

Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à grande échelle grâce à un modèle extrêmement élastique à l'utilisation et au paiement à l'utilisation.

Oracle Cloud Infrastructure Big Data Service offre une solution Hadoop-as-a-Service adaptée aux entreprises avec une sécurité de bout en bout, des performances élevées, ainsi qu'une facilité de gestion et de mise à niveau.

Accès et interprétation
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Services d'IA Oracle Cloud Infrastructure
Outils tiers

Oracle Analytics Cloud est entièrement géré et étroitement intégré aux données organisées dans Oracle Autonomous Data Warehouse.

Data Science est une plate-forme en libre-service entièrement gérée qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Le service Data Science fournit des outils d'infrastructure et de data science tels que AutoML et des fonctionnalités de déploiement de modèle.

Oracle Machine Learning est une plate-forme en libre-service entièrement gérée pour la data science disponible avec Oracle Autonomous Data Warehouse qui exploite la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles de machine learning à grande échelle sans avoir à déplacer les données en dehors de l'entrepôt.

Les services d'IA Oracle Cloud Infrastructure sont un ensemble de services qui fournissent des modèles prédéfinis spécialement conçus et entraînés pour effectuer des tâches telles que l'inférence d'anomalies potentielles ou la détection de sentiments.

Déployez

Le code Terraform pour cette architecture de référence est disponible dans GitHub. Vous pouvez extraire le code dans Oracle Cloud Infrastructure Resource Manager en un seul clic, créer la pile et la déployer. Vous pouvez également télécharger le code à partir de GitHub sur votre ordinateur, le personnaliser et déployer l'architecture à l'aide de l'interface de ligne de commande Terraform.
  • Déployez à l'aide d'Oracle Cloud Infrastructure Resource Manager :
    1. Cliquez sur .Déploiement vers Oracle Cloud

      Si vous n'êtes pas déjà connecté, entrez la location et les informations d'identification utilisateur.

    2. Consultez et acceptez les conditions générales.
    3. Sélectionnez la région de déploiement de la pile.
    4. Suivez les invites à l'écran et les instructions pour créer la pile.
    5. Après avoir créé la pile, cliquez sur Actions Terraform, puis sélectionnez Planifier.
    6. Attendez que le travail soit terminé et vérifiez le plan.

      Pour apporter des modifications, revenez à la page Détails de la pile, cliquez sur Modifier la pile et apportez les modifications requises. Exécutez ensuite à nouveau l'action Planifier.

    7. Si aucune autre modification n'est nécessaire, revenez à la page Détails de la pile, cliquez sur Actions Terraform et sélectionnez Appliquer.
  • Effectuer un déploiement à l'aide de l'interface de ligne de commande Terraform :
    1. Accédez à GitHub.
    2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
    3. Suivez les instructions du document README.

Accusés de réception

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

Modifier le journal

Ce journal répertorie les modifications importantes :