Plate-forme de données - Data Lakehouse

Architecture fonctionnelle

Vous pouvez combiner les capacités d'un lac de données et d'un entrepôt de données pour fournir une plate-forme de data lakehouse innovante qui traite la transmission en continu et d'autres types de données à partir d'un large éventail de ressources de données d'entreprise afin de pouvoir tirer parti des données pour l'analyse commerciale, le machine learning, les services de données et les produits de données.

Une architecture de data lakehouse combine les fonctionnalités du data lake et de l'entrepôt de données pour augmenter l'efficacité opérationnelle et fournir des fonctionnalités améliorées qui permettent :

Utilisation transparente des données et des informations sans avoir à les répliquer dans le lac de données et l'entrepôt de données
Prise en charge de différents types de données dans une architecture multimodèle et polyglotte améliorée
Ingestion transparente des données auprès de n'importe quel destinataire à l'aide de mécanismes d'ingestion en masse, de diffusion en continu, de traitement batch et d'interface de programmation d'applications (API) en temps réel
Extraction continue de l'intelligence à partir des données à l'aide des services d'intelligence artificielle (IA), d'IA générative et de machine learning (ML)
Capacité à diffuser des informations auprès de n'importe quel consommateur de données à l'aide de mécanismes d'intégration, de diffusion en continu, d'API et d'interface utilisateur
Gouvernance et sécurité des données affinée qui exploitent un modèle de sécurité sans confiance
Possibilité de découpler entièrement les ressources de stockage et de calcul et de n'utiliser que les ressources nécessaires à tout moment
Possibilité d'exploiter plusieurs moteurs de calcul, y compris des moteurs open source, pour traiter les mêmes données pour différents cas d'utilisation afin d'obtenir un maximum de réaffectation, de liquidité et d'utilisation des données
Possibilité de stocker des données à l'aide de différents formats de fichier et de table ouverts dans le lac de données
Possibilité d'exploiter les services natifs Oracle Cloud Infrastructure (OCI) gérés par Oracle et de réduire les frais opérationnels
Meilleure économie du cloud grâce au redimensionnement automatique qui ajuste l'infrastructure des ressources cloud pour répondre à la demande réelle
La modularité pour que l'utilisation du service soit axée sur les cas d'utilisation
Interopérabilité avec tout système ou cloud respectant des normes ouvertes
Prise en charge d'un ensemble varié de cas d'utilisation, notamment la diffusion en continu, l'analyse, la science des données et le machine learning
Prise en charge de différentes approches architecturales, d'un lakehouse centralisé à un maillage de données décentralisé

Le schéma suivant illustre l'architecture fonctionnelle.

Description de l'image lakehouse-functional.png ci-après

Description de l'illustration lakehouse-functional.png ci-après

lachouse-fonctionnel-oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

L'architecture se concentre sur les divisions logiques suivantes :

Connecter, assimiler et transformer
Se connecte aux sources de données, ingère et affine leurs données pour les utiliser dans chacune des couches de données de l'architecture.
Conserver, organiser et créer
Facilite l'accès et la navigation aux données pour afficher la vue métier actuelle. Pour les technologies relationnelles, les données peuvent être structurées logiquement ou physiquement dans de simples formulaires relationnels, longitudinaux, dimensionnels ou OLAP. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, soit issus d'un processus analytique, soit des données optimisées pour une tâche analytique spécifique.
Analyser, apprendre, prévoir
Abstrait la vue logique des données pour les consommateurs. Cette abstraction facilite les approches agiles du développement, de la migration vers l'architecture cible et de la fourniture d'une seule couche de reporting à partir de plusieurs sources fédérées.

L'architecture comporte les composants fonctionnels suivants :

Ingestion par lots
L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses à adapter pour l'ingestion en temps réel. Il est également important de transformer les données en informations fiables et fiables qui peuvent être organisées et conservées pour une consommation régulière. Vous pouvez utiliser les services suivants ensemble ou indépendamment pour obtenir un workflow d'intégration et de transformation des données extrêmement flexible et efficace.
- Oracle Cloud Infrastructure Data Integration est un service sans serveur entièrement géré permettant de concevoir et d'exécuter des pipelines de données. Elle permet une extraction, une transformation et un chargement transparents des données vers des cibles OCI telles qu'Autonomous AI Lakehouse et OCI Object Storage. Les utilisateurs peuvent créer des flux d'intégration via une interface intuitive et sans code qui met à l'échelle automatiquement les environnements d'exécution. Il prend en charge à la fois ETL avec le traitement basé sur Spark et ELT avec SQL Pushdown pour les performances et l'efficacité. Le service offre également des outils de préparation des données et protège contre la dérive de schéma grâce à la gestion basée sur des règles.
- Oracle Data Integrator fournit une intégration complète des données, des chargements de lots à volume élevé et hautes performances aux processus d'intégration basés sur les événements et sur l'alimentation, en passant par les services de données compatibles SOA. Une approche de conception déclarative garantit un développement et une maintenance plus rapides et plus simples, et fournit une approche unique pour l'extraction de la transformation de charge (ELT) qui permet de garantir le plus haut niveau de performances possible pour les processus de transformation et de validation des données. Les transformations de données Oracle utilisent une interface Web pour simplifier la configuration et l'exécution d'ELT et pour aider les utilisateurs à créer et planifier des données et des flux de travail à l'aide d'une approche de conception déclarative.
- Oracle Data Transforms permet d'activer ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux et des workflows de données de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré au sein d'Oracle Autonomous AI Lakehouse pour charger et transformer les données de plusieurs sources de données en une instance Oracle Autonomous AI Lakehouse.
Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour réaliser une intégration et une transformation des données hautement flexibles et performantes.
Assimilation basée sur API
L'ingestion basée sur les API permet aux applications et aux systèmes de transmettre des données d'événements à l'aide d'API ou de webhooks.
- Oracle Integration est un environnement entièrement géré et préconfiguré qui vous permet d'intégrer des applications cloud et sur site, d'automatiser les processus métier et de développer des applications visuelles. Il utilise un serveur de fichiers compatible SFTP pour stocker et extraire des fichiers et vous permet d'échanger des documents avec des partenaires commerciaux professionnels en utilisant un portefeuille de centaines d'adaptateurs et de recettes pour vous connecter à des applications Oracle et tierces.
- Oracle Cloud Infrastructure API Gateway vous permet de publier des API avec des adresses privées accessibles à partir de votre réseau, et que vous pouvez exposer au réseau Internet public si nécessaire. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, la spécification CORS, l'authentification et l'autorisation, ainsi que l'autorisation des demandes.
  
  OCI API Gateway permet à l'observabilité de l'API de surveiller l'utilisation et de garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les clients et les consommateurs d'API, et pour configurer différents niveaux d'accès à l'API pour différents clients. Les plans d'utilisation sont une fonctionnalité clé pour prendre en charge la monétisation des données.
  
  Les plans d'utilisation prennent en charge la monétisation des données en créant des plans d'utilisation hiérarchisés pour gérer les clients et les consommateurs d'API et suivre leur utilisation des données.
- Oracle Cloud Infrastructure Functions est une plate-forme FaaS (Fonctions en tant que service) entièrement gérée, colocative, hautement évolutive et à la demande. Il est optimisé par le moteur open source du projet Fn. OCI Functions vous permet de déployer votre code, l'appeler directement ou le déclencher en réponse à des événements. OCI Functions utilise des conteneurs Docker hébergés dans Oracle Cloud Infrastructure Registry.
- Oracle REST Data Services (ORDS) est une application Java qui permet à tout développeur ayant des compétences en SQL et en base de données de développer des API REST pour Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement de langage sans installer ni gérer les pilotes client de la même manière qu'il accède à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée.
  
  ORDS est déployé en tant que fonctionnalité entièrement gérée dans Oracle Autonomous AI Lakehouse et peut être utilisé pour exposer les informations des lakehouses à l'aide d'API aux consommateurs de données.
Ingestion en temps réel

Oracle Cloud Infrastructure GoldenGate est un service entièrement géré qui permet l'assimilation des données à partir de sources résidant sur site ou dans n'importe quel cloud. Il tire parti de la technologie GoldenGate CDC pour une capture et une livraison de données non intrusives et efficaces à Oracle Autonomous AI Lakehouse, Oracle Cloud Infrastructure Object Storage ou Oracle Cloud Infrastructure Streaming en temps réel et à grande échelle pour mettre les informations pertinentes à la disposition des consommateurs le plus rapidement possible.
Transfert en masse
Le transfert en masse vous permet de déplacer de grands volumes de données par lots à l'aide de différentes méthodes. Pour les lacs de données à grande échelle, nous recommandons les services Oracle Cloud Infrastructure FastConnect et Data Transfer.
- Oracle Cloud Infrastructure FastConnect crée une connexion privée dédiée entre votre centre de données et OCI. FastConnect offre davantage d'options de bande passante et d'expérience réseau plus fiable et homogènes par rapports aux connexions Internet.
- L'interface de ligne de commande Oracle Cloud Infrastructure (OCI) vous permet d'exécuter et d'automatiser le transfert de données d'un environnement on-premise vers OCI en tirant parti du circuit privé Oracle Cloud Infrastructure FastConnect. Les kits SDK OCI vous permettent d'écrire du code pour copier ou synchroniser des données et des fichiers à partir d'un environnement on-premise ou d'autres clouds dans Oracle Cloud Infrastructure Object Storage, en tirant parti de divers langages de programmation tels que Python, Java ou Go pour n'en nommer que quelques-uns. Les API REST vous permettent d'interagir avec les services OCI et de les contrôler, tels que le déplacement de données vers le stockage d'objets à l'aide de l'API Object Storage Service.
- Oracle Cloud Infrastructure Data Transfer est un service de migration de données hors ligne qui vous permet de déplacer en toute sécurité des ensembles de données de plusieurs pétaoctets de votre centre de données vers Oracle Cloud Infrastructure Object Storage ou Archive Storage. A cause du coût élevé du réseau, de la connectivité réseau peu fiable, des temps de transfert très longs et des questions de sécurité, utiliser l'Internet public pour transférer des données vers le cloud n'est pas toujours faisable. Le service Data Transfer résout ces problèmes et permet de réduire considérablement le délai nécessaire à la migration des données vers le cloud. Data Transfer est disponible via le disque ou l'appliance. Le choix de l'une sur l'autre dépend en grande partie de la quantité de données, Data Transfer Appliance prenant en charge des ensembles de données plus volumineux pour chaque appliance.
Ingestion de flux
L'ingestion de flux est prise en charge à l'aide de services natifs OCI qui permettent l'ingestion en temps réel d'ensembles de données à grande échelle provenant d'un large ensemble de producteurs de données. L'ingestion de flux persiste et synchronise les données dans le stockage d'objets, qui est au cœur du data lakehouse. La synchronisation des données vers le stockage d'objets vous permet de conserver des données historiques qui peuvent être organisées et transformées pour extraire des informations précieuses.
- Oracle Cloud Infrastructure Streaming offre une solution de stockage évolutive et durable entièrement gérée, adaptée à l'assimilation de flux de données importants transmis En continu, que vous pouvez utiliser et traiter en temps réel. Vous pouvez vous servir de Streaming pour l'échange des messages, les journaux d'application, la télémétrie opérationnelle, les informations de flux de clics sur Le Web ou d'autres cas d'emploi de modèle d'échange de messages de types publication/souscription dans lesquels des données sont produites et traitées de manière continue et séquentielle. Les données sont synchronisées avec Oracle Cloud Infrastructure Object Storage et peuvent être organisées et transformées en vue d'extraire des informations précieuses.
- Oracle Cloud Infrastructure Queue est un service sans serveur entièrement géré qui permet de séparer le système et d'effectuer des opérations asynchrones. Queue gère les données transactionnelles en grand nombre qui nécessitent des messages traités indépendamment sans perte ni duplication.
- Oracle Cloud Infrastructure Service Connector Hub est une plateforme cloud de bus de messages qui offre une interface unique pour la description, l'exécution et la surveillance des déplacements de données entre les services dans Oracle Cloud Infrastructure. Pour cette architecture de référence particulière, elle sera utilisée pour déplacer des données d'Oracle Cloud Infrastructure Streaming ou d'OCI Queue vers Oracle Cloud Infrastructure Object Storage afin de rendre persistantes les données brutes et préparées dans la couche de persistance du data lakehouse.
Traitement en continu

Le traitement de transmission en continu enrichit les données de transmission en continu, détecte les modèles d'événement et crée un autre ensemble de flux persistants dans le data lakehouse.
- Oracle Cloud Infrastructure GoldenGate Stream Analytics est un service évolutif entièrement géré qui traite et analyse des informations à grande échelle en temps réel à l'aide de modèles de corrélation sophistiqués, de l'enrichissement des données et du machine learning. Les utilisateurs peuvent explorer les données en temps réel à l'aide de graphiques, de cartes et de visualisations en direct. Les utilisateurs peuvent créer des pipelines de diffusion en continu sans aucun codage manuel à l'aide d'outils graphiques.
- Oracle Cloud Infrastructure Data Flow est un service Big Data entièrement géré qui vous permet d'exécuter des applications Apache Spark et Spark Streaming sans avoir à déployer ou à gérer l'infrastructure. Il vous permet de fournir plus rapidement des applications de Big Data et d'IA, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données se composent d'une application Spark, de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut.
Écosystème open source
Vous pouvez utiliser l'écosystème Open Source :
- Pour le traitement de lots et de flux à l'aide de plusieurs moteurs open source populaires tels que Hadoop, Spark, Flink ou Trino
- Avec Oracle Cloud Infrastructure Streaming à la fois en tant que producteur et consommateur
- Avec Oracle Cloud Infrastructure Object Storage, où il peut à la fois persister les données et les utiliser
Vous pouvez utiliser Oracle Cloud Infrastructure Object Storage en tant que lac de données pour rendre persistants les ensembles de données à partager entre les différents services Oracle Cloud Infrastructure à différents moments.
Big Data Service provisionne des clusters Hadoop, Spark ou Flink entièrement configurés, sécurisés, hautement disponibles et dédiés, entre autres technologies, à la demande. Adaptez le cluster à vos charges de travail analytiques et big data à l'aide de formes de calcul Oracle Cloud Infrastructure prenant en charge tout, des petits clusters d'analyse aux clusters de production volumineux. Adaptez-vous rapidement à la demande et optimisez les coûts en tirant parti des configurations de redimensionnement automatique, qu'elles soient basées sur des mesures ou selon les délais. Tirez parti des profils de cluster pour créer des clusters optimaux pour une charge de travail ou une technologie spécifique.
Traitement par lots
Le traitement par lots transforme les ensembles de données à grande échelle stockés sur le data lakehouse. Le traitement par lots s'appuie sur les services natifs Oracle Cloud Infrastructure qui s'intègrent de manière transparente à Oracle Cloud Infrastructure Object Storage et vous permet de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement des données, l'assimilation des entrepôts de données et l'utilisation à grande échelle des données de machine learning et d'IA.
- Oracle Cloud Infrastructure Data Integration, décrit ci-dessus, est un service cloud natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle les données de diverses sources de données en services Oracle Cloud Infrastructure cible, tels qu'Autonomous AI Lakehouse et Oracle Cloud Infrastructure Object Storage.
- Oracle Cloud Infrastructure Data Flow est un service Big Data entièrement géré qui vous permet d'exécuter des applications Apache Spark et Spark Streaming sans avoir à déployer ou à gérer l'infrastructure. Il vous permet de fournir plus rapidement des applications de Big Data et d'IA, car vous pouvez vous concentrer sur vos applications sans avoir à gérer les opérations. Les applications de flux de données se composent d'une application Spark, de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut.
- Oracle Data Transforms permet l'extraction-chargement-transformation (ELT) pour les technologies prises en charge sélectionnées, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux de données et des flux de travail de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré au sein d'Oracle Autonomous AI Lakehouse pour charger et transformer les données de plusieurs sources de données en une instance Oracle Autonomous AI Lakehouse.
  
  Selon le cas d'utilisation, ces composants peuvent être utilisés indépendamment ou ensemble pour obtenir un traitement de données hautement flexible et performant.
Portion
Oracle Autonomous AI Lakehouse est un service de base de données à pilotage automatique, à sécurité automatique et à réparation automatique optimisé pour les workloads d'entreposage de données. Vous n'avez pas besoin de configurer ni de gérer un matériel, ni d'installer un logiciel. OCI gère la création, la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

Une fois le provisionnement terminé, vous pouvez redimensionner à tout moment le nombre de coeurs de processeur ou la capacité de stockage de la base de données sans influer sur la disponibilité ou sur les performances.

Oracle Autonomous AI Lakehouse peut également virtualiser les données qui résident dans le stockage d'objets en tant que tables partitionnées externes et hybrides afin que vous puissiez joindre et utiliser des données dérivées d'autres sources avec les données de l'entrepôt. Vous pouvez également déplacer des données historiques de l'entrepôt vers le stockage d'objets, puis les utiliser en toute transparence à l'aide de tables partitionnées hybrides.

Oracle Autonomous AI Lakehouse peut utiliser les métadonnées précédemment collectées stockées dans Data Catalog pour créer des tables externes, et peut synchroniser automatiquement les mises à jour de métadonnées dans Data Catalog avec la définition des tables externes afin de maintenir la cohérence, de simplifier la gestion et de réduire les efforts.

Les vecteurs sont pris en charge dans Autonomous Database, car il s'agit d'une base de données multimodèle prenant en charge plusieurs types de données, à savoir relationnel, JSON, spatial et graphique. Le type de données Vecteurs permet de charger et de stocker des incorporations vectorielles, ainsi que de créer des index vectoriels qui peuvent ensuite être utilisés pour les applications de génération augmentée de récupération (RAG), le tout dans une seule instance cloud Autonomous AI Lakehouse. Cette fonctionnalité multimodèle permet d'effectuer des analyses à l'aide de tous les types de données qui peuvent être joints en une seule requête, ce qui réduit la complexité et le risque d'avoir des bases de données cloisonnées spécialisées par type de données, tout en garantissant une sécurité, une fiabilité, une évolutivité et une facilité d'analyse accrues de toutes les données.

Sélectionnez l'IA, une fonctionnalité de base de données d'IA autonome, qui permet d'interroger des données en langage naturel, en utilisant des LLM pour convertir le texte d'entrée de l'utilisateur en Oracle SQL. Select AI traite l'invite en langage naturel, la complète avec des métadonnées, puis génère et exécute une requête SQL.

Le partage de données, une fonctionnalité de base de données d'IA autonome, permet de fournir et d'utiliser en toute sécurité des données et des métadonnées, provenant d'autres parties qui utilisent la base de données d'IA autonome ou une technologie compatible avec Delta-Sharing. Le partage de données facilite l'utilisation transparente des données des fournisseurs de partage, en tant que vues qui abstraient les tables partagées sous-jacentes. En outre, les partages en direct, qui permettent aux destinataires d'utiliser des données vivantes et actualisées, peuvent être utilisés lorsque le fournisseur et le destinataire utilisent Autonomous AI Database.

Les vues analytiques, une fonctionnalité de base de données d'IA autonome, offrent un moyen rapide et efficace de créer des requêtes analytiques de données stockées dans des tables et des vues de base de données existantes. Les vues analytiques organisent les données à l'aide d'un modèle dimensionnel. Ils permettent d'ajouter facilement des agrégations et des calculs aux ensembles de données, et de présenter des données dans les vues qui peuvent faire l'objet d'une requête avec du code SQL relativement simple. Cette fonctionnalité vous permet de modéliser sémantiquement un schéma en étoile ou en flocons directement dans Oracle Autonomous AI Lakehouse, à l'aide de données stockées en interne et en externe, et permet d'utiliser le modèle à l'aide de SQL et de tout consommateur de données compatible SQL.

En outre, Autonomous Data Lake Accelerator, un composant d'Autonomous AI Database, peut utiliser les données de stockage d'objets de manière transparente, adapter le traitement pour fournir des requêtes rapides, redimensionner automatiquement l'instance de calcul de base de données si nécessaire et réduire l'impact sur la charge globale de base de données en isolant les requêtes de stockage d'objets de l'instance de calcul de base de données.
Stockage cloud
Oracle Cloud Infrastructure Object Storage est une plateforme de stockage hautes performances, à l'échelle d'Internet, qui offre la durabilité fiable et rentable en matière d'accès aux données. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris de données analytiques. Vous pouvez stocker ou extraire des données directement depuis Internet ou à partir de la plate-forme cloud de manière sûre et sécurisée. Les interfaces de gestion multiples vous permettent de démarrer facilement à petite échelle et de vous adapter en toute transparence, sans subir de dégradation des performances ni de la fiabilité du service.

Oracle Cloud Infrastructure Object Storage peut également être utilisé comme couche de stockage à froid pour l'entrepôt de données en stockant les données rarement utilisées, puis en les joignant de manière transparente aux données les plus récentes à l'aide de tables hybrides dans Oracle Autonomous AI Lakehouse.

Le contrôle d'accès granulaire au niveau de l'objet peut être appliqué à l'aide de stratégies IAM pour les objets, ce qui augmente la sécurité des données pour les accès directs au lac de données.
Visualiser et apprendre
Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre des fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe d'entreprise et votre entreprise. Il prend en charge les data scientists citoyens, la formation avancée des business analysts et l'exécution de modèles de machine learning (ML). Les modèles de machine learning peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous AI Lakehouse en tant que modèles intégrés à OML pour les prévisions de batch à grande échelle qui tirent parti de la puissance de traitement, de l'évolutivité et de l'élasticité de l'entrepôt et des services d'IA OCI, tels qu'Oracle Cloud Infrastructure Vision.

Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion des services flexibles, notamment une configuration rapide, une mise à l'échelle et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.
Apprendre et prévoir
- Data Science fournit une infrastructure, des technologies open source, des bibliothèques, des packages et des outils de science des données pour que les équipes de data science puissent créer, entraîner et gérer des modèles de machine learning dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et orienté projet inclut une expérience utilisateur cohérente de bout en fin et prend en charge le cycle de vie des modèles prédictifs.
  
  La fonctionnalité de travaux Data Science permet aux analystes de données de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.
  
  La fonctionnalité de déploiement de modèle Data Science permet aux analystes de données de déployer des modèles entraînés en tant qu'adresses HTTP entièrement gérées, capables de fournir des prédictions en temps réel, d'intégrer des informations dans les processus et les applications et de permettre à l'entreprise de réagir aux événements pertinents lorsqu'ils se produisent.
- Oracle Machine Learning fournit de puissantes fonctionnalités de machine learning étroitement intégrées dans Autonomous AI Database, avec la prise en charge de Python et d'AutoML. Il prend en charge les modèles utilisant des algorithmes open source et évolutifs dans la base de données qui réduisent la préparation et le mouvement des données. AutoML aide les data scientists à accélérer la valorisation des initiatives de machine learning de l'entreprise en utilisant la sélection automatique d'algorithmes, l'échantillonnage adaptatif des données, la sélection automatique des fonctionnalités et le réglage automatique des modèles. Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous AI Lakehouse, vous pouvez non seulement gérer les modèles, mais vous pouvez également déployer ces modèles en tant qu'adresses REST afin de démocratiser les prédictions en temps réel au sein de l'entreprise, ce qui permet aux entreprises de réagir aux événements pertinents au fur et à mesure qu'ils se produisent, plutôt qu'après coup.
Services d'IA et d'IA générative
Les services d'IA Oracle Cloud Infrastructure fournissent un ensemble de services d'IA prêts à l'emploi qui peuvent être utilisés pour prendre en charge un large éventail de cas d'utilisation, de l'analyse de texte à la maintenance prédictive. Ces services disposent de modèles prédéfinis et finement ajustés que vous pouvez intégrer dans les pipelines de données, les analyses et les applications à l'aide d'API.
- Oracle Cloud Infrastructure Language effectue des analyses de texte et des traductions sophistiquées à grande échelle. Avec des modèles préentraînés et personnalisés, les développeurs peuvent traiter du texte non structuré et extraire des informations sans expertise en data science. Effectuez l'analyse des sentiments, l'extraction des expressions clés, la classification du texte, la reconnaissance des entités nommées et détectez les données d'informations d'identification personnelle dans le texte. Personnalisez les modèles pour les tâches spécifiques au domaine et traduisez facilement du texte dans différentes langues. Oracle Cloud Infrastructure Language prend également en charge la traduction de documents et les travaux asynchrones pour traiter efficacement les charges globales volumineuses.
- Oracle Cloud Infrastructure Speech exploite la puissance de la langue parlée en vous permettant de convertir facilement des fichiers multimédias contenant de la parole humaine en transcriptions texte extrêmement précises. OCI Speech peut être utilisé pour transcrire des appels au service client, automatiser le sous-titrage et générer des métadonnées pour la création d'une archive pouvant faire l'objet d'un appel. OCI Speech prend en charge les travaux de transcription par lots et en direct.
- Oracle Cloud Infrastructure Vision est un service d'IA permettant d'effectuer des analyses d'images à grande échelle en fonction du deep learning. OCI Vision effectue des tâches de reconnaissance d'images et d'analyse vidéo telles que la classification d'images, la détection d'objets et de visages et l'extraction de texte. Vous pouvez soit tirer parti de modèles préentraînés, soit créer facilement des modèles de vision personnalisés pour des scénarios spécifiques au secteur et au client. OCI Vision est un service cloud natif colocatif entièrement géré qui facilite toutes les tâches courantes de vision par ordinateur. Grâce aux modèles prédéfinis prêts à l'emploi, les développeurs peuvent facilement intégrer la reconnaissance d'images et la reconnaissance de texte dans leurs applications sans expertise en machine learning (ML).
- Oracle Cloud Infrastructure Document Understanding effectue des tâches de classification et d'analyse de documents telles que l'extraction de texte, de valeurs clés et de tables. OCI Document Understanding est un service cloud natif, colocatif et entièrement géré qui facilite toutes les tâches courantes d'analyse de documents.
- Oracle Cloud Infrastructure Generative AI (bêta) est un ensemble de grands modèles du langage de pointe et personnalisables couvrant un large éventail de cas d'emploi, notamment la discussion, la génération de texte, la synthèse et la création d'intégrations de texte. Utilisez le playground de test pour essayer les modèles préentraînés prêts à l'emploi, ou créez et hébergez vos propres modèles personnalisés affinés selon vos propres données sur des clusters d'AI dédiés.
Enrichissement de données
L'enrichissement des données peut améliorer les données utilisées pour entraîner des modèles de machine learning afin d'obtenir des résultats de prédiction meilleurs et plus précis.
Oracle Cloud Infrastructure Data Labeling vous permet de créer et de parcourir des ensembles de données, de visualiser des enregistrements de données (texte ou images) et d'appliquer des libellés à des fins de création de modèles d'IA/ML. Le service fournit également des interfaces utilisateur interactives conçues pour faciliter le processus d'étiquetage. Une fois les enregistrements étiquetés, l'ensemble de données peut être exporté en tant que JSON délimité par des lignes pour être utilisé dans le développement de modèles AI/ML.
Recherche
Les fonctionnalités de recherche peuvent être utilisées comme une fonction complémentaire pour exposer les données aux utilisateurs finaux qui nécessitent des données d'analyse opérationnelle préindexées et qui sont donc servies avec une faible latence.
Oracle Cloud Infrastructure Search with OpenSearch est un moteur de recherche en texte intégral distribué, entièrement géré et sans maintenance. OpenSearch vous permet de stocker, de rechercher et d'analyser rapidement de grands volumes de données avec des temps de réponse rapides. Le service prend en charge la visualisation des données des API OpenSearch et des tableaux de bord OpenSearch open source.
Analyses de transmission en continu
L'analyse en continu fournit des tableaux de bord qui fournissent une analyse en temps réel des données en flux contextualisées avec des données organisées et maître stockées dans le data lakehouse pour détecter les modèles d'intérêt qu'il peut ensuite servir aux utilisateurs, aux applications et aux objets.

Oracle Cloud Infrastructure GoldenGate Stream Analytics traite et analyse des informations à grande échelle en temps réel à l'aide de modèles de corrélation sophistiqués, de l'enrichissement des données et du machine learning. Les utilisateurs peuvent explorer les données en temps réel via des graphiques, des cartes, des visualisations en direct et créer graphiquement des pipelines de diffusion en continu sans aucun codage manuel. Ces pipelines s'exécutent dans un service entièrement géré et évolutif afin de répondre aux cas d'utilisation critiques en temps réel des entreprises d'aujourd'hui.
Annuler le processus ETL/écriture
L'ETL inverse, parfois appelé réécriture, permet l'activation des données dans les systèmes et les périphériques opérationnels, ce qui permet d'infuser des informations dérivées des données, directement dans les applications et les périphériques utilisés pour prendre en charge les processus métier.

Les données sont servies aux consommateurs à l'aide de plusieurs mécanismes, notamment en utilisant des flux et des files d'attente qui prennent en charge un grand nombre de consommateurs qui extraient simultanément des informations en temps quasi réel et qui sont découplées de système d'analyse de diffusion en continu afin d'augmenter la résilience et l'évolutivité, en utilisant l'intégration d'applications ou de données pour transmettre des données à l'aide d'adaptateurs prédéfinis, ou en utilisant des fonctions sans serveur pour appeler pratiquement n'importe quelle application ou adresse d'appareil.
- Le service Oracle Cloud Infrastructure Streaming offre une solution de stockage évolutive et durable entièrement gérée destinée à l'inclusion de flux de données importants transmis dans le continu, que vous pouvez utiliser et traiter en temps réel. Vous pouvez vous servir de Streaming pour l'échange des messages, les journaux d'application, la télémétrie opérationnelle, les informations de flux de clics sur Le Web ou d'autres cas d'emploi de modèle d'échange de messages de Type publication/souscription.
- Oracle Cloud Infrastructure Queue est un service sans serveur entièrement géré qui permet de séparer le système et d'effectuer des opérations asynchrones. Queue gère les données transactionnelles en grand nombre qui nécessitent des messages traités indépendamment sans perte ni duplication.
- Oracle Integration est un environnement entièrement géré et préconfiguré qui permet d'intégrer des applications cloud et sur site, d'automatiser les processus métier, de développer des applications visuelles, d'utiliser un serveur de fichiers compatible SFTP pour stocker et extraire des fichiers, et d'échanger des documents commerciaux avec un partenaire commercial B2B à l'aide d'un portefeuille de centaines d'adaptateurs et de recettes pour se connecter à des applications Oracle et tierces.
- Oracle Data Transforms permet d'activer ELT pour certaines technologies prises en charge, ce qui simplifie la configuration et l'exécution des pipelines de données à l'aide d'une interface utilisateur Web qui permet aux utilisateurs de créer et de programmer des flux et des workflows de données de manière déclarative. Oracle Data Transforms est disponible en tant qu'environnement entièrement géré dans Oracle Autonomous AI Lakehouse pour charger et transformer des données provenant de plusieurs sources de données en une instance Oracle Autonomous AI Lakehouse.
- Oracle Cloud Infrastructure Functions est une plate-forme de fonctions en tant que service entièrement gérée, colocative, hautement évolutive et à la demande. Elle repose sur la solution de niveau entreprise Oracle Cloud Infrastructure, sur le moteur open source du projet Fn.
API
La couche API vous permet d'intégrer l'intelligence dérivée de Data Science et d'Oracle Machine Learning dans les applications, les processus métier et les éléments pour influencer et améliorer leur fonctionnement et leur fonction. La couche d'API fournit une utilisation sécurisée des modèles déployés par Data Science vers les adresses REST Oracle Machine Learning et permet de régir le système afin de garantir la disponibilité des environnements d'exécution. Vous pouvez également utiliser les fonctions pour exécuter une logique supplémentaire selon vos besoins.
- La passerelle d'API Oracle Cloud Infrastructure vous permet de publier des API avec les adresses privées accessibles à partir de votre réseau. Vous pouvez les rendre visibles avec les adresses IP publiques si vous voulez qu'elles acceptent le trafic Internet. Les adresses prennent en charge la validation d'API, la transformation des demandes et des réponses, la spécification CORS, l'authentification et l'autorisation, ainsi que l'autorisation des demandes. Elle permet à l'observabilité des API de surveiller l'utilisation et de garantir les contrats de niveau de service. Les plans d'utilisation peuvent également être utilisés pour surveiller et gérer les consommateurs d'API et les clients d'API qui accèdent aux API, et pour configurer différents niveaux d'accès pour les différents clients afin de suivre l'utilisation des données consommées à l'aide des API. Les plans d'utilisation sont une fonctionnalité clé pour prendre en charge la monétisation des données.
- Oracle Cloud Infrastructure Functions est une plate-forme de fonctions en tant que service entièrement gérée, colocative, hautement évolutive et à la demande. Elle repose sur la solution de niveau entreprise Oracle Cloud Infrastructure, sur le moteur open source du projet Fn.
- Oracle REST Data Services (ORDS) est une application Java qui permet aux développeurs dotés de compétences dans les domaines du langage SQL et des bases de données de développer des API REST pour l'Oracle Database. Tout développeur d'applications peut utiliser ces API à partir de n'importe quel environnement de langage, sans installer ni gérer de pilotes client, de la même manière qu'il accède à d'autres services externes à l'aide de REST, la technologie d'API la plus utilisée. ORDS est déployé en tant que fonctionnalité entièrement gérée dans Oracle Autonomous AI Lakehouse et peut être utilisé pour exposer les informations des lakehouses à l'aide d'API aux consommateurs de données.
Gouvernance des données
Oracle Cloud Infrastructure Data Catalog offre une visibilité sur l'emplacement des ressources techniques telles que les métadonnées et les attributs respectifs, et offre la possibilité de tenir à jour un glossaire métier mis en correspondance avec ces métadonnées techniques. Data Catalog peut également servir les métadonnées à Oracle Autonomous AI Lakehouse pour faciliter la création de tables externes dans l'entrepôt de données.
Sécurité des données

La sécurité des données est cruciale pour explorer et utiliser pleinement les données des lakehouses. Tirant parti d'un modèle de sécurité à confiance zéro avec des capacités de défense en profondeur et RBAC, et assurant la conformité avec la réglementation la plus stricte, la sécurité des données fournit des contrôles de sécurité préventifs, détectifs et correctifs pour s'assurer que l'exfiltration et les violations de données sont évitées.
- Oracle Data Safe est un service Oracle Cloud entièrement intégré axé sur la sécurité des données. Il fournit un ensemble complet et intégré de fonctionnalités qui protègent les valeurs confidentielles et réglementées des bases de donnéesOracle Cloud, telles qu'Oracle Autonomous AI Lakehouse. Ces fonctionnalités comprennent l'évaluation de la sécurité, l'évaluation des utilisateurs, le repérage des données, le masquage des données et l'audit d'activité.
- Oracle Cloud Infrastructure Audit offre une visibilité sur les activités liées aux ressources et locations Oracle Cloud Infrastructure (OCI). Les événements du journal d'audit peuvent être utilisés dans le cadre d'audits de sécurité pour suivre l'utilisation des ressources OCI et les modifications apportées, et pour garantir la conformité aux normes et réglementations.
- Oracle Cloud Infrastructure Logging fournit une interface unique hautement évolutive et entièrement gérée pour tous les journaux de la location, y compris les journaux d'audit. Utilisez OCI Logging pour accéder aux journaux à partir de toutes les ressources OCI afin de pouvoir les activer, les gérer et les rechercher.
- Oracle Cloud Infrastructure Vault est un service de gestion du cryptage qui stocke et gère les clés et clés secousses de cryptage afin d'accéder aux ressources de manière sécurisée. Permet d'utiliser des clés gérées par le client pour le cryptage d'Oracle Autonomous AI Lakehouse et de lac de données afin d'améliorer la protection des données au repos. Permet aux secrets de stocker en toute sécurité les services et les informations d'identification utilisateur afin d'améliorer votre posture de sécurité et de vous assurer que les informations d'identification ne sont pas compromises et utilisées de manière inappropriée.

Architecture physique

L'architecture physique de ce data lakehouse prend en charge les éléments suivants :

Les données sont ingérées en toute sécurité à l'aide de micro-lots, de streaming, d'API et de fichiers provenant de sources de données relationnelles et non relationnelles
Les données sont traitées à l'aide de la combinaison d'Oracle Cloud Infrastructure Data Integration et d'Oracle Cloud Infrastructure Data Flow
Les données sont stockées dans Oracle Autonomous AI Lakehouse et Oracle Cloud Infrastructure Object Storage et sont organisées en fonction de leur qualité et de leur valeur
Oracle Autonomous AI Lakehouse fournit des services de données d'entrepôt et de lac en toute sécurité aux consommateurs
Oracle Analytics Cloud fournit des données aux utilisateurs professionnels à l'aide de visualisations
Oracle Analytics Cloud est présenté à l'aide d'Oracle Cloud Infrastructure Load Balancer, sécurisé par Oracle Cloud Infrastructure Web Application Firewall (WAF) pour fournir l'accès à l'aide d'Internet.
Oracle Cloud Infrastructure Data Science est utilisé pour créer, entraîner et déployer des modèles de machine learning (ML)
Oracle Cloud Infrastructure API Gateway est utilisé pour régir les déploiements de modèle d'apprentissage automatique Data Science
Oracle Cloud Infrastructure Data Catalog collecte les métadonnées à partir d'Oracle Autonomous AI Lakehouse et du stockage d'objets
Oracle Data Safe évalue les risques pour les données, implémente et surveille les contrôles de sécurité, évalue la sécurité des utilisateurs, surveille l'activité des utilisateurs et répond aux exigences de conformité en matière de sécurité des données
Oracle Cloud Infrastructure Bastion est utilisé par les administrateurs pour gérer les ressources de cloud privé

Le schéma suivant illustre cette architecture de référence.

Description de l'image lakehouse-architecture.png

plan du lac-architecture-oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

Conception de l'architecture physique :

Tire parti de 2 réseaux cloud virtuels, l'un pour le hub et l'autre pour la charge globale elle-même
La connectivité sur site utilise à la fois Oracle Cloud Infrastructure FastConnect et le VPN site à site pour la redondance.
Tout le trafic entrant provenant d'Internet et sur site est d'abord acheminé vers le VCN hub, puis vers le VCN de charge de travail
Toutes les données sont sécurisées en transit et au repos
Les services sont déployés avec des adresses privées pour améliorer l'état de sécurité
Le VCN est divisé en plusieurs sous-réseaux privés pour améliorer l'état de sécurité
Les données de lac sont divisées en plusieurs buckets dans le stockage d'objets en tirant parti d'une architecture de médaillon

Les améliorations de conception potentielles non décrites dans ce déploiement pour simplifier comprennent :

Exploitation d'une zone de renvoi complète conforme au CIS
Exploiter un pare-feu réseau pour améliorer l'état général de sécurité en inspectant tout le trafic et en appliquant des stratégies

Recommandations

Utilisez les recommandations suivantes comme point de départ pour traiter les données de transmission en continu et un large éventail de ressources de données d'entreprise pour l'analyse métier et le machine learning.

Vos exigences peuvent différer de l'architecture décrite ici.

Oracle Autonomous AI Lakehouse
Cette architecture utilise Oracle Autonomous AI Lakehouse sur une infrastructure partagée.
- Activez le redimensionnement automatique pour donner aux charges globales de base de données jusqu'à trois fois la puissance de traitement.
- Envisagez d'utiliser Oracle Autonomous AI Lakehouse sur une infrastructure dédiée si vous souhaitez la fonctionnalité de base de données en libre-service dans un environnement cloud de base de données privé exécuté sur le cloud public.
- Envisagez d'utiliser la fonctionnalité de tables partitionnées hybrides d'Autonomous AI Lakehouse pour déplacer des partitions de données vers Oracle Cloud Infrastructure Object Storage et les servir aux utilisateurs et aux applications de manière transparente. Nous vous recommandons d'utiliser cette fonctionnalité pour les données qui ne sont pas souvent consommées et pour lesquelles vous n'avez pas besoin des mêmes performances que pour les données stockées dans Autonomous AI Lakehouse.
- Envisagez d'utiliser la fonctionnalité de tables externes pour utiliser les données stockées dans Oracle Cloud Infrastructure Object Storage en temps réel sans avoir à les répliquer vers Autonomous AI Lakehouse. Cette fonctionnalité joint de manière transparente et transparente des ensembles de données organisés en dehors d'Autonomous AI Lakehouse, quel que soit le format (parquet, avro, orc, json, csv, etc.), avec des données résidant dans Autonomous AI Lakehouse.
- Envisagez d'utiliser la fonctionnalité de base de données en mémoire pour améliorer considérablement les performances des analyses en temps réel et des charges de travail mixtes. Chargez les données de lakehouse dans la mémoire qui doit être servie avec une faible latence et qui réside dans les tables internes, hybrides ou externes d'Autonomous AI Lakehouse.
- Envisagez d'utiliser l'accélérateur Autonomous AI Lakehouse lors de l'utilisation des données de stockage d'objets pour offrir une expérience améliorée et plus rapide aux utilisateurs qui utilisent et joignent des données entre l'entrepôt de données et le lac de données.
- Envisagez de stocker des incorporations vectorielles dans Autonomous AI Lakehouse avec d'autres types de données tels que les données relationnelles ou les données JSON afin de simplifier l'ingénierie et les analyses des données sur toutes les données, et d'utiliser efficacement les agents RAG au sol en utilisant toutes les données.
- Envisagez d'utiliser Select AI comme accélérateur pour créer des instructions SQL simples et complexes qui peuvent être utilisées dans l'ingénierie des données, la business intelligence, le développement d'applications ou toute tâche nécessitant la création d'instructions SQL.
- Envisagez d'utiliser Select AI avec des applications low code pour simplifier davantage la couche d'application.
- Envisagez d'utiliser des vues analytiques pour modéliser sémantiquement le schéma sous-jacent de l'étoile DW ou du flocon de neige directement dans Autonomous AI Lakehouse afin que les données granulaires soient automatiquement agrégées sans qu'il soit nécessaire de les préagréger. Le modèle sémantique est utilisé en utilisant le langage SQL de manière cohérente avec n'importe quel client conforme au langage SQL, y compris Oracle Analytics Cloud, ce qui garantit que les faits et les KPI sont servi de manière cohérente quel que soit le client, et toutes les données peuvent être utilisées sur le modèle sémantique, qu'elles soient stockées dans Autonomous AI Lakehouse ou dans OCI Object Storage, ce qui en fait une couche de modélisation sémantique parfaite pour une architecture de lakehouse où les faits et les dimensions peuvent traverser à la fois le DW et le lac.
- Envisagez d'utiliser des clés gérées par le client en tirant parti d'OCI Vault si un contrôle total des clés de cryptage Autonomous AI Lakehouse est nécessaire en raison des stratégies de l'entreprise ou de la réglementation.
- Envisagez d'utiliser Database Vault dans Autonomous AI Lakehouse pour empêcher les utilisateurs privilégiés non autorisés d'accéder aux données sensibles et ainsi empêcher l'exfiltration et les violations de données.
- Envisagez d'utiliser Oracle Autonomous Data Guard pour prendre en charge un plan de continuité des activités en configurant et en conservant les données répliquées sur une instance de secours sur la même région ou sur une autre région.
- Envisagez d'utiliser le masquage dynamique des données avec la protection par occultation pour fournir des données masquées aux utilisateurs en fonction de leur rôle, et ainsi garantir un accès approprié aux données sans duplication ni masquage statique des données.
- Envisagez d'utiliser des clones Autonomous AI Lakehouse pour créer rapidement d'autres environnements transitoires ou non transitoires. Utilisez des clones actualisables si l'environnement cible doit disposer de données à jour. Utilisez Oracle Data Safe pour masquer statiquement les données confidentielles dans les clones afin d'améliorer la sécurité.
- Envisagez d'utiliser le partage de données comme moyen simple et sécurisé d'utiliser et de fournir des données, soit avec d'autres instances de Autonomous AI Database, soit avec toute technologie compatible avec Delta Sharing.
- Envisagez d'utiliser le partage de données en direct entre les instances de Autonomous AI Database pour utiliser et fournir des données en temps réel.
- Envisagez d'utiliser le partage de données avec versions pour partager des données avec les consommateurs. Cela évite le coût de l'interrogation des données, car les données sont traitées par les consommateurs et non par le fournisseur.
- Envisagez d'utiliser des URL de demande pré-authentifiées pour l'accès aux données en lecture seule et limité dans le temps sur Autonomous AI Lakehouse afin de permettre le partage de données non sensibles dans les cas d'utilisation où le consommateur ne prend pas en charge le partage delta.
Object Storage/Data Lake
Cette architecture utilise Oracle Cloud Infrastructure Object Storage, un stockage cloud hautement évolutif et durable, en tant que stockage sur lac.
- Envisagez d'organiser votre lac à travers différents ensembles de compartiments en tirant parti d'une architecture de médaillon (bronze, argent, or) ou d'une autre logique de partitionnement pour séparer les données en fonction de leur qualité et de leur enrichissement, appliquer une sécurité affinée aux consommateurs qui lisent les données et appliquer différentes stratégies de gestion du cycle de vie aux différents niveaux.
- Envisagez d'utiliser différents niveaux de stockage d'objets et différentes stratégies de cycle de vie pour optimiser les coûts de stockage des données de lac à grande échelle.
- Envisagez d'utiliser des clés gérées par le client en tirant parti du service Vault si un contrôle complet des clés de cryptage OCI Object Storage est nécessaire en raison de stratégies d'entreprise ou de réglementation.
- Envisagez d'utiliser la réplication OCI Object Storage pour prendre en charge un plan de continuité des activités en configurant une réplication de bucket vers une autre région. OCI Object Storage étant hautement durable, il n'est pas nécessaire de conserver plusieurs copies du même objet dans une seule région pour la récupération sur la même réplication de bucket de région.
- Envisagez d'utiliser des stratégies Oracle Cloud Infrastructure Identity and Access Management (IAM) pour les objets, en utilisant des noms ou des modèles d'objet, afin d'augmenter la sécurité des données pour les accès directs aux lacs de données.
- Envisagez d'utiliser des adresses privées dans OCI Object Storage pour garantir un accès sécurisé et privé au lac de données à partir de la plate-forme de données VCN.
- Envisagez d'utiliser des sources réseau et des stratégies IAM pour y faire référence afin de gérer les adresses IP autorisées à accéder aux buckets et aux objets de lac de données.
- Envisagez d'utiliser OCIFS, un utilitaire basé sur python, pour monter des buckets OCI Object Storage en tant que systèmes de fichiers, ce qui permet de prendre en charge les applications qui ne fonctionnent qu'avec NFS et qui doivent télécharger des fichiers vers Object Storage.
Oracle Machine Learning et Oracle Cloud Infrastructure Data Science
Cette architecture s'appuie sur Oracle Machine Learning et Oracle Cloud Infrastructure Data Science pour exécuter et fournir des prévisions en temps réel aux personnes et aux applications.
- Envisagez d'utiliser AutoML dans Oracle Cloud Infrastructure Data Science ou Oracle Machine Learning pour accélérer le développement de modèles de machine learning.
- Envisagez d'utiliser Open Neural Networks Exchange (ONNX) pour l'interopérabilité. Les modèles de 3e partie ONNX peuvent être déployés dans OML et exposés en tant qu'adresse REST ou dans Data Science et exposés en tant qu'adresse HTTP.
- Envisagez d'enregistrer le modèle dans Data Science en tant qu'ONNX et importez-le dans OCI GoldenGate Stream Analytics s'il est nécessaire d'exécuter la notation et la prédiction dans un pipeline de données en temps réel pour disposer de prévisions plus opportunes qui peuvent générer des résultats commerciaux en temps réel.
- Envisagez d'utiliser des environnements conda Data Science pour une meilleure gestion et un meilleur packaging des dépendances Python dans les sessions de bloc-notes Jupyter.
- Envisagez d'utiliser les actions rapides d'IA d'Oracle Cloud Infrastructure Data Science pour déployer, évaluer et affiner les modèles de base dans Data Science. Travaillez avec des LLM open source sélectionnés disponibles dans l'explorateur de modèles ou pour utiliser votre propre modèle.
- Envisagez d'utiliser des opérateurs d'IA low code Data Science, disponibles dans le package Accelerated Data Science Python, pour effectuer rapidement et efficacement des prévisions, détecter des anomalies ou créer des fonctionnalités de recommandation.
- Envisagez d'utiliser Oracle Cloud Infrastructure Data Flow dans l'environnement Jupyter Data Science pour effectuer des analyses de données exploratoires, le profilage de données et la préparation de données à grande échelle en tirant parti du traitement d'augmentation Spark.
- Envisagez d'utiliser Oracle Cloud Infrastructure Data Labeling pour étiqueter des données telles que des images, du texte ou des documents, et utilisez-les pour entraîner des modèles de machine learning basés sur Data Science ou Oracle Cloud Infrastructure AI Services, et ainsi améliorer la précision des prévisions.
- Envisagez de déployer une passerelle d'API OCI pour sécuriser et régir l'utilisation du modèle déployé si les prévisions en temps réel sont utilisées par les partenaires et les entités externes.
Oracle Cloud Infrastructure Data Integration
Cette architecture utilise Oracle Cloud Infrastructure Data Integration pour prendre en charge le développement de processus ETL et de pipeline de données déclaratifs, sans code ou low-code.
- Tirez parti d'Oracle Cloud Infrastructure Data Integration pour coordonner et programmer les exécutions d'application Oracle Cloud Infrastructure Data Flow, et pouvez combiner le processus ETL déclaratif et la logique de code Spark personnalisée. Utilisez les fonctions d'Oracle Cloud Infrastructure Data Integration pour étendre davantage les fonctionnalités des pipelines de données.
- Envisagez d'utiliser la propagation SQL pour les transformations dont la cible est Autonomous AI Lakehouse afin d'utiliser une approche ELT plus efficace, performante et sécurisée par rapport à ETL.
- Envisagez d'autoriser OCI Data Integration à gérer la dérive de schéma des sources de données afin d'avoir des pipelines de données plus résilients et plus pérennes qui maintiendront les modifications de schéma des sources de données.
Oracle Cloud Infrastructure Data Flow
Cette architecture utilise Oracle Cloud Infrastructure Data Flow pour prendre en charge le traitement de transmission en continu Spark et Spark à grande échelle sans avoir besoin de disposer de clusters permanents et de les gérer.
- Envisagez d'utiliser Oracle Cloud Infrastructure Data Catalog en tant que metastore Hive pour Oracle Cloud Infrastructure Data Flow afin de stocker et d'extraire en toute sécurité les définitions de schéma pour les objets dans des ressources de données non structurées et semi-structurées telles qu'Oracle Cloud Infrastructure Object Storage.
- Envisagez d'utiliser Delta Lake sur Data Flow si les transactions ACID et l'unification de la transmission en continu et du traitement par lots sont nécessaires pour les données de lac.
Big Data Service
Cette architecture s'appuie sur Oracle Cloud Infrastructure Big Data Service pour déployer des clusters hautement disponibles et évolutifs de diverses technologies open source telles que Spark, Hadoop, Trino ou Flink qui peuvent traiter les données en batch et en continu. Big Data Service conserve les données dans HDFS, conserve et lit les données à partir d'OCI Object Storage et peut échanger des ensembles de données avec d'autres services Oracle Cloud Infrastructure tels que Data Flow et Oracle Autonomous AI Lakehouse.
- Envisagez d'utiliser le redimensionnement automatique pour redimensionner automatiquement horizontalement ou verticalement les noeuds de processus actif en fonction des mesures ou de la planification afin d'optimiser en permanence les coûts en fonction de la demande de ressources.
- Envisagez d'utiliser le connecteur OCI HDFS pour OCI Object Storage afin de lire et d'écrire des données vers et depuis OCI Object Storage, ce qui fournit un mécanisme permettant de produire/consommer des données partagées avec d'autres services OCI sans avoir à les répliquer ou les dupliquer.
- Envisagez d'utiliser Delta Lake sur OCI BDS si les transactions ACID et l'unification de la transmission en continu et du traitement par lots sont nécessaires pour les données de lac.
- Si vous avez besoin d'utiliser un autre logiciel open source, envisagez d'utiliser Oracle Cloud Infrastructure Registry, des instances de conteneur ou Oracle Cloud Infrastructure Kubernetes Engine pour déployer tout logiciel open source pouvant être mis en conteneur.
Diffusion en continu d'Oracle Cloud Infrastructure
Cette architecture s'appuie sur Oracle Cloud Infrastructure Streaming pour utiliser les données de transmission en continu provenant de sources et pour fournir des données de transmission en continu aux consommateurs.

Envisagez d'utiliser Oracle Cloud Infrastructure Service Connector Hub pour déplacer des données à partir d'OCI Streaming et pour les rendre persistantes sur OCI Object Storage afin de prendre en charge une analyse plus approfondie des données historiques.
Oracle Analytics Cloud
Cette architecture s'appuie sur Oracle Analytics Cloud (OAC) pour fournir des analyses augmentées aux utilisateurs finaux.

Envisagez de tirer parti de l'intégration prédéfinie dont dispose OAC avec Oracle Cloud Infrastructure AI Services (modèles Language and Vision) et OML (n'importe quel modèle) pour intégrer l'intelligence dans les flux de données et les visualisations que les utilisateurs finaux utilisent et démocratiser ainsi la consommation d'IA et d'apprentissage automatique.
Oracle Cloud Infrastructure AI Services
Cette architecture peut tirer parti d'Oracle Cloud Infrastructure AI Services, en fonction des cas d'utilisation déployés.

Envisagez d'utiliser OCI Data Labeling pour étiqueter les données d'entraînement qui seront utilisées pour régler et obtenir des prévisions plus précises pour Oracle Cloud Infrastructure AI Services telles qu'OCI Vision, OCI Document Understanding et .
Services Oracle Cloud Infrastructure Generative AI
Cette architecture peut tirer parti des services Oracle Cloud Infrastructure Generative AI, en fonction des cas d'utilisation déployés.
- Envisagez d'utiliser le terrain de jeu à la demande et les API qui utilisent des LLM préentraînés pour gérer la génération de texte, la conversation, l'extraction de données, la synthèse, la classification, le transfert de style ou la similarité sémantique, et d'intégrer rapidement l'IA générative dans vos pipelines et processus.
- Envisagez d'utiliser des clusters d'IA dédiés pour adapter et affiner efficacement les LLM de base à vos données, garantissant ainsi une isolation complète et une sécurité des données.
- Envisagez de partager l'hébergement de clusters d'IA dédiés au sein de différentes équipes de l'entreprise pour des raisons de rentabilité. Un seul cluster peut être utilisé pour héberger plusieurs modèles personnalisés, qui peuvent tous être pris en charge avec des adresses indépendantes et peuvent être sécurisés avec des stratégies IAM dédiées.
Passerelle d'API OCI
Cette architecture tire parti d'OCI API Gateway pour exposer en toute sécurité les services de données et l'inférence en temps réel aux consommateurs de données.
- Envisagez d'utiliser Oracle Cloud Infrastructure Functions pour ajouter la logique d'exécution éventuellement nécessaire pour prendre en charge un traitement d'API spécifique hors de portée des couches de traitement des données, d'accès et d'interprétation.
- Envisagez d'utiliser des plans d'utilisation pour gérer l'accès des abonnés aux API, surveiller et gérer l'utilisation des API, configurer différents niveaux d'accès pour différents consommateurs et prendre en charge la monétisation des données en suivant les mesures d'utilisation qui peuvent être fournies à un système de facturation externe.
Oracle Cloud Infrastructure Data Catalog
Pour avoir une vue complète et holistique de bout en bout des données stockées et en flux sur la plate-forme, envisagez de collecter non seulement les banques de données prenant en charge la couche de persistance des données, mais également les banques de données source. La mise en correspondance de ces métadonnées techniques collectées avec le glossaire métier et leur enrichissement avec des propriétés personnalisées vous permettent de mettre en correspondance des concepts métier et de documenter et de régir les définitions de sécurité et d'accès.
- Pour faciliter la création de tables externes Oracle Autonomous AI Lakehouse qui virtualisent les données stockées sur OCI Object Storage, tirez parti des métadonnées précédemment collectées par Data Catalog. Cela simplifie la création de tables externes, assure la cohérence des métadonnées entre les banques de données et est moins susceptible d'erreur humaine.
- Envisagez d'utiliser le suivi du lignage pour Oracle Cloud Infrastructure Data Integration et Oracle Cloud Infrastructure Data Flow afin d'avoir une visibilité sur la façon dont les données ont été ingérées, transformées et stockées. Pour une couverture accrue, utilisez l'ingestion basée sur les API pour tirer parti de la structure ouverte OpenLineage afin de suivre le lignage pour toutes les sources et tous les systèmes.
Service Data Transfer d'Oracle Cloud Infrastructure
Vous ne pouvez pas procéder au téléchargement de données à l'aide d'une connexion Internet publique lorsqu'il est impossible de procéder au téléchargement de données Oracle Cloud Infrastructure. Nous vous recommandons d'envisage l'utilisation de Data Transfer si les téléchargements de données sur le réseau Internet public nécessitent plus de 1-2 semaines.
Data Safe et Audit
L'augmentation de la posture de sécurité en tirant parti des fonctionnalités d'audit et d'alerte permettra d'éviter l'exfiltration des données et d'effectuer des analyses médico-légales en cas de violation des données.
- Envisagez d'utiliser Oracle Data Safe pour auditer l'activité dans l'entrepôt de données et envisagez d'utiliser Oracle Cloud Infrastructure Audit pour auditer le trafic vers les données de lac.
- Envisagez d'utiliser Oracle Data Safe pour détecter les données sensibles sur Autonomous AI Lakehouse et pour les masquer de manière statique lors de la création de clones Autonomous AI Lakehouse pour les environnements hors production, ce qui évite les risques de sécurité.
- Envisagez d'utiliser le pare-feu SQL Oracle Data Safe avec Autonomous AI Lakehouse pour améliorer l'état de sécurité des données, en vous protégeant contre les risques tels que les attaques par injection SQL ou les comptes compromis.
Déploiement et automatisation
Cette architecture physique est déployée à l'aide de l'automatisation de l'infrastructure en tant que code (IaC) pour créer les ressources permettant de déployer un data lakehouse

Oracle Cloud Infrastructure Resource Manager permet de créer des piles Terraform de ressources cloud déployables, de partager et gérer les configurations d'infrastructure ainsi que des fichiers d'état entre plusieurs équipes et plates-formes. Envisagez d'utiliser Oracle Cloud Infrastructure Resource Manager pour créer des piles de déploiement pour la création d'environnements hors production, pour intégrer de nouvelles équipes qui ont besoin de services supplémentaires, et pour standardiser et intégrer des stratégies IAM cohérentes et des garde-fous de sécurité conformes aux stratégies définies par l'entreprise en matière de sécurité et de gouvernance.
Continuité des activités
Cette architecture décrit un déploiement dans une seule région et peut être étendue à deux régions pour prendre en charge la reprise après sinistre et permettre un plan de continuité des activités.
Oracle Cloud Infrastructure Full Stack Disaster Recovery est un service d'orchestration et d'administration de la récupération après sinistre qui fournit les fonctionnalités complètes pour toutes les couches de la pile d'applications, y compris l'infrastructure, le middleware, la base de données et l'application.
Envisagez d'utiliser OCI Full Stack Disaster Recovery pour configurer des plans de permutation et de basculement pour le data lakehouse afin d'automatiser les tâches de récupération après sinistre et de réduire les étapes manuelles en cas de transition planifiée ou non planifiée vers la région de secours.
Optimisation des coûts
Envisagez d'utiliser le suivi des coûts et de l'utilisation d'Oracle Cloud Infrastructure ainsi que les fonctionnalités d'optimisation des coûts pour prendre en charge en permanence vos opérations financières.
- Envisagez d'utiliser des rapports sur les coûts et l'utilisation pour obtenir et suivre l'utilisation des ressources cloud et les coûts respectifs. Tirer parti des rapports de coûts FOCUS CSV standard qui sont produits pour s'intégrer aux solutions d'opérations financières 3e partie.
- Envisagez d'utiliser l'analyse des coûts pour suivre les coûts engagés par différentes équipes, projets et environnements.
- Envisagez d'utiliser des balises de suivi des coûts pour baliser les ressources cloud pour des équipes, des projets ou des environnements spécifiques.
- Envisagez d'utiliser des budgets pour définir des limites souples sur les dépenses et de définir des alertes pour vous faire savoir quand vous pourriez dépasser votre budget pour le projet, l'équipe ou les dépenses globales.
Interopérabilité
Cette architecture s'appuie sur des normes étendues du secteur pour interagir avec l'environnement informatique hétérogène de toute entreprise, afin de pouvoir utiliser et servir toutes les données à n'importe quelle application, système ou personne.
L'architecture prend en charge les formats de fichiers ouverts tels que Parquet ou Avro, de sorte que les données peuvent être stockées dans le format le plus approprié pour chaque cas d'utilisation. De plus, elle prend en charge les formats de table ouverte tels que Iceberg et Delta Lake pour assurer l'interopérabilité entre les technologies Oracle et d'autres technologies 3e partie.
- Envisagez d'utiliser la prise en charge d'Iceberg par Oracle Autonomous AI Lakehouse pour lire les tables d'Iceberg persistantes sur le lac de données et les servir aux consommateurs. Les tables d'iceberg peuvent être utilisées en tant que tables externes ou chargées dans Autonomous AI Lakehouse.
- Envisagez d'utiliser la prise en charge du format universel Delta Lake Data Flow pour lire, traiter et conserver les données dans le lac de données. L'utilisation de Delta Lake lors de la génération de métadonnées pour d'autres formats de table ouverte tels que Iceberg et Hudi permet à différents moteurs de traitement de lire les mêmes données.
Approche organisationnelle
Cette architecture est flexible et peut prendre en charge différents types d'approches organisationnelles allant d'une approche centralisée à une approche complètement décentralisée et peut donc être adoptée et utilisée par toute organisation qui souhaite extraire de la valeur de ses données.

Cette architecture s'appuie sur des contrôles détaillés pour l'authentification et l'autorisation avec OCI Identity and Access Management (IAM).

Envisagez d'utiliser IAM pour séparer les différents secteurs d'activité et les équipes à l'aide du lakehouse afin de décentraliser la propriété de la création de produits de données et d'appliquer la ségrégation des domaines de données si votre entreprise souhaite adopter une approche organisationnelle décentralisée.

OCI propose des fonctionnalités d'automatisation et d'Infrastructure as Code en tant que clés pour un déploiement d'architecture réussi, en tirant parti de structures telles que Terraform et Ansible.

Si votre entreprise adopte une approche décentralisée et implémente des domaines de données dans le cadre de cette approche, envisagez d'utiliser des modèles Terraform prédéfinis et OCI Resource Manager pour intégrer rapidement et systématiquement les domaines de données dans la plate-forme de données.

Points à prendre en compte

Lors de la collecte, du traitement et de la conservation des données d'application pour l'analyse et le machine learning, tenez compte des options d'implémentation suivantes.

Orientation	Recommandé	Autres options	Raisonnement
Raffinerie de données	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure GoldenGate	Oracle Data Integrator Transformation des données Oracle Autonomous Database	Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable. Oracle Cloud Infrastructure GoldenGate fournit une plate-forme de réplication de données cloud native, sans serveur, entièrement gérée et non intrusive, évolutive et économique, qui peut être déployée dans des environnements hybrides.
Persistance des données	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse est une base de donnée facile à utiliser, entièrement autonome, qui s'adapte de manière élastique, offre des performances de requête rapides et qui ne nécessite pas d'administration. Il offre également un accès direct aux données à partir de tables partitionnées externes ou hybrides de stockage d'objets. Oracle Cloud Infrastructure Object Storage stocke des données illimitées au format brut.
Traitement des données	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow Oracle Cloud Infrastructure Big Data Service	Outils tiers	Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable. Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à l'échelle avec un modèle extrêmement élastique et payant à l'utilisation. Oracle Cloud Infrastructure Big Data Service propose une solution Hadoop-as-a-service adaptée aux entreprises, combinant sécurité d'un bout à l'autre, performances élevées, facilité de gestion et mise à niveau.
Accès & Interprétation	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Services d'IA Oracle Cloud Infrastructure	Outils tiers	Oracle Analytics Cloud est entièrement géré et étroitement intégré aux données organisées dans Oracle Autonomous AI Lakehouse. Oracle Cloud Infrastructure Data Science est une plate-forme en libre-service entièrement gérée qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles de machine learning dans Oracle Cloud Infrastructure. Data ScienceData Science fournit des outils d'infrastructure et de data science tels que AutoML et les fonctionnalités de déploiement de modèles. Oracle Machine Learning est une plate-forme de data science en libre-service entièrement gérée disponible avec Oracle Autonomous AI Lakehouse qui exploite la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles de machine learning à grande échelle sans avoir à déplacer les données en dehors de l'entrepôt. Les services d'IA Oracle Cloud Infrastructure sont un ensemble de services qui fournissent des modèles prédéfinis spécifiquement conçus et entraînés pour effectuer des tâches telles que l'inférence d'anomalies potentielles ou la détection de sentiments.

Déployez

Le code Terraform pour cette architecture de référence est disponible dans GitHub. Vous pouvez extraire le code dans Oracle Cloud Infrastructure Resource Manager en un seul clic, créer la pile et le déployer. Vous pouvez également télécharger le code de GitHub sur votre ordinateur, le personnaliser et déployer l'architecture à l'aide de l'interface de ligne de commande Terraform.

Déployez à l'aide d'Oracle Cloud Infrastructure Resource Manager :
1. Cliquez sur .
  Si vous n'êtes pas déjà connecté, entrez les informations d'identification de location et d'utilisateur.
2. Consultez et acceptez les conditions générales.
3. Sélectionnez la région dans laquelle vous souhaitez déployer la pile.
4. Suivez les invites à l'écran et les instructions pour créer la pile.
5. Après avoir créé la pile, cliquez sur Actions Terraform, puis sélectionnez Planifier.
6. Attendez que le travail soit terminé et vérifiez le plan.
  Pour apporter des modifications, revenez à la page Détails de la pile, cliquez sur Modifier la pile et apportez les modifications requises. Exécutez ensuite à nouveau l'action Planifier.
7. Si aucune autre modification n'est nécessaire, revenez à la page Détails de la pile, cliquez sur Actions Terraform, puis sélectionnez Appliquer.
Effectuez le déploiement à l'aide de l'interface de ligne de commande Terraform :
1. Accédez à GitHub.
2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
3. Suivez les instructions du document README.

En savoir plus

En savoir plus sur les fonctionnalités de cette architecture et sur les architectures associées.

Accusés de réception

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

Modifier le journal

Ce journal répertorie les modifications importantes :

28 octobre 2024

L'étendue fonctionnelle de l'architecture a été mise à jour pour inclure des offres de produits et de fonctions étendues, notamment les suivantes :
- Ajout de Data Sharing en tant que source de données et consommateur de données.
- Ajout de l'inclusion basée sur les API.
- Ajout d'offres étendues pour l'IA (langue, parole, vision, compréhension des documents) et pour les services d'IA générative.
- Ajout du processus ETL/Writeback inverse pour fournir des informations dérivées des données directement aux applications et aux périphériques.
Des mises à jour correspondantes ont été apportées aux sections Recommandations et considérations.
De nombreuses mises à jour relatives aux produits ont été effectuées tout au long du texte.

Juin 21, 2023

Ajout d'instructions pour déployer l'architecture à l'aide d'Oracle Cloud Infrastructure Resource Manager.
Lien GitHub mis à jour.
Diagrammes d'architecture mis à jour.