Data Platform - Data Warehouse avec intégration complexe
Les données des applications d’entreprise sont souvent distribuées dans plusieurs systèmes de l’entreprise et ne peuvent pas être facilement intégrées et analysées pour générer des informations exploitables.
Cette architecture de référence fournit une structure qui permet d’enrichir les données des applications d’entreprise avec des données brutes provenant d’autres sources et d’utiliser des modèles d’apprentissage automatique pour apporter de l’intelligence et des informations prédictives aux processus métier.
Cette architecture de référence positionne la solution technologique dans le contexte commercial global :
Alors que les services consolident les données de plusieurs sources dans des data marts afin d’obtenir des informations ciblées, l’entrepôt de données d’entreprise doit évoluer et s’adapter pour pouvoir exploiter les data marts disponibles et d’autres sources structurées et non structurées.
Ils séparent la charge globale de l'analyse de la charge globale de la transaction et permettent à une organisation de consolider des données issues de plusieurs sources. Cela facilite l'interrogation et l'analyse des données historiques dans un format orienté métier qui peut survivre aux modifications des systèmes transactionnels. L’utilisation de données en réseau pour l’apprentissage automatique et l’analyse prédictive est essentielle pour intégrer l’intelligence dans les processus métier. Les processus opérationnels intelligents aident à gérer de manière proactive les événements commerciaux critiques, tels que la recommandation des bons produits sur le bon canal aux bons clients ou la détection d’événements potentiellement frauduleux.
Architecture
Cette architecture collecte et combine des données d'application à des fins d'analyse et d'apprentissage automatique pour fournir des informations exploitables.
oci-polyglot-architecture-oracle.zip
Le diagramme suivant présente une mise en correspondance de l'architecture ci-dessus avec les services fournis sur Oracle Cloud Infrastructure (OCI) à l'aide des meilleures pratiques.
oci-polyglot-physical-arch-oracle.zip
L'architecture se concentre sur les divisions logiques suivantes :
- Assimilation, transformation
Ingère et affine les données à utiliser dans chacune des couches de données de l'architecture.
- Persister, Curer, Créer
Facilite l'accès et la navigation des données pour afficher la vue métier actuelle et historique. Il contient à la fois des données brutes et des données traitées granulaires et agrégées. Pour les technologies relationnelles, les données peuvent être logiques ou physiquement structurées sous des formes relationnelles, longitudinales, dimensionnelles ou OLAP simples. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, issus d'un processus analytique ou optimisés pour une tâche analytique spécifique.
- Analyser, apprendre, prédire
Abstraction de la vue logique métier des données pour les consommateurs. Cette abstraction facilite les approches agiles du développement, de la migration vers l'architecture cible et de la fourniture d'une couche de reporting unique à partir de plusieurs sources fédérées.
L'architecture comporte les composants suivants :
- Ingestion par lots
L'ingestion par lots est utile pour les données qui ne peuvent pas être ingérées en temps réel ou qui sont trop coûteuses à s'adapter en temps réel. Il est également important de transformer les données en informations fiables et fiables, qui peuvent être conservées et conservées à des fins de consommation régulière. Vous pouvez utiliser les services suivants ensemble ou indépendamment pour créer un workflow d'intégration et de transformation de données extrêmement flexible et efficace.
-
Oracle Cloud Infrastructure Data Integration est un service cloud natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et reformule les données d'une variété de sources de données en services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. Le processus ETL (extraction de la charge de transformation) tire parti du traitement d'évolutivité entièrement géré sur Spark et le processus ELT (extraction de la transformation de chargement) tire parti des fonctionnalités de réduction SQL complètes d'Autonomous Data Warehouse afin de minimiser les mouvements de données et d'améliorer le délai de rentabilité des données nouvellement ingérées. Les utilisateurs conçoivent les processus d’intégration des données à l’aide d’une interface utilisateur intuitive et sans code qui optimise les flux d’intégration pour générer le moteur et l’orchestration les plus efficaces, en allouant et en redimensionnant automatiquement l’environnement d’exécution. Oracle Cloud Infrastructure Data Integration permet l'exploration interactive et la préparation des données. Il aide les ingénieurs de données à se protéger contre les dérives de schéma en définissant des règles pour gérer les modifications de schéma.
-
Oracle Data Transforms est basé sur l'outil d'intégration Oracle Data Integrator (ODI) qui peut être déployé à partir d'actions de base de données Oracle Autonomous Database (Data Studio). Il fournit une solution entièrement unifiée pour la création, le déploiement et la gestion d'entrepôt de données complexes ou faisant partie d'architectures centrées sur les données dans un environnement SOA ou décisionnel. En outre, il combine tous les éléments d'intégration, de déplacement, de synchronisation, de qualité et de gestion des données, afin de garantir que les informations sont à jour, exactes et cohérentes dans les systèmes complexes.
Oracle Data Integrator offre une intégration complète de données à partir de chargements de gros volumes de données et hautes performances, de processus d'intégration déclenchés par des événements et exécutés sur des services de données SOA. Une approche de conception déclarative garantit un développement et une maintenance plus rapides et plus simples, et offre une approche unique de la transformation de charge d'extraction (ELT) qui garantit le plus haut niveau de performances possible pour les processus de transformation et de validation des données. Les transformations de données Oracle utilisent une interface Web pour simplifier la configuration et l’exécution d’ELT, et pour aider les utilisateurs à créer et planifier des données et des flux de travail en utilisant une approche de conception déclarative.
Selon le cas d'emploi, ces composants peuvent être utilisés indépendamment ou ensemble pour assurer une intégration et une transformation des données hautement flexibles et performantes.
-
-
Ingestion en temps réel
Oracle Cloud Infrastructure GoldenGate est un service entièrement géré qui permet l'ingestion de données à partir de sources résidant sur site ou dans n'importe quel cloud, en exploitant la technologie GoldenGate CDC pour une capture non intrusive et efficace des données et leur transmission à Oracle Autonomous Data Warehouse en temps réel et à grande échelle afin de mettre les informations pertinentes à la disposition des consommateurs le plus rapidement possible.
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse est un service de base de données doté de fonctions d'autopilotage, d'autosécurisation et d'autoréparation optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.
Les données de stockage en masse ou à froid qui résident dans le stockage d'objets peuvent être jointes aux données de l'entrepôt en tant que tables externes et tables partitionnées hybrides.
Autonomous Data Warehouse peut utiliser des métadonnées précédemment collectées stockées dans le catalogue de données pour créer des tables externes et synchroniser automatiquement les mises à jour de métadonnées dans le catalogue de données avec la définition des tables externes afin de garantir la cohérence, de simplifier la gestion et de réduire les efforts.
En outre, Data Lake Accelerator, composant d'Oracle Autonomous Database, peut utiliser de manière transparente les données de stockage d'objets, adapter le traitement pour fournir des requêtes rapides, redimensionner automatiquement l'instance de calcul de base de données si nécessaire et réduire l'impact sur la charge globale de base de données en isolant les requêtes de stockage d'objets de l'instance de calcul de base de données.
- Object Storage
Object Storage fournit un accès rapide à de grandes quantités de données structurées et non structurées de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi, comme des images et des vidéos. Vous pouvez stocker des données en toute sécurité, puis les extraire directement à partir d'Internet ou de la plate-forme cloud. Vous pouvez faire évoluer le stockage de manière transparente sans subir de dégradation des performances ou de la fiabilité du service. Utilisez le stockage standard pour le stockage à chaud auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour un stockage "à froid" que vous conservez pendant de longues périodes et rarement ou rarement accès.
- Analyses
Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre un ensemble complet de fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe de travail et votre entreprise. Il prend en charge les data scientists citoyens, les formations avancées des analystes commerciaux et les modèles d’apprentissage automatique. Les modèles d'apprentissage automatique peuvent être exécutés sur le service d'analyse ou directement sur Oracle Autonomous Data Warehouse en tant que modèles intégrés OML pour des prévisions de lots à grande échelle qui exploitent la puissance de traitement, l'évolutivité et l'élasticité de l'entrepôt.
Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités flexibles de gestion des services, notamment une configuration rapide, une évolutivité et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.
-
Apprentissage automatique
Oracle Machine Learning offre de puissantes fonctionnalités d'apprentissage automatique étroitement intégrées à Oracle Autonomous Database, avec la prise en charge de Python et AutoML. Elle prend en charge les modèles utilisant des algorithmes open source et évolutifs de base de données qui réduisent la préparation et le déplacement des données. AutoML aide les data scientists à accélérer la valeur des initiatives d’apprentissage automatique de l’entreprise en utilisant la sélection automatique des algorithmes, l’échantillonnage adaptatif des données, la sélection automatique des fonctionnalités et le réglage automatique des modèles.
Avec les services Oracle Machine Learning disponibles dans Oracle Autonomous Data Warehouse, vous pouvez non seulement gérer des modèles, mais aussi déployer ces modèles en tant qu'adresses REST afin de démocratiser les prévisions en temps réel au sein de l'entreprise, ce qui permet aux entreprises de réagir aux événements pertinents lorsqu'ils surviennent plutôt qu'après le fait.
-
Science des données
Data Science fournit une infrastructure, des technologies open source, des bibliothèques, des packages et des outils de science des données pour permettre aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. L'espace de travail collaboratif et orienté projet fournit une expérience utilisateur cohérente de bout en bout et prend en charge le cycle de vie des modèles prédictifs.
La fonctionnalité Déploiement de modèle de science des données permet aux data scientists de déployer des modèles formés en tant qu’adresses HTTP entièrement gérées, capables de générer des prévisions en temps réel, d’infuser les informations dans les processus et les applications et de permettre à l’entreprise de réagir aux événements pertinents lorsqu’ils se produisent.
- Catalogue de données
Oracle Cloud Infrastructure Data Catalog fournit une visibilité sur les ressources techniques, telles que les attributs de métadonnées et de métadonnées, et vous permet de tenir à jour un glossaire métier mappé avec ces métadonnées techniques. Oracle Cloud Infrastructure Data Catalog fournit également des métadonnées à Autonomous Data Warehouse afin de faciliter la création de tables externes dans le data warehouse.
Recommandations
Utilisez les recommandations suivantes comme point de départ pour collecter et combiner des données d'application à des fins d'analyse et d'apprentissage automatique.
Vos besoins peuvent être différents de ceux de l'architecture décrite ici.
- Oracle Autonomous Data Warehouse
Cette architecture utilise Oracle Autonomous Data Warehouse sur une infrastructure partagée. Activez la mise à l'échelle automatique pour donner aux charges de travail de base de données jusqu'à trois fois plus de puissance de traitement.
Envisagez d'utiliser Oracle Autonomous Data Warehouse sur une infrastructure dédiée si vous souhaitez que la fonctionnalité de base de données en libre-service dans un environnement cloud de base de données privé s'exécute sur le cloud public.
Envisagez d'utiliser la fonction Tables partitionnées hybrides d'Autonomous Data Warehouse pour les données qui ne sont pas souvent utilisées et pour lesquelles vous n'avez pas besoin des mêmes performances. Grâce à cette fonctionnalité, vous pouvez déplacer des partitions de données vers le stockage d'objets et les combiner avec des partitions stockées dans Autonomous Data Warehouse pour une distribution transparente.
Envisagez d'utiliser la fonction Tables externes pour utiliser en temps réel les données stockées dans le stockage d'objets sans avoir à les répliquer vers Autonomous Data Warehouse. Cela permet au data warehouse d'utiliser des données conservées quel que soit le format (parquet, avro, orc, json, csv, etc.).
Envisagez d'utiliser Data Lake Accelerator lorsque vous utilisez des données de stockage d'objets afin d'offrir une expérience utilisateur améliorée et plus rapide aux utilisateurs qui consomment et rejoignent des données entre l'entrepôt de données et le lac de données.
- Déploiement du modèle Oracle Machine Learning et Oracle Cloud Infrastructure Data Science
Cette architecture s'appuie sur Oracle Machine Learning et Oracle Cloud Infrastructure Data Science pour exécuter des prévisions en temps réel afin de fournir des résultats aux personnes et aux applications.
Envisagez de déployer une passerelle d'API si des prévisions en temps réel sont utilisées par les partenaires et les entités externes afin de sécuriser et de régir la consommation du modèle déployé.
- Catalogue de données
Pour disposer d'une vue complète et complète de bout en bout des données stockées et circulant sur la plate-forme, envisagez de collecter non seulement des banques de données prenant en charge la couche de persistance des données, mais également les banques de données source. La mise en correspondance de ces métadonnées techniques collectées avec le glossaire métier et leur enrichissement avec des propriétés personnalisées vous permet de mettre en correspondance des concepts métier, et de documenter et régir les définitions de sécurité et d'accès.
Pour faciliter la création de tables externes dans Autonomous Data Warehouse qui virtualisent les données stockées dans le stockage d'objets, exploitez les métadonnées précédemment collectées stockées dans Oracle Cloud Infrastructure Data Catalog. Cela simplifie la création de tables externes, assure la cohérence des métadonnées entre les banques de données et est moins sujet à des erreurs humaines.
Remarques
Lors de la collecte et de la combinaison des données d'application et des données d'événement de diffusion en continu à des fins d'analyse et d'apprentissage automatique, tenez compte des options d'implémentation suivantes.
Conseil | Raffinerie de données | Data Persistence Platform | Accéder à l'interprétation & |
---|---|---|---|
Recommandé |
|
|
|
Autres options |
|
Oracle Exadata Database Service | Outils tiers |
Raisonnement |
Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL native pour le cloud, sans serveur et entièrement gérée, évolutive et économique. Oracle Cloud Infrastructure GoldenGate fournit une plate-forme de réplication de données native, sans serveur, entièrement gérée et non intrusive, évolutive, économique et pouvant être déployée dans des environnements hybrides. |
Oracle Autonomous Data Warehouse est une base de données facile à utiliser et entièrement autonome, d'une capacité élastique, offrant des performances de requête rapides et ne nécessitant pas d'administration. Il offre également un accès direct aux données du stockage d'objets à l'aide de tables partitionnées externes ou hybrides. Oracle Cloud Infrastructure Object Storage stocke des données illimitées au format brut. |
Oracle Analytics Cloud est une solution entièrement gérée et étroitement intégrée aux données conservées dans Oracle Autonomous Data Warehouse. Oracle Cloud Infrastructure Data Science est une plate-forme en libre-service entièrement gérée qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Le service Data Science fournit des outils d'infrastructure et de science des données tels que AutoML et des fonctionnalités de déploiement de modèle. Oracle Machine Learning est une plate-forme en libre-service entièrement gérée pour la science des données disponible avec Autonomous Data Warehouse qui exploite la puissance de traitement de l'entrepôt pour créer, entraîner, tester et déployer des modèles d'apprentissage automatique à grande échelle sans avoir à déplacer les données en dehors de l'entrepôt. |
Déployer
Le code Terraform de cette architecture de référence est disponible sur GitHub. Vous pouvez extraire le code dans Oracle Cloud Infrastructure Resource Manager en un seul clic, créer la pile et la déployer. Vous pouvez également télécharger le code à partir de GitHub sur votre ordinateur, le personnaliser et le déployer à l'aide de l'interface de ligne de commande Terraform.
- Déployer à l'aide d'Oracle Cloud Infrastructure Resource Manager :
- Cliquez sur
.
Si vous n'êtes pas déjà connecté, entrez les informations d'identification de la location et de l'utilisateur.
- Consultez et acceptez les conditions générales.
- Sélectionnez la région de déploiement de la pile.
- Suivez les instructions et les invites à l'écran pour créer la pile.
- Après avoir créé la pile, cliquez sur Actions Terraform et sélectionnez Planifier.
- Attendez la fin du travail et vérifiez le plan.
Pour apporter des modifications, revenez à la page Détails de la pile, cliquez sur Modifier la pile et apportez les modifications requises. Exécutez ensuite à nouveau l'action Plan.
- Si aucune autre modification n'est nécessaire, revenez à la page Détails de la pile, cliquez sur Actions Terraform, puis sélectionnez Appliquer.
- Cliquez sur
- Déployer à l'aide de l'interface de ligne de commande Terraform :
- Accédez à GitHub.
- Téléchargez ou clonez le code sur votre ordinateur local.
- Suivez les instructions du fichier README.
Journal des modifications
Ce journal répertorie les modifications importantes :
Mai 22, 2023 |
|
01 février 2022 |
|