Créer un environnement OCI Data Integration sécurisé avec des tâches prédéfinies à partir de modèles
Créez des tâches de traitement de données sécurisées et évolutives à partir de sources externes vers une banque de données Oracle Autonomous Data Warehouse cible à l'aide du service Oracle Cloud Infrastructure Data Integration (OCI Data Integration).
Dans cette architecture de référence, nous envisageons un scénario dans lequel vos données d'entreprise sont réparties entre des banques de données sur site alors que l'entreprise a déjà essayé de migrer certaines applications vers le cloud. OCI Data Integration peut étendre n'importe quelle fonctionnalité, sur site et sur d'autres clouds préexistants, en exploitant la connectivité réseau et de banque de données présente dans la structure OCI de manière sécurisée et évolutive.
Architecture
Cette architecture décrit les différents composants pouvant être impliqués dans le scénario ci-dessus.
Pour une stratégie multicloud, vous pouvez rencontrer des technologies et des services de données dans d'autres fournisseurs cloud pour lesquels OCI fournit des références d'architecture pour la connectivité à d'autres fournisseurs cloud. Les magasins de données sur site varient pour plusieurs technologies, des données stockées dans des fichiers aux jeux de données orientés processus dans les ERP.
Le diagramme suivant illustre l'architecture de référence et le parcours des données.
oci-data-integration-flow-oracle.zip
Voici les étapes à suivre pour assimiler, traiter et enrichir en toute sécurité les données afin de devenir un morceau d'informations cible stockées dans la base de données ou le Lakehouse en aval.
- Grâce à Oracle Cloud Infrastructure FastConnect ou à un VPN site à site, les sources de données sur site peuvent être ingérées à l'aide des connecteurs de ressources de données OCI Data Integration.
- De même, les sources de données accessibles par les connecteurs OCI Data Integration Data Assets peuvent être utilisées pour extraire les ensembles de données résidant dans les autres clouds (par exemple, les applications personnalisées, les applications non Oracle, les bases de données Oracle exécutées sur des clouds tiers, Oracle Fusion SaaS, les services cloud tiers et les applications). Les données peuvent également être téléchargées en masse dans des fichiers de chargement en masse vers des buckets Oracle Cloud Infrastructure Object Storage lorsqu'elles ne sont pas accessibles directement par un connecteur de ressource de données OCI Data Integration.
Oracle a développé des solutions de connectivité cloud spécifiques pour d'autres fournisseurs cloud tels que Microsoft Azure, Amazon Web Services et Google Cloud Platform. En l'absence d'interopérabilité cloud verticale, la connectivité aux services ou aux applications peut être effectuée en toute sécurité via une passerelle NAT, garantissant que seul le trafic sortant vers Internet est autorisé. OCI réduit toute exposition des données sur Internet en chiffrant la connectivité de bout en bout aux adresses. Cependant, dans l'assimilation, OCI Data Integration Pipelines peut orchestrer d'autres types de saisie de données, tels que la diffusion en continu de données en temps réel volumineux et les répliques de source de données avec Oracle GoldenGate. Les fonctionnalités d'orchestration de l'appel d'API REST aux services OCI peuvent tirer parti de la détection des modifications de fichier dans les buckets OCI Object Storage, ainsi que de la combinaison avec les événements et les fonctions d'intégration et des flux de données d'ingestion délicats.
- Une fois les données ingérées dans la structure OCI, elles sont traitées sur des réseaux cloud virtuels exclusifs (VCN) qui peuvent être encore isolés de l'accès Internet. Les services d'intégration de données (OCI Data Integration) via des flux de données peuvent effectuer plusieurs transformations dans une interface sans code, mettre en correspondance des entités source et cible et les transformations correspondantes. En même temps, des transformations de données se produisent, les services OCI Data Catalog effectuent le catalogage pour fournir le lignage. Les données inactives dans les bases de données Oracle peuvent être soumises à des réglementations en matière de confidentialité et de conformité. Oracle Data Safe évalue l'état de sécurité de la base de données, en identifiant et en classant les risques, et en fin de compte en masquant les informations considérées comme sensibles. Une autre ressource pour la sécurité des données et des informations, OCI Vault, fournit des services permettant de stocker et de gérer les clés et les clés secrètes, telles que les informations de compte et les mots de passe, de les crypter et de simplifier le processus global de sécurisation des données.
- Bien que les pipelines OCI Data Integration et les flux de données OCI Data Integration favorisent l'enrichissement des ressources de données au sein, les opérateurs REST peuvent également sécuriser l'accès aux autres services OCI. En cette qualité, OCI Data Integration Orchestration peut appeler des blocs-notes dans Data Science pour le machine learning ou interroger des services d'intelligence artificielle afin d'augmenter les données avec la détection des prévisions ou des anomalies. OCI Data Integration Orchestration peut faire fonctionner les moteurs Spark afin d'éclater un traitement de données étendu à l'aide d'OCI Data Flow avec la même structure OCI sécurisée. Toutes les fonctions de gestion de l'orchestration, telles que Monitoring, Logging et Notifications, sont intégrées via le mécanisme exact.
- OCI Data Integration écrit dans n'importe quel magasin Oracle au sein d'OCI ou sur site, ainsi que les combinaisons de lacs de données OCI et MySQL. Les analyses exploitent immédiatement les magasins cible avec des ressources étendues pour la visualisation des données, la modélisation métier et le reporting avec une parfaite précision des pixels.
- Les consommateurs, les producteurs et les développeurs de données sont organisés en toute sécurité dans des stratégies précises de contrôle d'accès aux données et aux ressources.
Le diagramme d'architecture suivant décrit plus en détail l'implémentation, en proposant une séparation de sous-réseau réseau.
oci-data-integration-arch-oracle.zip
Les services OCI Data Integration fournissent une connectivité prête à l'emploi à de nombreuses sources de données, et les micro-batches peuvent traiter les données par incréments dans l'environnement OCI. De même, d'autres services OCI peuvent être appelés pour enrichir et organiser davantage les ensembles de données.
- Le traitement par lots transforme des ensembles de données à grande échelle à partir de systèmes source, en exploitant les services natifs OCI qui s'intègrent de manière transparente à OCI Object Storage et vous permettent de créer des données organisées pour des cas d'utilisation tels que l'agrégation et l'enrichissement des données, l'assimilation de l'entrepôt de données, ainsi que l'apprentissage automatique et l'utilisation des données d'IA à grande échelle.
- OCI Data Integration est un service cloud natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle les données de diverses sources de données en services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et OCI Object Storage.
- OCI Data Integration orchestre les dépendances au sein des flux de données de traitement, mais également avec les services Oracle Cloud Infrastructure restants, tels que OCI Artificial Intelligence et Oracle Machine Learning pour l'enrichissement des données ou une classification ultérieure et Data Safe pour la sécurité et la conformité des données. Les stratégies avec un contrôle granulaire de l'accès maintiennent l'authentification et l'autorisation de service à service.
- Les modèles d'application OCI Data Integration fournissent un ensemble de tâches OCI Data Integration (REST (API), SQL, Integration (flux de données) et Pipelines) immédiatement disponibles pour utilisation. Les tâches sont entièrement paramétrées, ce qui permet leur utilisation directe. Les tâches peuvent également être enregistrées dans de nouveaux projets et dossiers, ce qui permet de modifier la conception pour prendre en compte d'autres détails d'implémentation.
L'architecture se compose des éléments suivants :
- Région
Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient des centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (dans des pays voire des continents).
- Réseau cloud virtuel (VCN) et sous-réseaux
Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent un contrôle total sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.
- Data Integration
Oracle Cloud Infrastructure Data Integration est un service cloud natif, colocatif, sans serveur et entièrement géré qui vous aide avec des tâches ETL courantes telles que l'inclusion de données à partir de différentes sources, le nettoyage, la transformation et la remise en forme de ces données, et leur chargement efficace dans des sources de données cible sur OCI.
L'inclusion de données provenant de différentes sources (par exemple, Amazon Redshift, Azure SQL Database et Amazon S3) dans Object Storage et Autonomous Data Warehouse est la première étape de ce processus.
- Stockage d'objets
Object Storage fournit un accès rapide à de grandes quantités de données, structurées ou non, de n'importe quel type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi tel que des images et des vidéos. Vous pouvez stocker les données, puis les extraire directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez redimensionner le stockage de manière transparente sans dégradation des performances ni de la fiabilité des services. Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez pendant longtemps et auquel vous accédez rarement.
- Data Science
Oracle Cloud Infrastructure Data Science est une plate-forme sans serveur entièrement gérée que les équipes de science des données peuvent utiliser pour créer, entraîner et gérer des modèles d'apprentissage automatique sur Oracle Cloud Infrastructure (OCI). Il peut facilement s'intégrer à d'autres services OCI tels qu'Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage, etc. Vous pouvez créer et évaluer des modèles de machine learning de haute qualité qui augmentent la flexibilité de l'entreprise en mettant les données fiables de l'entreprise à fonctionner rapidement, et vous pouvez soutenir les objectifs commerciaux basés sur les données avec un déploiement plus facile des modèles de machine learning.
- Oracle Machine Learning
Oracle Machine Learning offre des fonctionnalités permettant de créer, d'entraîner et de déployer des modèles pour les données de la base de données. Oracle Machine Learning fournit une interface de bloc-notes Zeppelin qui permet aux analystes de données d'entraîner des modèles à l'aide de la bibliothèque client Python OML4Py. Oracle Machine Learning offre également une approche sans code pour l'entraînement des modèles avec l'interface utilisateur AutoML. Le déploiement de modèles en tant qu'API REST peut s'effectuer via les services Oracle Machine Learning. La prise en charge des logiciels open source est toutefois limitée.
- Services d'IA
Les services d'IA d'Oracle Cloud Infrastructure fournissent un ensemble d'API de modèle pré-entraînées et personnalisables par rapport aux cas d'utilisation allant du langage, de la vision, de la parole, de la décision et des prévisions. Les services AI fournissent des prédictions de modèle accessibles via des adresses d'API REST. Ces services fournissent des modèles pré-entraînés de pointe et doivent être pris en compte et évalués avant d'entraîner des modèles d'apprentissage automatique personnalisés à l'aide des services 1 à 6. Les services Oracle Machine Learning fournissent également une série de modèles préentraînés pour les langues (sujet, mots-clés, résumé, similarité) et la vision.
- Data Safe
Oracle Data Safe est un service cloud régional entièrement intégré qui fournit un ensemble complet de fonctionnalités permettant de protéger les données confidentielles et réglementées des bases de données Oracle. Data Safe prend également en charge les bases de données sur site, Oracle Exadata Database Service on Cloud@Customer et les déploiements multicloud. Tous les clients Oracle Database peuvent réduire le risque de violation de données et simplifier la conformité en utilisant Oracle Data Safe pour évaluer les risques liés à la configuration et aux utilisateurs, surveiller et auditer l'activité des utilisateurs, ainsi que pour repérer, classer et masquer les données sensibles.
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse est un service de base de données doté de fonctions d'autopilotage, d'autosécurisation et d'autoréparation, optimisé pour les charges de travail d'entreposage de données. Il n'est pas nécessaire de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.
Recommandations
- VCN
Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher aux sous-réseaux du VCN. Utilisez des blocs CIDR situés dans l'espace d'adresses IP privées standard.
Sélectionnez des blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données sur site ou un autre fournisseur cloud) sur lequel vous souhaitez configurer des connexions privées.
Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.
Lorsque vous concevez les sous-réseaux, tenez compte de vos exigences en matière de sécurité et de flux de trafic. Associez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, ce qui peut servir de limite de sécurité.
- Modèles OCI Data Integration
De nombreuses tâches de gestion quotidiennes peuvent être facilement automatisées à l'aide ou à la réutilisation de tâches de modèle. En outre, les modèles étendent les fonctionnalités de traitement et de gestion des données OCI Data Integration en proposant un ensemble distinct de tâches adaptées pour aider les ingénieurs de données. Les cas d'utilisation permettant d'appeler d'autres services OCI tels qu'Oracle Cloud Infrastructure AI Services pour les classifications de documents, Oracle Data Safe pour le masquage du contenu à stocker, et le contrôle et le reporting dans le flux incrémentiel vers Autonomous Data Warehouse sont des blocs de construction de modèle pour faciliter l'utilisation d'OCI Data Integration.
La liste des modèles actuellement disponibles est la suivante :
- Gestion de la banque d'objets Oracle
Application avec des tâches REST pour Object Storage : copier, supprimer et renommer des objets, et créer et supprimer des buckets.
- Image Oracle Vision
Application avec tâches REST permettant d'effectuer une analyse d'image OCI Vision. Les tâches incluent la classification d'image, la détection d'objet et la détection de texte d'image.
- Document Oracle Vision
Application avec tâches REST permettant d'exécuter l'intelligence artificielle de document OCI Vision. Ces tâches comprennent la classification des documents, la détection des valeurs-clés de documents, la classification des langues des documents, la détection des tables de documents et la détection des textes de documents.
- Masquage Oracle DataSafe
Application avec des tâches paramétrées pour générer un modèle sensible Oracle Data Safe et un masquage à partir d'un schéma de base de données Oracle cible.
- Charger des fichiers d'Oracle Object Storage vers ADW
Application avec des tâches permettant de charger différents types de fichier à partir d'OCI Object Storage vers Autonomous Data Warehouse : JSON, Parquet, CSV, Avro.
- Charge incrémentielle d'Oracle Database vers Autonomous Data Warehouse (gérée par le client)
Application qui permet l'exécution de tâches incrémentielles en fonction de la dernière exécution dans une table de métadonnées stockée dans un schéma cible Autonomous Data Warehouse et qui génère un rapport.
- Oracle Fusion Applications avec Oracle Business Intelligence Publisher (BIP) pour le chargement incrémentiel ADW
Application permettant à Oracle Fusion Applications d'exécuter des extractions en fonction de la dernière exécution dans une table de métadonnées stockée dans un schéma cible Autonomous Data Warehouse à l'aide d'états Oracle Business Intelligence Publisher (BIP).
- Gestion de la banque d'objets Oracle
Remarques
Lors de la collecte, du traitement et de la sélection des données d'application à des fins d'analyse et de machine learning, envisagez les options d'implémentation suivantes.
- Traitement des données
- Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable.
- Oracle Cloud Infrastructure Data Flow fournit un environnement Spark sans serveur pour traiter les données à grande échelle avec un modèle extrêmement élastique et payant à l'utilisation.
- Oracle Cloud Infrastructure Big Data Service offre une solution Hadoop-as-a-service adaptée aux entreprises avec une sécurité de bout en bout, des performances élevées, ainsi qu'une facilité de gestion et de mise à niveau.
- Persistance des données
- Oracle Autonomous Data Warehouse est une base de données facile à utiliser et entièrement autonome, d'une capacité élastique, sur laquelle les performances des requêtes sont excellentes et qui ne nécessite pas d'administration. Il offre également un accès direct aux données des tables partitionnées externes ou hybrides de stockage d'objets.
- Oracle Cloud Infrastructure Object Storage stocke des données illimitées au format brut.
- Data Refinery
Oracle Cloud Infrastructure Data Integration fournit une plate-forme ETL cloud native, sans serveur et entièrement gérée, évolutive et rentable.
Déploiement
Le code Terraform de cette architecture de référence est disponible dans GitHub.
- Accédez à GitHub.
- Clonez ou téléchargez le référentiel sur votre ordinateur local.
- Suivez les instructions du document
README
.
En savoir plus
Consultez ces ressources supplémentaires pour en savoir plus sur les fonctionnalités de cette architecture de référence.
- Plate-forme de données Oracle
- Utilisation des applications Data Integration et des modèles d'application
- Visite du flux de données OCI Data Integration
- Sources de données prises en charge pour les ressources de données
- Solutions multicloud OCI
- Qu'est-ce que le multicloud ?
- Structure des meilleures pratiques pour Oracle Cloud Infrastructure
- Documentation Oracle Cloud Infrastructure
- Estimateur de coût Oracle Cloud