Traiter des données en masse à l'aide d'OCI Data Integration et des services cloud Oracle Integration
Traiter ou intégrer des données en masse provenant de sources externes à des systèmes ou applications ciblés.
Imaginez ce scénario : vous recevez des données en masse provenant d'une source externe (par exemple, clients, fournisseurs, employés, produits). Avant d'atteindre vos systèmes ou applications finaux, les données doivent être orchestrées, enrichies, combinées ou organisées. Pour ce faire, vous devez intégrer au moins deux applications ou services intermédiaires, ou appliquer des transformations complexes aux données. Ce processus peut ajouter des attributs supplémentaires aux données après avoir effectué des appels ou orchestré avec diverses applications tierces (basées, par exemple, sur REST, SOAP). Ces données transactionnelles peuvent également nécessiter des transformations complexes (JSON ou XML), des recherches ou des références croisées.
Ce scénario peut être facilement implémenté avec deux services cloud : OCI Data Integration et Oracle Integration, où OCI Data Integration répond à tous vos besoins d'intégration de données ou d'extraction, de transformation, de chargement (ETL) et Oracle Integration traite de l'ensemble de votre intégration d'application ou de la connectivité de niveau entreprise, quelles que soient les applications que vous connectez ou où elles résident.
Architecture
Cette architecture de référence représente un cas d'utilisation pour l'utilisation d'OCI Data Integration et d'Oracle Integration afin de traiter des données en masse.
Cette architecture de référence répond également aux défis liés au traitement des fichiers Apache Parquet, Apache Avro et Microsoft Excel dans Oracle Integration via OCI Data Integration. Par exemple, pour traiter les données de reporting financier (par exemple, les comptes fournisseurs, les comptes clients, les comptes GL, les flux de trésorerie, les actifs et les passifs, les revenus), OCI Data Integration convertit ces formats de fichier en fichiers CSV (valeurs séparées par des virgules), qui sont ensuite traités par Oracle Integration.
Le schéma suivant illustre cette architecture de référence.
oci-bulk-data-integration-architecture-diagramme-oracle.zip
Voici une explication des étapes illustrées dans l'architecture de référence ci-dessus :
- Les sources externes (par exemple, les applications personnalisées, les applications non Oracle, les bases de données Oracle exécutées sur des clouds tiers, les services cloud tiers, les bases de données sur site et les applications) téléchargent ou supprime le fichier de chargement de données en masse dans un bucket OCI Object Storage.
- Service OCI Observability & Management : OCI Events recherche un objet ou un fichier téléchargé dans le bucket OCI Object Storage.
- Les événements OCI déclenchent une action pour appeler OCI Functions avec un bucket et un nom de fichier.
- OCI Functions reçoit l'événement et appelle le pipeline OCI Data Integration avec des paramètres d'entrée : nom de bucket et nom de fichier.
- Le pipeline OCI Data Integration lit le fichier de chargement de données en masse à partir du bucket OCI Object Storage et divise le fichier de données volumineux unique en plusieurs fichiers plus petits. Il télécharge ensuite les fichiers fractionnés dans le bucket OCI Object Storage.
- Une autre instance d'OCI Events recherche les fichiers fractionnés téléchargés dans le bucket OCI Object Storage.
- Les événements OCI déclenchent une action pour appeler OCI Functions avec un nom de bucket et pour chaque nom de fichier.
- OCI Functions reçoit l'événement et appelle le flux d'Oracle Integration avec les paramètres d'entrée du nom de bucket et de chaque nom de fichier.
- Oracle Integration lit chaque fichier du bucket OCI Object Storage.
- Oracle Integration, en fonction des besoins, orchestre et enrichit les données en effectuant des appels vers des applications ou des systèmes intermédiaires. Il exécute ensuite des fonctions complexes (par exemple, des transformations, des recherches, des références croisées) et traite enfin les données vers des systèmes ou des applications en aval.
L'architecture comprend les composants suivants :
- Région
Une région Oracle Cloud Infrastructure est une zone géographique précise, incluant un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (entre pays, voire continents).
- Data Integration
Oracle Cloud Infrastructure Data Integration est un service cloud natif, sans serveur et entièrement géré qui extrait, charge, transforme, nettoie et remodèle des données de diverses sources de données vers des services Oracle Cloud Infrastructure cible, tels qu'Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. Les utilisateurs conçoivent les processus d'intégration des données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en redimensionnant automatiquement l'environnement d'exécution.
L'ETL (extraction de la charge de transformation) tire parti d'un traitement évolutif entièrement géré sur Spark, et l'ELT (extraction de la charge de transformation) tire parti des fonctionnalités de propagation SQL complètes d'Autonomous Data Warehouse afin de minimiser les mouvements de données et d'améliorer le délai de rentabilisation des données nouvellement ingérées.
Oracle Cloud Infrastructure Data Integration fournit une exploration interactive et une préparation des données, et aide les ingénieurs de données à se protéger contre les dérives de schéma en définissant des règles pour gérer les modifications de schéma.
- Intégration
Oracle Integration est un environnement entièrement géré et préconfiguré qui permet d'intégrer des applications cloud et sur site, d'automatiser les processus métier et de développer des applications visuelles. Il utilise un serveur de fichiers compatible SFTP pour stocker et extraire des fichiers et vous permet d'échanger des documents avec des partenaires commerciaux interentreprises en utilisant un portefeuille de centaines d'adaptateurs et de recettes pour vous connecter à Oracle et à des applications tierces.
- Evénements
Les services Oracle Cloud Infrastructure émettent des événements, qui sont des messages structurés décrivant les modifications apportées dans les ressources. Les événements sont émis pour les opérations de création, de lecture, de mise à jour ou de suppression (CRUD), les modifications d'état de cycle de vie des ressources et les événements système qui affectent les ressources cloud.
- Fonctions
Oracle Cloud Infrastructure Functions est une plate-forme Functions-as-a-Service (FaaS) entièrement gérée, colocative, hautement évolutive, à la demande. Il est optimisé par le moteur open source du projet Fn. Les fonctions vous permettent de déployer votre code et de l'appeler directement ou de le déclencher en réponse à des événements. Oracle Functions utilise des conteneurs Docker hébergés dans Oracle Cloud Infrastructure Registry.
- Réseau cloud virtuel (VCN) et sous-réseaux
Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.
- Liste de sécurité
Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui indiquent la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.
- Table de routage
Les tables de routage virtuelles contiennent des règles pour acheminer le trafic des sous-réseaux vers des destinations en dehors d'un VCN, généralement via des passerelles.