Traiter les données en masse à l'aide des services en nuage d'intégration de données OCI et d'Oracle Integration
Traiter ou intégrer des données en masse provenant de sources externes à des systèmes ou applications ciblés.
Considérez ce scénario : Vous recevez des données en masse d'une source externe (par exemple, clients, fournisseurs, employés, produits). Avant d'atteindre vos systèmes ou applications finaux, les données doivent être orchestrées, enrichies, combinées ou organisées. Pour ce faire, vous devez intégrer deux applications ou services intermédiaires ou plus, ou appliquer des transformations complexes aux données. Ce processus peut ajouter des attributs supplémentaires aux données après avoir effectué des appels ou orchestré avec diverses applications tierces (en fonction, par exemple, de REST, SOAP). Ces données transactionnelles peuvent également nécessiter des transformations complexes (JSON ou XML), des consultations ou des références croisées.
Ce scénario peut être facilement mis en oeuvre avec deux services en nuage : le service d'intégration de données OCI et Oracle Integration, où le service d'intégration de données OCI répond à tous vos besoins d'intégration de données ou d'extraction, de transformation, de chargement (ETL) et Oracle Integration répond à l'ensemble de votre intégration d'application ou de votre connectivité de niveau entreprise, quelles que soient les applications que vous connectez ou où elles résident.
Architecture
Cette architecture de référence représente un cas d'utilisation pour l'utilisation du service d'intégration de données OCI et d'Oracle Integration pour traiter des données en masse.
Cette architecture de référence relève également les défis liés au traitement des fichiers Apache Parquet, Apache Avro et Microsoft Excel dans Oracle Integration au moyen du service d'intégration de données OCI. Par exemple, pour traiter les données de production de rapports financiers (par exemple, comptes fournisseurs, comptes clients, GL, flux de trésorerie, actifs et passifs, revenus), le service d'intégration de données OCI convertit ces formats de fichier en fichiers CSV (valeurs séparées par des virgules), qui sont ensuite traités par Oracle Integration.
Le diagramme suivant illustre cette architecture de référence.
oci-bulk-data-integration-architecture-diagramme-oracle.zip
Voici une explication des étapes présentées dans l'architecture de référence ci-dessus :
- Des sources externes (par exemple, des applications personnalisées, des applications non Oracle, des bases de données Oracle exécutées sur des nuages tiers, des services en nuage de tierce partie, des bases de données sur place et des applications) chargent ou déposent le fichier de chargement de données en masse dans un seau de stockage d'objets OCI.
- Service d'observabilité et de gestion OCI : Les événements OCI recherchent un objet ou un fichier chargé dans le seau de stockage d'objets OCI.
- Les événements OCI déclenchent une action pour appeler le service des fonctions OCI avec un seau et un nom de fichier.
- Le service Fonctions OCI reçoit l'événement et appelle le pipeline d'intégration de données OCI avec des paramètres d'entrée : nom du seau et nom du fichier.
- Le pipeline du service d'intégration de données OCI lit le fichier de chargement de données en masse à partir du seau de stockage d'objets OCI et fractionne le fichier de données unique volumineux en plusieurs fichiers plus petits. Il charge ensuite les fichiers fractionnés dans le seau de stockage d'objets OCI.
- Une autre instance des événements OCI recherche les fichiers fractionnés chargés dans le seau de stockage d'objets OCI.
- Les événements OCI déclenchent une action pour appeler le service des fonctions OCI avec un nom de seau et pour chaque nom de fichier.
- Le service Fonctions OCI reçoit l'événement et appelle le flux d'Oracle Integration avec les paramètres d'entrée de nom de seau et de nom de fichier.
- Oracle Integration lit chaque fichier du seau de stockage d'objets OCI.
- Oracle Integration, en fonction des besoins, orchestre et enrichit les données en effectuant des appels vers une ou plusieurs applications ou systèmes intermédiaires. Il exécute ensuite des fonctions complexes (par exemple, des transformations, des consultations, des références croisées) et traite finalement les données vers des systèmes ou applications en aval.
L'architecture comprend les composants suivants :
- Région
Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (dans différents pays ou continents).
- Intégration de données
Oracle Cloud Infrastructure Data Integration est un service en nuage natif entièrement géré et sans serveur qui extrait, charge, transforme, nettoie et remodèle des données provenant de diverses sources de données en services Oracle Cloud Infrastructure cibles, tels que Autonomous Data Warehouse et Oracle Cloud Infrastructure Object Storage. Les utilisateurs conçoivent des processus d'intégration de données à l'aide d'une interface utilisateur intuitive et sans code qui optimise les flux d'intégration pour générer le moteur et l'orchestration les plus efficaces, en allouant et en adaptant automatiquement l'environnement d'exécution.
L'outil d'extraction, de transformation et de chargement (ETC) tire parti du traitement évolutif entièrement géré sur Spark et l'outil ELT (extract load transform) tire parti des capacités de poussée vers le bas SQL complètes d'Autonomous Data Warehouse afin de réduire le déplacement des données et d'améliorer le délai de rentabilité des données nouvellement ingérées.
Oracle Cloud Infrastructure Data Integration fournit une exploration interactive et une préparation des données, et aide les ingénieurs de données à se protéger contre la dérive de schéma en définissant des règles pour gérer les modifications de schéma.
- Intégration
Oracle Integration est un environnement préconfiguré entièrement géré qui permet d'intégrer des applications en nuage et sur place, d'automatiser des processus d'affaires et de développer des applications visuelles. Il utilise un serveur de fichiers conforme à SFTP pour stocker et extraire des fichiers et vous permet d'échanger des documents avec des partenaires commerciaux interentreprises en utilisant un portefeuille de centaines d'adaptateurs et de recettes pour vous connecter à des applications Oracle et tierces.
- Événements
Les services Oracle Cloud Infrastructure émettent des événements, qui sont des messages structurés décrivant les modifications apportées aux ressources. Des événements sont émis pour les opérations de création, de lecture, de mise à jour ou de suppression (CRUD), les modifications d'état du cycle de vie des ressources et les événements système qui ont une incidence sur les ressources en nuage.
- Fonctions
Oracle Cloud Infrastructure Functions est une plate-forme de fonctions-service (FaaS) sur demande, entièrement gérée, multilocataire et hautement évolutive. Il est alimenté par le moteur open source Fn Project. Les fonctions vous permettent de déployer votre code et de l'appeler directement ou de le déclencher en réponse à des événements. Oracle Functions utilise des conteneurs Docker hébergés dans Oracle Cloud Infrastructure Registry.
- Réseau en nuage virtuel (VCN) et sous-réseau
Un VCN est un réseau défini par logiciel personnalisable que vous avez configuré dans une région Oracle Cloud Infrastructure. Comme les réseaux en nuage virtuels traditionnels, ils vous offrent un contrôle sur votre environnement de réseau. Un VCN peut disposer de plusieurs blocs CIDR sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.
- Liste de sécurité
Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui spécifient la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.
- Table de routage
Les tables de routage virtuelles contiennent des règles pour acheminer le trafic des sous-réseaux vers des destinations en dehors d'un VCN, généralement au moyen de passerelles.