Traiter des données en masse à l'aide d'OCI Data Integration et des services Oracle Integration Cloud

Traiter ou intégrer des données en masse provenant de sources externes à des applications ou systèmes ciblés.

Considérant ce scénario : vous recevez des données en masse à partir d'une source externe (par exemple, clients, fournisseurs, employés, produits, etc.). Avant d'atteindre vos systèmes ou applications finaux, les données doivent être orchestrées, enrichies, combinées ou organisées. Pour ce faire, vous devez intégrer au moins deux applications ou services intermédiaires, ou appliquer des transformations complexes aux données. Ce processus peut ajouter des attributs supplémentaires aux données après avoir effectué des appels ou orchestré avec différentes applications tierces (en fonction de REST, SOAP, etc.). Ces données transactionnelles peuvent également nécessiter des transformations complexes (JSON ou XML), des recherches ou des références croisées.

Ce scénario peut être facilement implémenté avec deux services cloud : l'intégration OCI Data (OCI DI) et Oracle Integration Cloud (OIC), où OCI DI répond à tous vos besoins en matière d'intégration de données ou d'extraction, de transformation et de chargement (ETL) et OIC traite toutes vos intégrations d'application ou votre connectivité de niveau entreprise, quelles que soient les applications que vous connectez ou où elles résident.

Architecture

Cette architecture de référence représente un cas d'utilisation du service OCI DI et OIC pour traiter des données en masse.

Cette architecture de référence répond également aux défis liés au traitement des fichiers Apache Parquet, Apache Avro et Microsoft Excel dans OIC via OCI DI. Par exemple, pour traiter les données de reporting financier (par exemple, comptes fournisseurs, comptes clients, GL, flux de trésorerie, actifs et passifs, revenus, etc.) OCI DI convertit ces formats de fichier en fichiers CSV (valeurs séparées par des virgules), qui sont ensuite traités par OIC.

Le diagramme suivant illustre cette architecture de référence.



oci-bulk-data-integration-architecture-diagram-oracle.zip

Voici une explication des étapes présentées dans l'architecture de référence ci-dessus :

  1. Des sources externes (par exemple, des applications personnalisées, des applications non Oracle, des bases de données Oracle exécutées sur des clouds tiers, des services cloud tiers, des bases de données sur site et des applications) téléchargent ou déposent le fichier de chargement de données en masse dans un bucket OCI Object Storage.
  2. Service OCI Observability & Management - Le service OCI Events recherche un objet ou un fichier téléchargé dans le bucket OCI Object Storage.
  3. Le service OCI Events déclenche une action visant à appeler des fonctions OCI avec un bucket et un nom de fichier.
  4. OCI Functions reçoit l'événement et appelle le pipeline OCI DI avec les paramètres d'entrée : nom de bucket et nom de fichier.
  5. Le pipeline OCI DI lit le fichier de chargement de données en masse à partir du bucket OCI Object Storage et divise le fichier de données unique et volumineux en plusieurs fichiers plus petits. Il télécharge ensuite les fichiers fractionnés dans le bucket OCI Object Storage.
  6. Une autre instance d'un service OCI Events recherche les fichiers fractionnés téléchargés dans le bucket OCI Object Storage.
  7. Le service OCI Events déclenche une action visant à appeler des fonctions OCI avec un nom de bucket et pour chaque nom de fichier.
  8. OCI Functions reçoit l'événement et appelle le flux d'intégration OIC avec les paramètres d'entrée du nom de bucket et de chaque nom de fichier.
  9. L'intégration OIC lit chaque fichier à partir du bucket OCI Object Storage.
  10. L'intégration OIC, selon les besoins, orchestre et enrichit les données en effectuant des appels vers une ou plusieurs applications ou systèmes intermédiaires. Il effectue ensuite des transformations complexes, des recherches, des références croisées, etc. et traite enfin les données vers des systèmes ou applications en aval.

L'architecture comprend les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient des centres de données, appelés domaines de disponibilité. Les régions sont indépendantes des autres régions et de vastes distances peuvent les séparer (dans tous les pays ou même les continents).

  • Data Integration

    OCI Data Integration est un service colocatif entièrement géré qui aide les ingénieurs données et les développeurs ETL (extraction, transformation et chargement) à effectuer des tâches ETL courantes telles que l'inclusion de données à partir de diverses ressources de données, le nettoyage, la transformation et la remise en forme de ces données, et leur chargement efficace vers des ressources de données cible.

  • Oracle Integration Cloud

    Avec Oracle Integration Cloud, vous pouvez intégrer vos applications cloud et on-premise, automatiser les processus métier, obtenir des informations sur vos processus métier, développer des applications visuelles, utiliser un serveur de fichiers compatible SFTP pour stocker et extraire des fichiers, et échanger des documents commerciaux avec un partenaire commercial B2B.

  • Evénements

    Le service OCI Events suit les modifications de ressources à l'aide d'événements conformes à la norme CloudEvents de la CNCF (Cloud Native Computing Foundation). Les développeurs peuvent répondre aux changements en temps réel en déclenchant du code avec Functions, en écrivant dans Streaming ou en envoyant des alertes à l'aide de Notifications.

  • Fonctions

    OCI Functions est une plate-forme sans serveur qui permet aux développeurs de créer, d'exécuter et de dimensionner des applications sans gérer d'infrastructure. Functions s'intègre à OCI, aux services de plate-forme et aux applications SaaS. Etant donné que Functions est basé sur le projet Fn open source, les développeurs peuvent créer des applications qui peuvent être facilement portées vers d'autres environnements cloud et sur site. Le code basé sur Functions s'exécute généralement sur de courtes durées et les clients ne paient que pour les ressources qu'ils utilisent.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centres de données traditionnels, les réseaux cloud virtuels vous donnent un contrôle total sur votre environnement réseau. Un VCN peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être ciblés vers une région ou un domaine de disponibilité. Chaque sous-réseau se compose d'une plage contiguë d'adresses qui ne chevauchent pas les autres sous-réseaux du VCN. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui indiquent la source, la destination et le type de trafic qui doivent être autorisés vers et depuis le sous-réseau.

  • Table de routage

    Les tables de routage virtuel contiennent des règles pour acheminer le trafic des sous-réseaux vers des destinations en dehors d'un VCN, généralement via des passerelles.

Remerciements

  • Auteurs : Pavan Rajalbandi
  • Contributeurs : John Sulyok