Traiter intelligemment les documents non structurés

Le traitement des documents non structurés peut prendre du temps sans automatisation intelligente. Prenons l'exemple des PDF de facture - vous devrez peut-être extraire des informations d'en-tête clés telles que le nom de la société, la date, le numéro de facture, l'adresse, etc. Vous devrez probablement également extraire chaque ligne avec différents numéros d'article, descriptions, quantités, prix unitaires et totaux. Après l'extraction, ces informations doivent être publiées dans un système d'enregistrement tel qu'une base de données, une application cible telle qu'Oracle E-Business Suite, Oracle Fusion Cloud Financials ou Oracle Fusion Cloud SCM pour n'en nommer que quelques-unes. Enfin, vos utilisateurs finaux peuvent agir sur les informations nouvellement publiées, qu'il s'agisse de créer des rapports ou même d'une application personnalisée.

Ce scénario est facilement réalisé à l'aide d'Oracle Integration Cloud Service pour orchestrer divers services Oracle Cloud Infrastructure (OCI). Avec Oracle Integration Cloud Service, vous pouvez facilement vous connecter à vos systèmes d'enregistrement et les intégrer, qu'ils s'exécutent dans OCI ou ailleurs. Les services d'IA d'OCI, tels qu'OCI Document Understanding, peuvent facilement être combinés à Oracle Integration Cloud Service pour atteindre divers cas d'utilisation.

Vous pouvez facilement appliquer cette approche à un certain nombre d'autres cas d'utilisation qui automatisent le traitement des documents non structurés à l'aide de modèles prédéfinis tels que les passeports, les permis de conduire et les reçus. D'autres types de document peuvent également être traités en entraînant un modèle personnalisé dans le service OCI Document Understanding.

Architecture

Cette architecture explique comment utiliser Oracle Integration Cloud Service pour orchestrer les services OCI afin d'automatiser le traitement intelligent des documents non structurés.

Le schéma suivant illustre cette architecture de référence.



oic-process-documents-arch.zip

Le flux de travail de cette architecture ressemble à :

  1. Une intégration est lancée par Oracle Integration Cloud Service pour extraire de nouvelles pièces jointes d'e-mail (PDF, PNG, JPG, etc.) à partir de Microsoft Outlook ou de Gmail à l'aide d'adaptateurs prédéfinis.
  2. Les pièces jointes peuvent être stockées dans le serveur de fichiers imbriqué d'Oracle Integration Cloud Service ou dans OCI Object Storage pour une conservation à court ou à long terme.
  3. OCI Document Understanding est appelé pour récupérer et traiter les fichiers nouvellement téléchargés, en renvoyant au format JSON structuré des champs de clé extraits vers Oracle Integration Cloud Service.
  4. Si le score de confiance renvoyé par OCI Document Understanding atteint un seuil acceptable, l'intégration transforme et valide le résultat extrait en effectuant des appels supplémentaires vers divers systèmes ou applications à l'aide de l'un de ses plus de 100 adaptateurs prédéfinis. Sinon, l'intégration lance un processus dans Oracle Integration Cloud Service Process Automation pour assurer la gestion des exceptions en boucle. Dans le cadre de ce processus, un développeur ou un analyste reçoit une notification par e-mail pour vérifier le document et le corriger avant de le soumettre à nouveau, ou identifier manuellement les paires clé/valeur requises afin que l'intégration puisse continuer.
  5. Les données extraites sont insérées dans un système d'enregistrement tel qu'Oracle E-Business Suite sur site via l'utilisation d'OCI FastConnect et d'un agent de connectivité, d'Oracle Fusion Cloud Financials sur le réseau principal Oracle, d'une base de données Oracle Autonomous Transaction Processing via une adresse privée ou d'autres applications telles que Salesforce, SAP et Workday.
  6. Lorsque les données extraites et validées sont insérées dans une base de données Oracle Autonomous Transaction Processing privée dans le cadre du flux d'intégration, vous pouvez désormais tirer parti des fonctionnalités OCI supplémentaires pour donner à vos utilisateurs finaux différentes façons d'interagir avec les données. Par exemple, vous pouvez facilement créer un portail personnalisé à l'aide d'Oracle APEX (plate-forme low code incluse avec Oracle Database). Ce portail peut permettre aux utilisateurs métier d'interroger et de mettre à jour les données extraites via une interface utilisateur personnalisée.
  7. Vous pouvez éventuellement connecter la base de données Oracle Autonomous Transaction Processing à une instance Oracle Analytics Cloud où les utilisateurs métier peuvent créer des rapports personnalisés qui révèlent les tendances de document traitées les plus importantes.

L'architecture comprend les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique précise, incluant un ou plusieurs centres de données, appelés domaines de disponibilité. Les régions sont indépendantes les unes des autres et de grandes distances peuvent les séparer (entre pays, voire continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées de celles des autres, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent ni infrastructure (par exemple, alimentation, système de refroidissement), ni réseau de domaine de disponibilité interne. Par conséquent, une panne sur un domaine de disponibilité ne doit pas affecter les autres domaines de disponibilité de la région.

  • Domaine de pannes

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines de pannes avec du matériel et une alimentation indépendants. Lorsque vous répartissez les ressources entre plusieurs domaines de pannes, vos applications peuvent tolérer les pannes physiques du serveur, la maintenance du système et les pannes d'alimentation au sein d'un domaine de pannes.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux de centre de données traditionnels, les réseaux cloud virtuels vous donnent le contrôle sur l'environnement réseau. Un réseau cloud virtuel peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après l'avoir créé. Vous pouvez segmenter un réseau cloud virtuel en plusieurs sous-réseaux ciblant une région ou un domaine de disponibilité. Chaque sous-réseau est composé d'une plage contiguë d'adresses qui ne chevauchent pas celles des autres sous-réseaux du réseau cloud virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Réseau sur site

    Ce réseau est le réseau local utilisé par votre organisation. C'est l'un des rayons de la topologie.

  • Passerelle de routage dynamique (DRG)

    Le DRG est un routeur virtuel qui fournit un chemin pour le trafic de réseau privé entre les réseaux cloud virtuels de la même région, entre un VCN et un réseau en dehors de la région, tel qu'un VCN dans une autre région Oracle Cloud Infrastructure, un réseau sur site ou un réseau dans un autre fournisseur cloud.

  • Passerelle de service

    La passerelle de service fournit un accès à partir d'un VCN à d'autres services, tels qu'Oracle Cloud Infrastructure Object Storage. Le trafic entre le VCN et le service Oracle passe par la structure du réseau Oracle et ne traverse pas Internet.

  • FastConnect

    Oracle Cloud Infrastructure FastConnect permet de créer facilement une connexion privée dédiée entre le centre de données et Oracle Cloud Infrastructure. FastConnect offre des options de bande passante plus élevée et une expérience réseau plus fiable par rapport aux connexions Internet.

  • Table de routage

    Les tables de routage virtuelles contiennent des règles pour acheminer le trafic des sous-réseaux vers des destinations en dehors d'un VCN, généralement via des passerelles.

  • Liste de sécurité

    Pour chaque sous-réseau, vous pouvez créer des règles de sécurité qui indiquent la source, la destination et le type de trafic qui doivent être autorisés à entrer et à sortir du sous-réseau.

  • Object storage

    Le stockage d'objets permet d'accéder rapidement à de grandes quantités de données, structurées ou non, de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu riche tel que des images et des vidéos. Vous pouvez stocker les données, puis les extraire directement à partir d'Internet ou de la plate-forme cloud, et ce, en toute sécurité. Vous pouvez redimensionner le stockage sans dégradation des performances ni de la fiabilité des services. Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.

  • Oracle Services Network

    Oracle Services Network (OSN) est un réseau conceptuel d'Oracle Cloud Infrastructure réservé aux services Oracle. Ces services possèdent des adresses IP publiques auxquelles vous pouvez accéder par Internet. Les hôtes en dehors d'Oracle Cloud peuvent accéder à OSN en privé à l'aide d'Oracle Cloud Infrastructure FastConnect ou de VPN Connect. Les hôtes de vos réseaux cloud virtuels peuvent accéder à OSN en privé via une passerelle de service.

  • Intégration

    Oracle Integration est un service entièrement géré qui permet d'intégrer vos applications, d'automatiser les processus, de bénéficier d'informations sur vos processus métier et de créer des applications visuelles.

  • Analyse des documents

    Oracle Cloud Infrastructure Document Understanding est un service d'IA permettant d'effectuer des analyses de documents basées sur le deep learning à grande échelle. Avec des modèles prédéfinis disponibles prêts à l'emploi, les développeurs peuvent facilement intégrer le traitement intelligent des documents dans leurs applications sans expertise en machine learning (ML).

  • Analytics

    Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui permet aux analystes d'entreprise de bénéficier de fonctions d'analyse modernes en libre-service basées sur l'IA, à des fins de préparation des données, de visualisation, de reporting d'entreprise, d'analyse augmentée, ainsi que de traitement et de génération du langage naturel. Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion des services flexibles, notamment une configuration rapide, une mise à l'échelle et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.

  • Service APEX

    Oracle APEX est une plate-forme de développement low-code qui vous permet de construire des applications d'entreprise évolutives, riches en fonctionnalités, sécurisées et pouvant être déployées partout où Oracle Database est installé. Vous n'avez pas besoin d'être un expert dans une vaste gamme de technologies pour fournir des solutions sophistiquées. Oracle APEX inclut des fonctionnalités intégrées telles que des thèmes d'interface utilisateur, des contrôles de navigation, des gestionnaires de panneaux et des rapports flexibles qui accélèrent le processus de développement d'application.

  • Autonomous Transaction Processing

    Oracle Autonomous Transaction Processing est un service de base de données à pilotage, sécurité et réparation automatiques optimisé pour les charges de travail de traitement des transactions. Vous n'avez pas à configurer ni à gérer le matériel, ni à installer de logiciel. Oracle Cloud Infrastructure gère la création, la sauvegarde, la mise à niveau et le réglage de la base de données, ainsi que l'application de patches à la base de données.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) est le plan de contrôle d'accès pour Oracle Cloud Infrastructure (OCI) et Oracle Cloud Applications. L'API IAM et l'interface utilisateur vous permettent de gérer les domaines d'identité et les ressources au sein du domaine d'identité. Chaque domaine d'identité OCI IAM représente une solution autonome de gestion des identités et des accès ou une population d'utilisateurs différente.

  • Logging
    Logging est un service hautement évolutif et entièrement géré qui permet d'accéder aux types de journal suivants à partir des ressources du cloud :
    • Journaux d'audit : journaux liés aux événements émis par le service Audit.
    • Journaux de service : journaux émis par des services individuels tels qu'API Gateway, Events, Functions, Load Balancing, Object Storage et les journaux de flux VCN.
    • Journaux personnalisés : journaux contenant des informations de diagnostic issues d'applications personnalisées, d'autres fournisseurs de cloud ou d'un environnement sur site.
  • Audit

    Le service Oracle Cloud Infrastructure Audit enregistre automatiquement les appels vers toutes les adresses d'API publique Oracle Cloud Infrastructure prises en charge en tant qu'événements de journal. Actuellement, tous les services prennent en charge la journalisation par Oracle Cloud Infrastructure Audit.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour implémenter le traitement intelligent des documents avec Oracle Integration Cloud Service. Vos exigences peuvent différer de l'architecture décrite ici.
  • Limitation de l'accès à une instance Oracle Integration Cloud Service

    Limitez les réseaux qui ont accès à votre instance Oracle Integration Cloud Service en configurant une liste d'autorisation (anciennement une liste blanche). Seuls les utilisateurs des adresses IP spécifiques, des blocs de routage interdomaine (CIDR) sans classe et des réseaux cloud virtuels que vous indiquez peuvent accéder à l'instance.

  • Connectivité

    Lorsque vous déployez des ressources vers OCI, vous pouvez commencer petit, avec une seule connexion à votre réseau sur site. Cette connexion unique peut se faire via FastConnect ou via le VPN IPSec. Pour planifier la redondance, tenez compte de tous les composants (périphériques matériels, installations, circuits et alimentation) entre votre réseau sur site et OCI. Pensez également à la diversité, pour vous assurer que les installations ne sont pas partagées entre les chemins.

  • Utilisation de l'agent de connectivité dans les environnements haute disponibilité

    Vous pouvez utiliser l'agent de connectivité dans des environnements haute disponibilité avec Oracle Integration Cloud Service en installant l'agent de connectivité deux fois sur des hôtes différents. Les agents de connectivité peuvent évoluer horizontalement, offrant ainsi tous les avantages de l'exécution de plusieurs agents pour un groupe d'agents. Cela permet d'améliorer les performances et d'étendre les avantages du basculement.

  • Utiliser des adresses privées

    Une adresse privée permet à vos intégrations de se connecter à des ressources privées dans votre réseau cloud virtuel (VCN). Tout le trafic passe par un canal privé configuré dans OCI. Vous pouvez configurer une adresse privée par instance. Elles permettent à votre instance Oracle Integration Cloud Service d'accéder à des ressources privées sans avoir à passer par un agent de connectivité.

Accusés de réception

  • Auteurs : Nolan Trouvé, Jerry Mbamo
  • Contributeur : Daryl Eicher