Automatiser le cycle de vie du document

Dans tous les secteurs, les entreprises sont surchargées de PDF, d'analyses et de dossiers non structurés, tels que les contrats, les factures, les formulaires médicaux et les réclamations. Extraire de la valeur de ces documents est souvent manuel, lent et coûteux. Cette architecture de référence montre comment appliquer les services Oracle Cloud Infrastructure Generative AI pour automatiser le cycle de vie du document.

L'IA améliore le cycle de vie avec :

  • Intelligence post-archivage
  • Numérisation
  • Analyse transactionnelle

La variété des pipelines possibles comprend :

  • Le service de compréhension de documents (DU) plus le LLM de texte pour le registre OCR et le raisonnement évolutifs
  • LLM multimodal pour les dispositions visuelles/complexes
  • Mode de comparaison/consensus pour une assurance plus élevée

Cette conception est générique dans tous les secteurs, avec des points saillants pour les soins de santé et les services financiers.

Architecture

Cette architecture illustre le flux logique du traitement des documents, de l'ingestion et du stockage à l'extraction et à l'intégration en aval. Elle montre comment plusieurs composants Oracle Cloud Infrastructure (OCI), notamment le service de compréhension de documents pour OCI et les services OCI Generative AI (LMM de texte et de vision), fonctionnent ensemble dans une orchestration unifiée.

Le diagramme suivant illustre le flux logique.



Les composants conceptuels présentés dans le flux logique sont les suivants :

  • Stockage de données distant
    • Représente la source initiale des documents, qui peut être un référentiel externe, un système de fichiers d'entreprise ou un stockage partagé tel qu'un lecteur réseau, un DMS ou des seaux en nuage.
    • Les documents peuvent être extraits périodiquement ou lors du déclenchement pour traitement.
  • Interface utilisateur d'entrée
    • Point d'entrée simple destiné aux utilisateurs pour le chargement ou la soumission de documents.
    • Il peut s'agir d'un formulaire Web, d'un portail interne ou d'une application frontale créée à l'aide d'Oracle Digital Assistant ou d'outils similaires.
  • Chatbot (facultatif)
    • Fournit un accès conversationnel au pipeline.
    • Permet aux utilisateurs de charger ou d'interroger des documents au moyen du langage naturel (par exemple, "Afficher toutes les factures de plus de 50 $ K").
    • Achemine vers la même couche d'ingestion que l'interface utilisateur d'entrée.
  • Intégrations
    • Agit en tant que couche d'orchestration et de routage.
    • Responsable du déclenchement du pipeline approprié en fonction du type de document ou de la logique applicative. Par exemple, OCI Document Understanding plus un LLM pour les documents structurés, un LLM pour la vision pour les entrées image lourde.
    • Traite la récupération des erreurs, les nouvelles tentatives, la gestion des métadonnées et les appels d'API en aval vers les plates-formes ERP, CRM ou de données.
  • Stockage des données
    • Stocke les données brutes et traitées.
    • Généralement mis en oeuvre à l'aide du service Stockage d'objets OCI pour les binaires et d'Oracle Autonomous AI Database pour les sorties JSON structurées et les journaux de vérification.
    • Permet la traçabilité, le retraitement et l'analyse tout au long du cycle de vie du document.
  • Reconnaissance optique de caractères
    • Effectue la reconnaissance optique de caractères, la détection de disposition et l'extraction de paires clé-valeur, de tableaux et de texte libre.
    • Produit du texte propre qui sert d'entrée pour le raisonnement LLM basé sur le texte.
    • Le service de compréhension de documents pour OCI est déterministe et basé sur un schéma, ce qui garantit une qualité d'extraction prévisible.
  • LLM textuel (Cohere Command-A)
    • Consomme la sortie OCI Document Understanding et applique le raisonnement, la normalisation et le formatage.
    • Traite la récapitulation, la classification et l'extraction contextuelle qui vont au-delà du schéma fixe du service de compréhension de documents pour OCI.
    • Peut nettoyer les sorties bruyantes du registre OCR, unifier l'attribution de nom aux champs et déduire les valeurs manquantes en fonction du contexte.
  • LLM multimodal (Llama 4 Maverick)
    • Traite le contenu visuel et les dispositions complexes que le service de compréhension de documents pour OCI et les modèles textuels ne peuvent pas interpréter complètement.
    • Gère les graphiques, l'écriture manuscrite, les timbres, les tableaux intégrés en tant qu'images et la continuité de plusieurs pages.
    • Dans les flux combinés, sa sortie est rapprochée des résultats du service de compréhension de documents pour OCI et du LLM textuel afin d'améliorer l'exhaustivité et l'exactitude.
  • Logique d'intégration et de chargement de données
    • Convertit le texte et les images extraits en plongements vectoriels pour la recherche sémantique et l'extraction de documents.
    • Prend en charge les flux de travail de RAG en aval, ce qui permet aux LLM d'envoyer des réponses basées sur des données factuelles propres aux documents.
    • Peut être mis en oeuvre à l'aide des fonctions OCI ou de pipelines d'ETC personnalisés.
  • Magasin de vecteurs
    • Stocke les plongements pour le texte et les images.
    • Permet d'extraire rapidement du contenu contextuellement similaire et prend en charge les FAQ génératives sur les jeux de documents d'entreprise.
    • Les mises en oeuvre communes incluent Qdrant, AI Vector Search dans Autonomous AI Database ou d'autres magasins compatibles avec OCI.

Il s'agit du flux de bout en bout représenté dans le diagramme de flux logique :

  1. Ingestion de document
    • Les documents sont chargés au moyen de l'interface utilisateur d'entrée ou extraits du stockage de données distant.
    • La couche Integration consigne les métadonnées, valide les formats de fichier et déclenche le pipeline de traitement correspondant.
    • Les soumissions d'agent conversationnel utilisent les mêmes routes d'API que les chargements manuels.
  2. Stockage et préparation
    • Les fichiers sont conservés dans le stockage d'objets OCI.
    • Les métadonnées et les entrées de statut sont écrites dans Oracle Autonomous AI Database à des fins de vérification et de contrôle.
    • Un déclencheur de flux de travail (à l'aide du service des fonctions OCI ou d'Oracle Integration) lance la séquence OCR/LLM.
  3. Extraction et enrichissement des données
    • Le service de compréhension de documents pour OCI effectue une analyse ROC et de disposition, retournant du texte structuré.
    • Le LLM textuel (par exemple, Command-A) interprète ce texte, le nettoie et produit des sorties normalisées (JSON ou Markdown).
    • Lorsque le document contient des éléments visuels complexes, un texte et une image comprenant l'IA telle que Llama 4 Maverick analyse les images pour enrichir ou valider les résultats d'extraction.
    • Les deux sorties peuvent être comparées ou fusionnées au moyen d'une logique d'orchestration (rapprochement basé sur la confiance).
  4. Intégration et chargement des connaissances
    • Les données finales structurées et contextualisées passent par une étape d'intégration, transformant du texte ou des informations visuelles en vecteurs.
    • Le composant Logique d'intégration et de chargement de données stocke ces vecteurs dans un magasin de vecteurs, en terminant l'étape d'intégration RAG.
    • Les applications en aval telles que les tableaux de bord d'analyse, les portails de recherche ou les agents conversationnels GenAI peuvent désormais accéder aux données traitées pour l'extraction sémantique et la réponse aux questions.

Facultativement, vous pouvez ajouter une étape human-in-the-loop (HITL) entre les étapes 3 et 4.

  • À ce stade, un HITL peut être intégré dans le flux sur la base d'une variété de critères, y compris la confiance dans les réponses, des vérifications supplémentaires pour le type de données, le format, etc. Cela peut inviter un utilisateur à approuver ou à modifier les résultats au besoin.
  • Dans n'importe quelle voie choisie, un HITL peut être ajouté pour fournir une couche supplémentaire d'apprentissage continu permettant à la solution de s'adapter et de croître avec l'utilisation et d'améliorer l'efficacité.
  • Déclencher le chargement HITL activé : niveau de confiance faible, violations de schéma, échec des rapprochements, champs fournisseur/disposition invisibles ou champs critiques pour l'organisme de réglementation.
  • Envisagez d'utiliser une "règle de graduation" : c'est-à-dire de supprimer HITL après N passes nettoyées consécutives pour un fournisseur/disposition donné.
  • Persister les corrections; affineurs et validateurs d'invite d'alimentation; suivre les empreintes digitales des fournisseurs/dispositions.

Le diagramme suivant présente un exemple d'implémentation :



L'architecture comporte les composants suivants :

  • Région OCI

    Une région OCI est une zone géographique localisée qui contient un ou plusieurs centres de données, des domaines de disponibilité d'hébergement. Les régions sont indépendantes les unes des autres, et de grandes distances peuvent les séparer (à travers les pays ou même les continents).

  • Compartiment

    Les compartiments sont des partitions logiques interrégionales dans une location OCI. Utilisez des compartiments pour organiser, contrôler l'accès et définir des quotas d'utilisation pour vos ressources Oracle Cloud. Dans un compartiment donné, vous définissez des politiques qui contrôlent l'accès et définissent des privilèges pour les ressources.

  • Domaine de disponibilité

    Les domaines de disponibilité sont des centres de données indépendants et autonomes dans une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui garantit la tolérance aux pannes. Les domaines de disponibilité ne partagent pas les éléments d'infrastructure (alimentation ou refroidissement, par exemple) ni le réseau de domaines de disponibilité interne. Ainsi, une défaillance d'un domaine de disponibilité ne doit pas avoir d'incidence sur les autres domaines de disponibilité de la région.

  • Domaine d'erreur

    Un domaine d'erreur est un regroupement de matériel et d'infrastructure au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines d'erreur dotés d'une alimentation électrique et d'un matériel indépendants. Lorsque vous répartissez des ressources sur plusieurs domaines d'erreur, vos applications peuvent tolérer la défaillance physique de serveur, la maintenance du système et les pannes de courant dans un domaine d'erreur.

  • Réseau en nuage virtuel et sous-réseau OCI

    Un réseau en nuage virtuel (VCN) est un réseau défini par logiciel personnalisable, configuré dans une région OCI. Comme les réseaux de centre de données traditionnels, les réseaux en nuage virtuels vous permettent de contrôler votre environnement de réseau. Un VCN peut disposer de plusieurs blocs de routage inter-domaine (CIDR) sans chevauchement que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, dont la portée peut concerner une région ou un domaine de disponibilité. Un sous-réseau est constitué d'un intervalle contigu d'adresses qui ne chevauchent pas les autres sous-réseaux dans le réseau en nuage virtuel. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Passerelle de routage dynamique (DRG)

    La passerelle DRG est un routeur virtuel qui fournit un chemin pour le trafic réseau privé entre des réseaux en nuage virtuels de la même région, entre un VCN et un réseau en dehors de la région, tel qu'un VCN dans une autre région OCI, un réseau sur place ou un réseau dans un autre fournisseur de nuage.

  • Passerelle de service

    Une passerelle de service fournit un accès à partir d'un VCN à d'autres services, tels que Oracle Cloud Infrastructure Object Storage. Le trafic entre le réseau VCN et le service Oracle circule sur la structure réseau Oracle et ne passe pas par Internet.

  • Oracle Services Network

    Oracle Services Network (OSN) est un réseau conceptuel sur OCI qui est réservé aux services Oracle. Ces services ont des adresses IP publiques accessibles sur Internet. Les hôtes en dehors d'Oracle Cloud peuvent accéder à OSN en privé à l'aide d'Oracle Cloud Infrastructure FastConnect ou d'une connexion RPV. Les hôtes de vos réseaux en nuage virtuels peuvent accéder à OSN en privé au moyen d'une passerelle de service.

  • Oracle Autonomous AI Database

    Oracle Autonomous AI Database fournit une base de données entièrement autonome et facile à utiliser qui s'adapte de manière élastique et offre une performance des interrogations rapide. En tant que service, il ne nécessite pas d'administration de base de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer de logiciel. Il gère automatiquement le provisionnement, la sauvegarde, l'application de correctifs et la mise à niveau, ainsi que l'augmentation ou la réduction de la base de données et s'agit d'un service élastique. Développez des applications évolutives alimentées par l'intelligence artificielle avec toutes les données à l'aide des capacités d'IA intégrées. Utilisez le grand modèle de langage (LLM) de votre choix et déployez-le dans le nuage ou dans votre centre de données.

  • Oracle AI Database 26ai

    Oracle AI Database 26ai avec la recherche vectorielle d'IA vous permet d'interroger les données par signification plutôt que par mots clés. Les représentations vectorielles (embeddings) capturent la sémantique du texte, des images, de l'audio, etc. afin que vous puissiez trouver un contenu similaire efficacement. Les fonctions de distance SQL intégrées permettent des recherches de similarité à l'aide de vecteurs. Vous pouvez combiner la similarité sémantique et d'autres critères de recherche avec de grands modèles de langage (RAG) pour obtenir des réponses plus précises et pertinentes.

  • Service de compréhension de documents pour OCI

    Le service de compréhension de documents pour Oracle Cloud Infrastructure est un service d'intelligence artificielle permettant d'effectuer une analyse approfondie des documents à grande échelle. Avec des modèles prédéfinis fournis, les développeurs peuvent facilement intégrer un traitement de documents intelligent dans leurs applications sans avoir recours à une expertise en apprentissage automatique.

  • Oracle Digital Assistant

    Oracle Digital Assistant is a platform that allows you to create and deploy digital assistants for your users. Avec Oracle Digital Assistant, vous pouvez créer des interfaces basées sur l'IA (ou agents conversationnels) pour les applications d'affaires au moyen d'interfaces de texte, de clavardage et vocales. Chaque assistant numérique possède une ou plusieurs compétences spécialisées pour aider les utilisateurs à effectuer une variété de tâches dans des conversations en langage naturel. Par exemple, un assistant numérique individuel peut avoir des compétences qui se concentrent sur des types de tâche spécifiques, tels que le suivi des stocks, la soumission de feuilles de temps et la création de rapports de frais.

  • Plate-forme Oracle de données d'IA

    La plate-forme de données Oracle AI est une plate-forme unifiée qui simplifie le catalogage, la préparation et l'analyse des données dans l'ensemble de votre parc de données. La solution regroupe les données, l'intelligence artificielle, les analyses et la gouvernance dans une expérience utilisateur cohérente qui vous permet de créer des applications sécurisées et évolutives alimentées par l'intelligence artificielle. La plate-forme de données Oracle AI unifie lac entrepôt avec intelligence artificielle autonome, Oracle Analytics Cloud, Stockage d'objets OCI, IA générative OCI et Fusion Data Intelligence.

    Au sein de cette plate-forme, l'atelier de plate-forme de données Oracle AI fournit un environnement de développement dédié qui vous permet de concevoir, d'orchestrer et de déployer des pipelines et des modèles de données, de définir des politiques RBAC et d'utiliser des technologies à source ouverte telles que Spark pour préparer, analyser et enrichir vos données.

  • Service d'intelligence artificielle générative pour OCI

    Oracle Cloud Infrastructure Generative AI est un service OCI entièrement géré qui fournit un jeu de grands modèles de langage (LLM) de pointe personnalisables qui couvrent un large éventail de cas d'utilisation pour la génération de texte, la récapitulation, la recherche sémantique, etc. Utilisez le terrain de jeu pour tester les modèles préentraînés prêts à l'emploi, ou créez et hébergez vos propres modèles personnalisés réglés avec précision à l'aide de vos données dans des grappes dédiées à l'IA.

  • Oracle Integration

    Oracle Integration est un environnement préconfiguré entièrement géré qui vous permet d'intégrer des applications en nuage et sur place, d'automatiser les processus d'affaires et de développer des applications visuelles. Il utilise un serveur de fichiers conforme à SFTP pour stocker et extraire des fichiers et vous permet d'échanger des documents avec des partenaires commerciaux d'affaires à l'aide d'un portefeuille de centaines d'adaptateurs et de recettes pour vous connecter à des applications Oracle et tierces.

  • Service de stockage d'objets pour OCI

    Le service de stockage d'objets pour OCI donne accès à de grandes quantités de données structurées et non structurées de tous types, notamment des sauvegardes de base de données, des données analytiques et du contenu enrichi, comme des images et des vidéos. Vous pouvez stocker des données en toute sécurité directement à partir d'applications ou de la plate-forme en nuage. Vous pouvez adapter le stockage sans que la performance ou la fiabilité des services soit affectée.

    Utilisez le stockage standard pour le stockage "à chaud" auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archives pour le stockage "à froid" que vous conservez pendant de longues périodes et auquel vous accédez rarement.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour mettre en oeuvre l'architecture. Vos besoins peuvent différer de l'architecture décrite ici.
  • VCN

    Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher aux sous-réseaux du VCN. Utilisez des blocs CIDR qui se trouvent dans l'espace d'adresses IP privées standard.

    Sélectionnez les blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données sur place ou un autre fournisseur de services infonuagiques) auquel vous avez l'intention de configurer des connexions privées.

    Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.

    Lorsque vous concevez les sous-réseaux, tenez compte du flux de trafic et des exigences de sécurité. Attachez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, ce qui peut servir de limite de sécurité.

  • Groupes de sécurité de réseau

    Vous pouvez utiliser des groupes de sécurité de réseau pour définir un jeu de règles de trafic entrant et sortant qui s'appliquent à des cartes vNIC spécifiques. Il est recommandé d'utiliser des groupes de sécurité de réseau plutôt que des listes de sécurité, car ces derniers vous permettent de séparer l'architecture de sous-réseau du VCN des exigences de sécurité de votre application.

  • Protection d'infrastructure en nuage

    Cloner et personnaliser les recettes par défaut fournies par Oracle pour créer des recettes de détecteur et de répondant personnalisées. Ces recettes vous permettent de spécifier le type de violation de la sécurité qui génère un avertissement et les actions autorisées. Par exemple, vous pouvez détecter les seaux de stockage d'objets OCI dont la visibilité est réglée à Public.

    Appliquez Oracle Cloud Guard au niveau de la location pour couvrir la portée la plus large et réduire le fardeau administratif lié à la maintenance de plusieurs configurations.

    Vous pouvez également utiliser la fonction Liste gérée pour appliquer certaines configurations aux détecteurs.

  • Zones de sécurité

    Pour les ressources nécessitant une sécurité maximale, Oracle recommande d'utiliser des zones de sécurité. Une zone de sécurité est un compartiment associé à une recette de politiques de sécurité définie par Oracle et basée sur les meilleures pratiques. Par exemple, les ressources d'une zone de sécurité ne doivent pas être accessibles par l'Internet public et doivent être chiffrées à l'aide de clés gérées par le client. Lorsque vous créez et mettez à jour des ressources dans une zone de sécurité, OCI valide les opérations par rapport aux politiques de la recette et empêche les opérations qui violent l'une des politiques.

Points à considérer

Tenez compte des mises en oeuvre suivantes de l'architecture pour les différentes étapes du cycle de vie du document :

Intelligence post-archivage :

  1. Ingérer par lots des PDF/images historiques dans le stockage d'objets OCI.
  2. OCI Document Understanding acheminé au LLM de texte (par défaut) pour la récapitulation, la classification et l'extraction d'entités.
    • Acheminez les sorties vers la révision HITL lorsque la confiance du modèle tombe en dessous d'un seuil défini (par exemple, la confiance faible pour l'extraction/la classification).
  3. LLM de vision facultatif pour les graphiques ou les indices visuels.
  4. Stockez les résultats structurés (base de données Autonomous AI Database/Parquet) acheminés vers les analyses et l'extraction.

Accélération de la numérisation :

  1. Balayages acheminés vers le registre OCR et la disposition du service de compréhension de documents pour OCI.
  2. Le GML de texte normalise les champs, applique la taxonomie et les métadonnées de marqueur.
  3. Comparaison facultative avec le LLM de vision pour les tables ou l'écriture manuscrite.
    • Acheminez les sorties vers la révision HITL lorsque la confiance du modèle tombe en dessous d'un seuil défini (par exemple, la confiance faible pour l'extraction/la classification).
  4. Conserver et indexer; activer la recherche et l'automatisation en aval.

Analyse transactionnelle (temps réel) :

  1. La nouvelle soumission atterrit dans le stockage d'objets OCI au moyen d'une API ou d'un portail.
  2. OCI Document Understanding acheminé à un LLM texte dans les SLO de latence; inclure les vérifications de fraude/anomalie et d'exhaustivité.
  3. Effectuez des vérifications croisées à l'aide d'Oracle Integration avec des approbations de point de contrôle ERP/OTM.
  4. HITL seulement sur les exceptions; le reste coule tout droit.

Considérez les différentes bases suivantes pour les approches qui peuvent être prises pour résoudre ces problèmes, et d'autres stratégies de pipeline à utiliser :

  • Valeur par défaut : Le service de compréhension de documents pour OCI envoie du texte au LLM (comme Command-A) pour le nettoyage et l'extraction.
  • Acheminement visuel : Maverick Llama 4 pour la confiance du service Compréhension de documents pour OCI à valeur visuelle élevée ou faible.
  • Comparaison/Consensus (facultatif) : Exécutez le service de compréhension de documents pour OCI avec un LLM et le service de visualisation pour OCI; rapprochez les conflits (règles de priorité et valideurs d'entreprise).
  • Politique de pages multiples/images multiples :
    • Jusqu'à 10 pages/images par appel Maverick pour préserver la continuité.
    • Utilisez une fenêtre glissante (1–10, 6–15, …) avec une invite récapitulative glissante pour réduire les jetons et conserver le contexte.
  • Traitement de la langue : Acheminement en fonction de la prévalence de la langue et de la prise en charge du service de compréhension de documents pour OCI. Petites langues minoritaires acheminées vers la route du service Vision OCI ou des secours textuels.

Informations complémentaires

Apprenez-en davantage sur l'automatisation du processus de document avec GenAI, OCI et commencez votre parcours en nuage avec Oracle.

Vérifiez ces ressources supplémentaires :

Remerciements

  • Auteur : Ali Ottoman
  • Contributeur : Joshua Stanley