Remarques :

Analysez des documents PDF en langage naturel avec OCI Generative AI

Introduction

Oracle Cloud Infrastructure Generative AI (OCI Generative AI) est une solution d'intelligence artificielle générative avancée qui permet aux entreprises et aux développeurs de créer des applications intelligentes à l'aide de modèles de langage de pointe. Basée sur des technologies puissantes telles que les grands modèles de langage (LLM), cette solution permet l'automatisation de tâches complexes, rendant les processus plus rapides, plus efficaces et accessibles grâce aux interactions en langage naturel.

L'une des applications les plus percutantes d'OCI Generative AI est l'analyse de documents PDF. Les entreprises traitent fréquemment d'importants volumes de documents, tels que les contrats, les rapports financiers, les manuels techniques et les documents de recherche. La recherche manuelle d'informations dans ces fichiers peut prendre du temps et être sujette à des erreurs.

Avec l'utilisation de l'intelligence artificielle générative, il est possible d'extraire des informations instantanément et précisément, permettant aux utilisateurs d'interroger des documents complexes simplement en formulant des questions en langage naturel. Cela signifie qu'au lieu de lire des pages entières pour trouver une clause spécifique dans un contrat ou un point de données pertinent dans un rapport, les utilisateurs peuvent simplement demander au modèle, qui renvoie rapidement la réponse en fonction du contenu analysé.

Au-delà de la récupération d'informations, OCI Generative AI peut également être utilisé pour résumer de longs documents, comparer du contenu, classer des informations et même générer des informations stratégiques. Ces capacités rendent la technologie essentielle pour divers domaines, tels que le droit, la finance, les soins de santé et l'ingénierie, optimisant la prise de décision et augmentant la productivité.

En intégrant cette technologie à des outils tels que les services Oracle AI, OCI Data Science et les API de traitement des documents, les entreprises peuvent créer des solutions intelligentes qui transforment complètement leur façon d'interagir avec leurs données, ce qui rend la récupération des informations plus rapide et plus efficace.

Prérequis

Tâche 1 : installer des packages Python

Le code Python nécessite certaines bibliothèques pour l'utilisation d'OCI Generative AI. Exécutez la commande suivante pour installer les packages Python requis.

pip install -r requirements.txt

Tâche 2 : comprendre le code Python

Il s'agit d'une démonstration d'OCI Generative AI pour interroger les fonctionnalités d'Oracle SOA Suite et d'Oracle Integration. Les deux outils sont actuellement utilisés pour les stratégies d'intégration hybride, ce qui signifie qu'ils fonctionnent dans des environnements cloud et on-premise.

Puisque ces outils partagent des fonctionnalités et des processus, ce code aide à comprendre comment implémenter la même approche d'intégration dans chaque outil. En outre, il permet aux utilisateurs d'explorer les caractéristiques et les différences communes.

Téléchargez le code Python à partir d'ici :

Vous pouvez trouver les documents PDF ici :

Créez un dossier nommé Manuals et déplacez-y ces fichiers PDF.

Maintenant, vous pouvez choisir 3 options pour traiter les documents. Vous pouvez penser :

Vous disposez donc des options suivantes :

Répartition par blocs de taille fixe : alternative plus rapide au traitement de vos documents. Cela peut être suffisant pour obtenir ce que vous voulez.

Groupement sémantique : ce processus sera plus lent que le segmentage de taille fixe, mais il fournira plus de segmentation de qualité.

Groupement sémantique avec GraphRAG : il fournit une méthode plus précise car il organise les textes de segmentation et les graphiques de connaissances.

Découpage de taille fixe

Téléchargez le code à partir d'ici : oci_genai_llm_context_fast.py.

Chunking sémantique

Téléchargez le code à partir d'ici : oci_genai_llm_context.py.

Chunking sémantique avec GraphRAG

Téléchargez le code à partir d'ici : oci_genai_llm_graphrag.py.

GraphRAG (Graph-Augmented Retrieval-Augmented Generation) est une architecture d'IA avancée qui combine l'extraction vectorielle traditionnelle avec des graphiques de connaissances structurées. Dans un pipeline RAG standard, un modèle de langage extrait les morceaux de document pertinents à l'aide de la similarité sémantique à partir d'une base de données vectorielle (comme FAISS). Cependant, l'extraction vectorielle fonctionne de manière non structurée, en s'appuyant uniquement sur des incorporations et des mesures de distance, qui manquent parfois des significations contextuelles ou relationnelles plus profondes.

GraphRAG améliore ce processus en introduisant une couche de graphe de connaissances, dans laquelle les entités, les concepts, les composants et leurs relations sont explicitement représentés sous forme de noeuds et d'arêtes. Ce context basé sur des graphiques permet au modèle de langage de raisonner sur les relations, les hiérarchies et les dépendances que la similarité vectorielle ne peut pas capturer à elle seule.

Remarque :

Neo4j Utilisation :

Cette implémentation utilise Neo4j en tant que base de données de graphe de connaissances intégrée à des fins de démonstration et de prototypage. Bien que Neo4j soit une base de données orientée graphe puissante et flexible adaptée au développement, aux tests et aux charges de travail de petite à moyenne taille, elle peut ne pas répondre aux exigences des charges de travail d'entreprise, critiques ou hautement sécurisées, en particulier dans les environnements qui exigent une haute disponibilité, une évolutivité et une conformité de sécurité avancée.

Pour les environnements de production et les scénarios d'entreprise, nous vous recommandons d'utiliser Oracle Database avec des fonctionnalités de graphique, qui offre :

En utilisant Oracle Database pour les charges de travail basées sur des graphes, les entreprises peuvent unifier des données structurées, semi-structurées et graphiques au sein d'une plate-forme d'entreprise unique, sécurisée et évolutive.

Tâche 3 : exécuter une requête pour le contenu d'Oracle Integration et d'Oracle SOA Suite

Exécutez la commande suivante .

FOR FIXED CHUNKING TECHNIQUE (MORE FASTER METHOD)
python oci_genai_llm_context_fast.py --device="mps" --gpu_name="M2Max GPU 32 Cores"
FOR SEMANTIC CHUNKING TECHNIQUE
python oci_genai_llm_context.py --device="mps" --gpu_name="M2Max GPU 32 Cores"
FOR SEMANTIC CHUNKING COMBINED WITH GRAPHRAG TECHNIQUE
python oci_genai_llm_graphrag.py --device="mps" --gpu_name="M2Max GPU 32 Cores"

Remarque : les paramètres --device et --gpu_name peuvent être utilisés pour accélérer le traitement en Python, à l'aide du GPU si votre machine en a un. Considérez que ce code peut également être utilisé avec des modèles locaux.

Le contexte fourni distingue Oracle SOA Suite et Oracle Integration. Vous pouvez tester le code en tenant compte des points suivants :

Nous pouvons définir le contexte suivant, ce qui aide grandement à interpréter correctement les documents.

img_7.png

L'exemple suivant illustre la comparaison entre Oracle SOA Suite et Oracle Integration.

img.png

Etapes suivantes

Ce code présente une application d'OCI Generative AI pour l'analyse PDF intelligente. Il permet aux utilisateurs d'interroger efficacement de grands volumes de documents à l'aide de recherches sémantiques et d'un modèle d'IA générative pour générer des réponses précises en langage naturel.

Cette approche peut être appliquée dans divers domaines, tels que le droit, la conformité, le support technique et la recherche universitaire, ce qui rend la recherche d'informations beaucoup plus rapide et plus intelligente.

Accusés de réception

Ressources de formation supplémentaires

Explorez d'autres ateliers sur le site docs.oracle.com/learn ou accédez à d'autres contenus d'apprentissage gratuits sur le canal Oracle Learning YouTube. En outre, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir de la documentation sur le produit, consultez Oracle Help Center.