Note :

Analyser des documents PDF en langage naturel à l'aide du service d'intelligence artificielle générative pour OCI

Présentation

Oracle Cloud Infrastructure Generative AI (OCI Generative AI) est une solution d'intelligence artificielle générative avancée qui permet aux entreprises et aux développeurs de créer des applications intelligentes à l'aide de modèles de langage de pointe. Basée sur des technologies puissantes telles que les grands modèles de langage (LLM), cette solution permet l'automatisation de tâches complexes, rendant les processus plus rapides, plus efficaces et accessibles grâce à des interactions en langage naturel.

L'une des applications les plus efficaces de l'IA générative d'OCI est l'analyse de documents PDF. Les entreprises traitent fréquemment de grands volumes de documents, tels que des contrats, des rapports financiers, des manuels techniques et des documents de recherche. La recherche manuelle d'informations dans ces fichiers peut prendre beaucoup de temps et être sujette à des erreurs.

Avec l'utilisation de l'intelligence artificielle générative, il est possible d'extraire des informations instantanément et avec précision, permettant aux utilisateurs d'interroger des documents complexes simplement en formulant des questions en langage naturel. Cela signifie qu'au lieu de lire des pages entières pour trouver une clause spécifique dans un contrat ou un point de données pertinent dans un rapport, les utilisateurs peuvent simplement demander le modèle, ce qui renvoie rapidement la réponse en fonction du contenu analysé.

Au-delà de l'extraction d'informations, OCI Generative AI peut également être utilisé pour résumer de longs documents, comparer du contenu, classer des informations et même générer des informations stratégiques. Ces capacités rendent la technologie essentielle dans divers domaines, tels que le droit, la finance, les soins de santé et l'ingénierie, optimisant la prise de décision et augmentant la productivité.

En intégrant cette technologie à des outils tels que les services Oracle AI, OCI Data Science et les API pour le traitement des documents, les entreprises peuvent créer des solutions intelligentes qui transforment complètement la façon dont elles interagissent avec leurs données, rendant la récupération des informations plus rapide et plus efficace.

Conditions requises

Tâche 1 : Installer les ensembles Python

Le code Python nécessite certaines bibliothèques pour utiliser le service d'intelligence artificielle générative pour OCI. Exécutez la commande suivante pour installer les ensembles Python requis.

pip install -r requirements.txt

Tâche 2 : Comprendre le code Python

Il s'agit d'une démonstration de l'IA générative d'OCI pour interroger les fonctionnalités d'Oracle SOA Suite et d'Oracle Integration. Les deux outils sont actuellement utilisés pour des stratégies d'intégration hybride, ce qui signifie qu'ils fonctionnent à la fois dans des environnements en nuage et sur place.

Étant donné que ces outils partagent des fonctionnalités et des processus, ce code aide à comprendre comment mettre en œuvre la même approche d'intégration dans chaque outil. En outre, il permet aux utilisateurs d'explorer des caractéristiques et des différences communes.

Téléchargez le code Python à partir d'ici :

Vous pouvez trouver les documents PDF ici :

Créez un dossier nommé Manuals et déplacez-y ces PDF.

Maintenant, vous pouvez choisir 3 options pour traiter les documents. Vous pouvez penser :

Vous disposez donc des options suivantes :

Fragmentation à taille fixe : Il s'agit d'une solution plus rapide pour traiter vos documents. Il peut suffire d'obtenir ce que vous voulez.

Fragmentation sémantique : Ce processus sera plus lent que la fragmentation de taille fixe, mais il offrira une fragmentation de qualité supérieure.

Groupe sémantique avec GraphRAG : Il fournira une méthode plus précise car il organisera les textes de fragmentation et les graphiques de connaissances.

Fragmentation à taille fixe

Téléchargez le code à partir d'ici : oci_genai_llm_context_fast.py.

Fragmentation sémantique

Téléchargez le code à partir d'ici : oci_genai_llm_context.py.

Segmentation sémantique avec GraphRAG

Téléchargez le code à partir d'ici : oci_genai_llm_graphrag.py.

GraphRAG (Graph-Augmented Retrieval-Augmented Generation) est une architecture d'IA avancée qui combine l'extraction vectorielle traditionnelle aux graphiques de connaissances structurées. Dans un pipeline RAG standard, un modèle de langage extrait des fragments de document pertinents à l'aide de la similarité sémantique à partir d'une base de données vectorielle (comme FAISS). Cependant, l'extraction vectorielle fonctionne de manière non structurée, en s'appuyant uniquement sur des intégrations et des métriques de distance, qui manquent parfois des significations contextuelles ou relationnelles plus profondes.

GraphRAG améliore ce processus en introduisant une couche de graphique de connaissances, où les entités, les concepts, les composants et leurs relations sont explicitement représentés en tant que noeuds et arêtes. Ce context basé sur un graphique permet au modèle de langage de raisonner sur les relations, les hiérarchies et les dépendances que la similarité vectorielle seule ne peut pas capturer.

Note :

Neo4j Utilisation :

Cette mise en oeuvre utilise Neo4j comme base de données de graphiques de connaissances intégrée à des fins de démonstration et de prototypage. Bien que Neo4j soit une base de données graphique puissante et flexible adaptée aux charges de travail de développement, de test et de petite à moyenne taille, elle peut ne pas répondre aux exigences de charges de travail d'entreprise, essentielles à la mission ou hautement sécurisées, en particulier dans les environnements nécessitant une haute disponibilité, une évolutivité et une conformité de sécurité avancée.

Pour les environnements de production et les scénarios d'entreprise, nous recommandons d'utiliser Oracle Database avec les fonctions de graphique, qui offrent :

En utilisant Oracle Database pour les charges de travail graphiques, les organisations peuvent unifier les données structurées, semi-structurées et graphiques au sein d'une plateforme d'entreprise unique, sécurisée et évolutive.

Tâche 3 : Exécuter l'interrogation pour Oracle Integration et Oracle SOA Suite Contents

Exécutez la commande suivante .

FOR FIXED CHUNKING TECHNIQUE (MORE FASTER METHOD)
python oci_genai_llm_context_fast.py --device="mps" --gpu_name="M2Max GPU 32 Cores"
FOR SEMANTIC CHUNKING TECHNIQUE
python oci_genai_llm_context.py --device="mps" --gpu_name="M2Max GPU 32 Cores"
FOR SEMANTIC CHUNKING COMBINED WITH GRAPHRAG TECHNIQUE
python oci_genai_llm_graphrag.py --device="mps" --gpu_name="M2Max GPU 32 Cores"

Note : Les paramètres --device et --gpu_name peuvent être utilisés pour accélérer le traitement en Python, à l'aide du processeur graphique si votre machine en a un. Considérez que ce code peut également être utilisé avec des modèles locaux.

Le contexte fourni distingue Oracle SOA Suite et Oracle Integration. Vous pouvez tester le code en tenant compte des points suivants :

Nous pouvons définir le contexte suivant, ce qui aide grandement à interpréter correctement les documents.

img_7.png

L'illustration suivante présente un exemple de comparaison entre Oracle SOA Suite et Oracle Integration.

img.png

Étapes suivantes

Ce code présente une application de l'IA générative d'OCI pour l'analyse PDF intelligente. Il permet aux utilisateurs d'interroger efficacement de grands volumes de documents à l'aide de recherches sémantiques et d'un modèle d'IA générative pour générer des réponses précises en langage naturel.

Cette approche peut être appliquée dans divers domaines, tels que le droit, la conformité, le soutien technique et la recherche universitaire, ce qui rend la récupération de l'information beaucoup plus rapide et plus intelligente.

Remerciements

Ressources d'apprentissage supplémentaires

Explorez d'autres laboratoires sur le site docs.oracle.com/learn ou accédez à plus de contenu d'apprentissage gratuit sur le canal Oracle Learning YouTube. De plus, visitez education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir la documentation sur le produit, visitez Oracle Help Center.