Automatisez les images de facture avec OCI Vision et OCI Generative AI

Introduction

Les entreprises reçoivent souvent des milliers de factures dans des formats non structurés sous forme d'images numérisées ou de PDF provenant de fournisseurs et de fournisseurs de services. L'extraction manuelle de données à partir de ces factures, telles que le numéro de facture, le nom du client, les articles achetés et le montant total, est un processus chronophage et sujet aux erreurs.

Ces retards de traitement affectent non seulement les cycles de comptabilité fournisseurs et la visibilité du flux de trésorerie, mais introduisent également des goulets d'étranglement en matière de conformité, d'audit et de reporting.

Ce tutoriel explique comment implémenter un pipeline automatisé qui surveille un bucket dans Oracle Cloud Infrastructure (OCI) pour les images de facture entrantes, extrait le contenu textuel à l'aide d'OCI Vision, puis applique OCI Generative AI (LLM) pour extraire des données fiscales structurées telles que le numéro de facture, le client et la liste d'articles.

Les services OCI utilisés dans ce tutoriel sont les suivants :

Service Description
OCI Vision Effectue un registre OCR sur les images de facture chargées.
OCI Generative AI Extrait les données JSON structurées à partir du texte OCR brut à l'aide d'invites ponctuelles.
OCI Object Storage Stocke les images de facture d'entrée et les résultats JSON de sortie.

Objectifs

Prérequis

Tâche 1 : configurer des packages Python

  1. Exécutez le fichier requirements.txt en utilisant la commande suivante.

    pip install -r requirements.txt
    
  2. Exécutez le script Python (main.py).

  3. Téléchargez des images de facture (par exemple, .png, .jpg) vers le bucket d'entrée.

  4. Attendez que l'image soit traitée et que le fichier JSON extrait soit enregistré dans le bucket de sortie.

Tâche 2 : comprendre le code

Tâche 3 : exécuter le code.

Exécutez le code en utilisant la commande suivante.

python main.py

Tâche 4 : Suggestions de test

  1. Utilisez des factures réelles ou fictives avec des lignes de produits et un nom de client lisibles.

  2. Chargez plusieurs images dans le bucket d'entrée en séquence pour voir le traitement automatisé.

  3. Connectez-vous à la console OCI, accédez à Object Storage pour vérifier les résultats dans les deux buckets.

Remarque : Dans ce tutoriel, l'exemple utilisé est une facture brésilienne pour illustrer la complexité des attributs et de la disposition, ainsi que la façon dont l'invite a été créée pour résoudre ce cas.

Facture

Tâche 5 : afficher la sortie attendue

Pour chaque image de facture chargée, examinez le fichier de bucket de sortie traité. Un fichier .json correspondant est généré avec un contenu structuré, comme indiqué dans l'image suivante.

img.png

Remarque :

Accusés de réception

Ressources de formation supplémentaires

Explorez d'autres ateliers sur le site docs.oracle.com/learn ou accédez à d'autres contenus d'apprentissage gratuits sur le canal Oracle Learning YouTube. En outre, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir de la documentation sur le produit, consultez Oracle Help Center.