Note :
- Ce tutoriel nécessite l'accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, voir Démarrer avec le niveau gratuit d'Oracle Cloud Infrastructure.
- Il utilise des exemples de valeurs pour les données d'identification, la location et les compartiments d'Oracle Cloud Infrastructure. À la fin de votre laboratoire, remplacez ces valeurs par celles qui sont propres à votre environnement en nuage.
Créer une application Web de reconnaissance optique de caractères lama à l'aide du service d'intelligence artificielle générative pour OCI
Présentation
Si vous êtes un développeur, un architecte cloud ou un passionné d'IA qui a aimé Llama Optical Character Recognition (OCR), ce tutoriel est fait pour vous. Dans ce tutoriel, vous allez créer une application Web Llama OCR simple qui :
-
Utilise la vision des grands modèles de langage (LLM) du service d'intelligence artificielle générative d'Oracle Cloud Infrastructure (OCI) pour les métadonnées.
-
Extrait du texte structuré à partir d'images (comme des reçus, des formulaires numérisés).
-
Fonctionne localement sur votre machine avec Streamlit.
-
Ne nécessite aucun codage frontal.
Objectifs
Nous allons construire une interface utilisateur Web (UI) qui vous permet de :
-
Chargez une image (réception, facture, capture d'écran) dans l'application.
-
Obtenir la sortie Markdown extraite de l'image à l'aide du LLM.
-
Affichez et copiez le texte structuré.
Conditions requises
-
Configurez l'interface de ligne de commande Oracle Cloud Infrastructure (interface de ligne de commande OCI) (
~/.oci/config
). -
Accès à un service d'intelligence artificielle générative pour OCI dans les régions.
Régions avec OCI Generative AI
Nom de la région Emplacement Identificateur de la région Clé de la région Brésil - Est (Sao Paulo) São Paulo sa-saopaulo-1 GRU Allemagne - Centre (Francfort) Francfort eu-frankfurt-1 FRA Japon - Centre (Osaka) Osaka ap-osaka-1 KIX Émirats arabes unis - Est (Dubaï) Dubaï me-dubai-1 DXB Royaume-Uni - Sud (Londres) Londres uk-london-1 LHR États-Unis - Midwest (Chicago) Chicago us-chicago-1 ORD -
Déployez un modèle doté d'une vision (par exemple,
meta.llama-3.2-90b-vision-instruct
,llama 4
). -
Installez Python
version 3.8
ou une version ultérieure et les ensembles Python requis.
Tâche 1 : Télécharger le code Python et configurer le fichier de configuration
-
Téléchargez le code à partir d'ici :
llama-ocr-oci.py
-
Assurez-vous que le profil de configuration correct est configuré dans le fichier
~/.oci/config
avec un nom pour celui-ci. Par exemple,OCI_PROFILE
.
Tâche 2 : Configurer un environnement virtuel
La création d'un environnement virtuel aide à isoler les dépendances et garantit que votre application OCR Streamlit n'interfère pas avec d'autres projets Python sur votre système.
-
Windows : Exécutez les commandes suivantes.
-
Ouvrez l'invite de commande (
cmd
) ou PowerShell et naviguez jusqu'à votre dossier de projet.cd path\\to\\your\\project
-
Créez un environnement virtuel.
python -m venv venv
-
Activez l'environnement virtuel.
venv\\Scripts\\activate
-
Installez les dépendances.
pip install streamlit oci
-
-
macOS/Linux : Exécutez la commande suivante.
-
Ouvrez Terminal et accédez au répertoire de votre projet.
cd ~/path/to/your/project
-
Créez un environnement virtuel.
python3 -m venv venv
-
Activez l'environnement virtuel.
source venv/bin/activate
-
Installez les dépendances.
pip install streamlit oci
-
Tâche 3 : Lancer l'application
Exécutez la commande suivante pour lancer l'application.
streamlit run ocr_vision_app.py
Vous devriez voir le lancement de l'application dans votre navigateur.
Tâche 4 : Charger une image et extraire le texte
-
Dans Sélectionner un profil de configuration OCI, sélectionnez votre profil de configuration dans le menu déroulant.
-
Dans Entrer l'OCID du compartiment, entrez l'identificateur Oracle Cloud (OCID) du compartiment auquel vous avez accès au service d'intelligence artificielle générative pour OCI.
-
Dans Sélectionner un modèle de visualisation, sélectionnez un modèle.
-
Cliquez sur Charger et sélectionnez une image (réception, facture, capture d'écran).
L'application traitera l'image et affichera le texte extrait.
Liens connexes
Remerciements
- Auteurs - Mukund Murali (architecte en nuage principal)
Ressources d'apprentissage supplémentaires
Explorez d'autres laboratoires sur le site docs.oracle.com/learn ou accédez à plus de contenu d'apprentissage gratuit sur le canal Oracle Learning YouTube. De plus, visitez education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir la documentation sur le produit, visitez Oracle Help Center.
Build Llama Optical Character Recognition Web Application using OCI Generative AI
G36160-01
Copyright ©2025, Oracle and/or its affiliates.