Note :

Ce tutoriel nécessite l'accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, voir Démarrer avec le niveau gratuit d'Oracle Cloud Infrastructure.
Il utilise des exemples de valeurs pour les données d'identification, la location et les compartiments d'Oracle Cloud Infrastructure. À la fin de votre laboratoire, remplacez ces valeurs par celles qui sont propres à votre environnement en nuage.

Créer une application Web de reconnaissance optique de caractères lama à l'aide du service d'intelligence artificielle générative pour OCI

Présentation

Si vous êtes un développeur, un architecte cloud ou un passionné d'IA qui a aimé Llama Optical Character Recognition (OCR), ce tutoriel est fait pour vous. Dans ce tutoriel, vous allez créer une application Web Llama OCR simple qui :

Utilise la vision des grands modèles de langage (LLM) du service d'intelligence artificielle générative d'Oracle Cloud Infrastructure (OCI) pour les métadonnées.
Extrait du texte structuré à partir d'images (comme des reçus, des formulaires numérisés).
Fonctionne localement sur votre machine avec Streamlit.
Ne nécessite aucun codage frontal.

Objectifs

Nous allons construire une interface utilisateur Web (UI) qui vous permet de :

Chargez une image (réception, facture, capture d'écran) dans l'application.
Obtenir la sortie Markdown extraite de l'image à l'aide du LLM.
Affichez et copiez le texte structuré.

Conditions requises

Configurez l'interface de ligne de commande Oracle Cloud Infrastructure (interface de ligne de commande OCI) (~/.oci/config).

Accès à un service d'intelligence artificielle générative pour OCI dans les régions.

Régions avec OCI Generative AI

Nom de la région	Emplacement	Identificateur de la région	Clé de la région
Brésil - Est (Sao Paulo)	São Paulo	sa-saopaulo-1	GRU
Allemagne - Centre (Francfort)	Francfort	eu-frankfurt-1 FRA
Japon - Centre (Osaka)	Osaka	ap-osaka-1	KIX
Émirats arabes unis - Est (Dubaï)	Dubaï	me-dubai-1	DXB
Royaume-Uni - Sud (Londres)	Londres	uk-london-1	LHR
États-Unis - Midwest (Chicago)	Chicago	us-chicago-1	ORD

Déployez un modèle doté d'une vision (par exemple, meta.llama-3.2-90b-vision-instruct, llama 4).
Installez Python version 3.8 ou une version ultérieure et les ensembles Python requis.

Tâche 1 : Télécharger le code Python et configurer le fichier de configuration

Téléchargez le code à partir d'ici : llama-ocr-oci.py
Assurez-vous que le profil de configuration correct est configuré dans le fichier ~/.oci/config avec un nom pour celui-ci. Par exemple, OCI_PROFILE.

Tâche 2 : Configurer un environnement virtuel

La création d'un environnement virtuel aide à isoler les dépendances et garantit que votre application OCR Streamlit n'interfère pas avec d'autres projets Python sur votre système.

Windows : Exécutez les commandes suivantes.
1. Ouvrez l'invite de commande (cmd) ou PowerShell et naviguez jusqu'à votre dossier de projet.
```
cd path\\to\\your\\project
```
2. Créez un environnement virtuel.
```
python -m venv venv
```
3. Activez l'environnement virtuel.
```
venv\\Scripts\\activate
```
4. Installez les dépendances.
```
pip install streamlit oci
```
macOS/Linux : Exécutez la commande suivante.
1. Ouvrez Terminal et accédez au répertoire de votre projet.
```
cd ~/path/to/your/project
```
2. Créez un environnement virtuel.
```
python3 -m venv venv
```
3. Activez l'environnement virtuel.
```
source venv/bin/activate
```
4. Installez les dépendances.
```
pip install streamlit oci
```

Tâche 3 : Lancer l'application

Exécutez la commande suivante pour lancer l'application.

streamlit run ocr_vision_app.py

Vous devriez voir le lancement de l'application dans votre navigateur.

application

Tâche 4 : Charger une image et extraire le texte

Dans Sélectionner un profil de configuration OCI, sélectionnez votre profil de configuration dans le menu déroulant.
Dans Entrer l'OCID du compartiment, entrez l'identificateur Oracle Cloud (OCID) du compartiment auquel vous avez accès au service d'intelligence artificielle générative pour OCI.
Dans Sélectionner un modèle de visualisation, sélectionnez un modèle.
Cliquez sur Charger et sélectionnez une image (réception, facture, capture d'écran).

L'application traitera l'image et affichera le texte extrait.

Meta Llama 4 est désormais disponible dans le service d'IA générative pour OCI

Remerciements

Auteurs - Mukund Murali (architecte en nuage principal)

Ressources d'apprentissage supplémentaires

Explorez d'autres laboratoires sur le site docs.oracle.com/learn ou accédez à plus de contenu d'apprentissage gratuit sur le canal Oracle Learning YouTube. De plus, visitez education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir la documentation sur le produit, visitez Oracle Help Center.

Informations sur le titre et les droits d'auteur

Build Llama Optical Character Recognition Web Application using OCI Generative AI

G36160-01