Note:
- Este tutorial requiere acceso a Oracle Cloud. Para registrarse en una cuenta gratuita, consulte Introducción a la cuenta gratuita de Oracle Cloud Infrastructure.
- Utiliza valores de ejemplo para credenciales, arrendamiento y compartimentos de Oracle Cloud Infrastructure. Al finalizar el laboratorio, sustituya estos valores por otros específicos de su entorno en la nube.
Creación de una aplicación web de reconocimiento óptico de caracteres de Llama con OCI Generative AI
Introducción
Si eres un desarrollador, arquitecto de la nube o un entusiasta de la IA que le gustó Llama Optical Character Recognition (OCR), este tutorial es para ti. En este tutorial, creará una aplicación web sencilla de Llama OCR que:
-
Utiliza la visión de Oracle Cloud Infrastructure (OCI) Generative AI Large Language Models (LLM) para Meta.
-
Extrae texto estructurado de imágenes (como recibos, formularios escaneados).
-
Se ejecuta localmente en su máquina con Streamlit.
-
No requiere codificación frontend.
Objetivos
Construiremos una interfaz de usuario web (UI) que le permita:
-
Cargue una imagen (recepción, factura, captura de pantalla) en la aplicación.
-
Obtener la salida de Markdown extraída de la imagen mediante LLM.
-
Consulta y copia del texto estructurado.
Requisitos
-
Configure la interfaz de línea de comandos de Oracle Cloud Infrastructure (CLI de OCI) (
~/.oci/config
). -
Acceso a un servicio OCI Generative AI en las regiones.
Regiones con OCI Generative AI
Nombre de la Región Geográfica Identificador de región Clave de región Este de Brasil (São Paulo) Sao Paulo sa-saopaulo-1 GRU Centro de Alemania (Fráncfort) Fráncfort eu-frankfurt-1 FRA Centro de Japón (Osaka) Osaka ap-osaka-1 KIX Emiratos Árabes Unidos oriental (Dubái) Dubái me-dubai-1 DXB Sur de Reino Unido (Londres) Londres uk-london-1 LHR Medio Oeste de EE. UU. (Chicago) Chicago us-chicago-1 Orden -
Despliegue un modelo con capacidad de visión (como
meta.llama-3.2-90b-vision-instruct
,llama 4
). -
Instale Python
version 3.8
o posterior y los paquetes de Python necesarios.
Tarea 1: Descarga de código Python y configuración de archivo de configuración
-
Descargue el código desde aquí:
llama-ocr-oci.py
-
Asegúrese de que tiene el perfil de configuración correcto configurado en el archivo
~/.oci/config
con un nombre para él. Por ejemplo,OCI_PROFILE
.
Tarea 2: Configuración de un entorno virtual
La creación de un entorno virtual ayuda a aislar las dependencias y garantiza que la aplicación Streamlit OCR no interfiera con otros proyectos de Python en el sistema.
-
Windows: ejecute los siguientes comandos.
-
Abra el símbolo del sistema (
cmd
) o PowerShell y vaya a la carpeta del proyecto.cd path\\to\\your\\project
-
Cree un entorno virtual.
python -m venv venv
-
Active el entorno virtual.
venv\\Scripts\\activate
-
Instale las dependencias.
pip install streamlit oci
-
-
macOS/Linux: ejecute el siguiente comando.
-
Abra Terminal y navegue hasta el directorio del proyecto.
cd ~/path/to/your/project
-
Cree un entorno virtual.
python3 -m venv venv
-
Active el entorno virtual.
source venv/bin/activate
-
Instale las dependencias.
pip install streamlit oci
-
Tarea 3: Inicio de la aplicación
Ejecute el siguiente comando para iniciar la aplicación.
streamlit run ocr_vision_app.py
Debe ver el inicio de la aplicación en el explorador.
Tarea 4: Carga de una imagen y extracción del texto
-
En Seleccionar perfil de configuración de OCI, seleccione el perfil de configuración en el menú desplegable.
-
En Introducir OCID de compartimento, introduzca el identificador de Oracle Cloud (OCID) del compartimento al que tiene acceso al servicio OCI Generative AI.
-
En Seleccionar modelo de visión, seleccione un modelo.
-
Haga clic en Upload (Cargar) y seleccione una imagen (recepción, factura, captura de pantalla).
La aplicación procesará la imagen y mostrará el texto extraído.
Enlaces relacionados
Acuses de recibo
- Autores: Mukund Murali (arquitecto principal de la nube)
Más recursos de aprendizaje
Explore otros laboratorios en docs.oracle.com/learn o acceda a más contenido de aprendizaje gratuito en el canal YouTube de Oracle Learning. Además, visite education.oracle.com/learning-explorer para convertirse en un explorador de Oracle Learning.
Para obtener documentación sobre el producto, visite Oracle Help Center.
Build Llama Optical Character Recognition Web Application using OCI Generative AI
G36159-01
Copyright ©2025, Oracle and/or its affiliates.