注意:
- 本教程需要访问 Oracle Cloud。要注册免费账户,请参阅开始使用 Oracle Cloud Infrastructure 免费套餐。
- 它使用 Oracle Cloud Infrastructure 身份证明、租户和区间的示例值。完成实验室时,请将这些值替换为特定于云环境的值。
使用 OCI Generative AI 构建 Llama 光学字符识别 Web 应用
简介
如果您是喜欢 Llama 光学字符识别 (OCR) 的开发人员,云架构师或 AI 爱好者,本教程适合您。在本教程中,您将构建一个简单的 Llama OCR Web 应用程序,该应用程序:
-
使用 Oracle Cloud Infrastructure (OCI) Generative AI 的 Meta 大语言模型 (LLM)。
-
从图像中提取结构化文本(如收据、扫描的表单)。
-
使用 Streamlit 在您的计算机上本地运行。
-
不需要任何前端编码。
目标
我们将构建一个 Web 用户界面 (UI),允许您:
-
在应用程序中上载图像(收据、发票、屏幕截图)。
-
使用 LLM 从映像中获取提取的 Markdown 输出。
-
查看和复制结构化文本。
Prerequisites
-
配置 Oracle Cloud Infrastructure 命令行界面 (OCI CLI) (
~/.oci/config
)。 -
访问区域中的 OCI Generative AI 服务。
使用 OCI Generative AI 的区域
区域名 位置 区域标识 区域关键字 巴西东部(圣保罗) 圣保罗 sa-saopaulo-1 GRU 德国中部(法兰克福) 法兰克福 eu-frankfurt-1 FRA 日本中部(大阪) 大阪 ap-osaka-1 KIX 阿拉伯联合酋长国东部(迪拜) 迪拜 me-dubai-1 DXB 英国南部(伦敦) London uk-london-1 LHR 美国中西部(芝加哥) 芝加哥市 美国芝加哥 -1 订单 -
部署支持视觉的模型(例如
meta.llama-3.2-90b-vision-instruct
、llama 4
)。 -
安装 Python
version 3.8
或更高版本以及所需的 Python 软件包。
任务 1:下载 Python 代码并设置配置文件
-
请从此处下载代码:
llama-ocr-oci.py
-
请确保在文件
~/.oci/config
中配置了正确的配置配置文件,并为其命名。例如,OCI_PROFILE
。
任务 2:设置虚拟环境
创建虚拟环境有助于隔离依赖关系,并确保 Streamlit OCR 应用程序不会干扰系统上的其他 Python 项目。
-
Windows:运行以下命令。
-
打开命令提示符 (
cmd
) 或 PowerShell 并导航到项目文件夹。cd path\\to\\your\\project
-
创建虚拟环境。
python -m venv venv
-
激活虚拟环境。
venv\\Scripts\\activate
-
安装依赖项。
pip install streamlit oci
-
-
macOS/Linux:运行以下命令。
-
打开终端并导航到项目目录。
cd ~/path/to/your/project
-
创建虚拟环境。
python3 -m venv venv
-
激活虚拟环境。
source venv/bin/activate
-
安装依赖项。
pip install streamlit oci
-
任务 3:启动应用程序
运行以下命令以启动应用程序。
streamlit run ocr_vision_app.py
您应该会在浏览器中看到应用程序的启动。
任务 4:上载图像并提取文本
-
在选择 OCI 配置概要信息中,从下拉菜单中选择您的配置概要信息。
-
在 Enter Compartment OCID 中,输入您有权访问 OCI Generative AI 服务的区间 Oracle Cloud Identifier (OCID)。
-
在选择视觉模型中,选择一个模型。
-
单击上载并选择图像(收据、发票、屏幕截图)。
应用程序将处理图像并显示提取的文本。
相关链接
确认
- 作者 — Mukund Murali(首席云架构师)
更多学习资源
通过 docs.oracle.com/learn 浏览其他实验室,或者通过 Oracle Learning YouTube 频道访问更多免费学习内容。此外,请访问 education.oracle.com/learning-explorer 以成为 Oracle Learning Explorer。
有关产品文档,请访问 Oracle 帮助中心。
Build Llama Optical Character Recognition Web Application using OCI Generative AI
G36166-01
Copyright ©2025, Oracle and/or its affiliates.