Hinweis:
- Dieses Tutorial erfordert Zugriff auf Oracle Cloud. Informationen zur Registrierung für einen kostenlosen Account finden Sie unter Erste Schritte mit Oracle Cloud Infrastructure Free Tier.
- Es verwendet Beispielwerte für Oracle Cloud Infrastructure-Zugangsdaten, -Mandanten und -Compartments. In der Übung ersetzen Sie diese Werte durch die Werte, die für Ihre Cloud-Umgebung spezifisch sind.
Llama-Webanwendung zur optischen Zeichenerkennung mit OCI Generative AI erstellen
Einführung
Wenn Sie ein Entwickler, Cloud-Architekt oder KI-Enthusiast sind, der Llama Optical Character Recognition (OCR) mochte, ist dieses Tutorial für Sie. In diesem Tutorial erstellen Sie eine einfache Llama OCR-Webanwendung, die:
-
Verwendet die Vision Large Language Models (LLMs) von Oracle Cloud Infrastructure (OCI) Generative AI für Meta.
-
Extrahiert strukturierten Text aus Bildern (wie Belege, gescannte Formulare).
-
Läuft lokal auf Ihrer Maschine mit Streamlit.
-
Keine Frontend-Kodierung erforderlich.
Ziele
Wir erstellen eine Webbenutzeroberfläche (UI), mit der Sie:
-
Laden Sie ein Bild (Quittung, Rechnung, Screenshot) in die Anwendung hoch.
-
Rufen Sie die extrahierte Preisabschriftausgabe aus dem Bild mit LLM ab.
-
Strukturierten Text anzeigen und kopieren
Voraussetzungen
-
Konfigurieren Sie die Oracle Cloud Infrastructure-Befehlszeilenschnittstelle (OCI-CLI) (
~/.oci/config
). -
Zugriff auf einen OCI Generative AI-Service in den Regionen.
Regionen mit OCI Generative AI
Regionsname Verzeichnis Regions-ID Regionsschlüssel Brazil East (Sao Paulo) Sao Paulo sa-saopaulo-1 GRU Germany Central (Frankfurt) Frankfurt am Main eu-frankfurt-1 FRA Japan Central (Osaka) Ōsaka ap-osaka-1 KIX UAE East (Dubai) Dubai me-dubai-1 DXB UK South (London) London uk-london-1 LHR US Midwest (Chicago) Chicago us-chicago-1 ORD -
Stellen Sie ein vision-fähiges Modell bereit (wie
meta.llama-3.2-90b-vision-instruct
,llama 4
). -
Installieren Sie Python
version 3.8
oder höher und erforderliche Python-Packages.
Aufgabe 1: Python-Code herunterladen und Konfigurationsdatei einrichten
-
Laden Sie den Code hier herunter:
llama-ocr-oci.py
-
Stellen Sie sicher, dass das richtige Konfigurationsprofil in der Datei
~/.oci/config
mit einem Namen dafür konfiguriert ist. Beispiel:OCI_PROFILE
.
Aufgabe 2: Virtuelle Umgebung einrichten
Durch das Erstellen einer virtuellen Umgebung können Abhängigkeiten isoliert und sichergestellt werden, dass Ihre Streamlit-OCR-App andere Python-Projekte auf Ihrem System nicht beeinträchtigt.
-
Windows: Führen Sie die folgenden Befehle durch.
-
Öffnen Sie die Eingabeaufforderung (
cmd
) oder PowerShell, und navigieren Sie zum Projektordner.cd path\\to\\your\\project
-
Virtuelle Umgebung erstellen
python -m venv venv
-
Aktivieren Sie die virtuelle Umgebung.
venv\\Scripts\\activate
-
Installieren Sie Abhängigkeiten.
pip install streamlit oci
-
-
macOS/Linux: Führen Sie den folgenden Befehl durch.
-
Öffnen Sie Terminal, und navigieren Sie zu Ihrem Projektverzeichnis.
cd ~/path/to/your/project
-
Virtuelle Umgebung erstellen
python3 -m venv venv
-
Aktivieren Sie die virtuelle Umgebung.
source venv/bin/activate
-
Installieren Sie Abhängigkeiten.
pip install streamlit oci
-
Aufgabe 3: Anwendung starten
Führen Sie den folgenden Befehl aus, um die Anwendung zu starten.
streamlit run ocr_vision_app.py
Der Anwendungsstart sollte in Ihrem Browser angezeigt werden.
Aufgabe 4: Bild hochladen und Text extrahieren
-
Wählen Sie unter OCI-Konfigurationsprofil auswählen das Konfigurationsprofil aus dem Dropdown-Menü aus.
-
Geben Sie unter Compartment-OCID eingeben die Oracle Cloud-ID (OCID) des Compartments ein, in dem Sie Zugriff auf den OCI Generative AI-Service haben.
-
Wählen Sie unter Vision-Modell auswählen ein Modell aus.
-
Klicken Sie auf Hochladen, und wählen Sie ein Bild aus (Quittung, Rechnung, Screenshot).
Die Anwendung verarbeitet das Bild und zeigt den extrahierten Text an.
Verwandte Links
Bestätigungen
- Autoren - Mukund Murali (Principal Cloud Architect)
Weitere Lernressourcen
Sehen Sie sich weitere Übungen zu docs.oracle.com/learn an, oder greifen Sie auf weitere kostenlose Lerninhalte im Oracle Learning YouTube-Kanal zu. Besuchen Sie außerdem education.oracle.com/learning-explorer, um ein Oracle Learning Explorer zu werden.
Die Produktdokumentation finden Sie im Oracle Help Center.
Build Llama Optical Character Recognition Web Application using OCI Generative AI
G36158-01
Copyright ©2025, Oracle and/or its affiliates.