Hinweis:

Dieses Tutorial erfordert Zugriff auf Oracle Cloud. Informationen zur Registrierung für einen kostenlosen Account finden Sie unter Erste Schritte mit Oracle Cloud Infrastructure Free Tier.
Es verwendet Beispielwerte für Oracle Cloud Infrastructure-Zugangsdaten, -Mandanten und -Compartments. In der Übung ersetzen Sie diese Werte durch die Werte, die für Ihre Cloud-Umgebung spezifisch sind.

Llama-Webanwendung zur optischen Zeichenerkennung mit OCI Generative AI erstellen

Einführung

Wenn Sie ein Entwickler, Cloud-Architekt oder KI-Enthusiast sind, der Llama Optical Character Recognition (OCR) mochte, ist dieses Tutorial für Sie. In diesem Tutorial erstellen Sie eine einfache Llama OCR-Webanwendung, die:

Verwendet die Vision Large Language Models (LLMs) von Oracle Cloud Infrastructure (OCI) Generative AI für Meta.
Extrahiert strukturierten Text aus Bildern (wie Belege, gescannte Formulare).
Läuft lokal auf Ihrer Maschine mit Streamlit.
Keine Frontend-Kodierung erforderlich.

Ziele

Wir erstellen eine Webbenutzeroberfläche (UI), mit der Sie:

Laden Sie ein Bild (Quittung, Rechnung, Screenshot) in die Anwendung hoch.
Rufen Sie die extrahierte Preisabschriftausgabe aus dem Bild mit LLM ab.
Strukturierten Text anzeigen und kopieren

Voraussetzungen

Konfigurieren Sie die Oracle Cloud Infrastructure-Befehlszeilenschnittstelle (OCI-CLI) (~/.oci/config).

Zugriff auf einen OCI Generative AI-Service in den Regionen.

Regionen mit OCI Generative AI

Regionsname	Verzeichnis	Regions-ID	Regionsschlüssel
Brazil East (Sao Paulo)	Sao Paulo	sa-saopaulo-1	GRU
Germany Central (Frankfurt)	Frankfurt am Main	eu-frankfurt-1 FRA
Japan Central (Osaka)	Ōsaka	ap-osaka-1	KIX
UAE East (Dubai)	Dubai	me-dubai-1	DXB
UK South (London)	London	uk-london-1	LHR
US Midwest (Chicago)	Chicago	us-chicago-1	ORD

Stellen Sie ein vision-fähiges Modell bereit (wie meta.llama-3.2-90b-vision-instruct, llama 4).
Installieren Sie Python version 3.8 oder höher und erforderliche Python-Packages.

Aufgabe 1: Python-Code herunterladen und Konfigurationsdatei einrichten

Laden Sie den Code hier herunter: llama-ocr-oci.py
Stellen Sie sicher, dass das richtige Konfigurationsprofil in der Datei ~/.oci/config mit einem Namen dafür konfiguriert ist. Beispiel: OCI_PROFILE.

Aufgabe 2: Virtuelle Umgebung einrichten

Durch das Erstellen einer virtuellen Umgebung können Abhängigkeiten isoliert und sichergestellt werden, dass Ihre Streamlit-OCR-App andere Python-Projekte auf Ihrem System nicht beeinträchtigt.

Windows: Führen Sie die folgenden Befehle durch.
1. Öffnen Sie die Eingabeaufforderung (cmd) oder PowerShell, und navigieren Sie zum Projektordner.
```
cd path\\to\\your\\project
```
2. Virtuelle Umgebung erstellen
```
python -m venv venv
```
3. Aktivieren Sie die virtuelle Umgebung.
```
venv\\Scripts\\activate
```
4. Installieren Sie Abhängigkeiten.
```
pip install streamlit oci
```
macOS/Linux: Führen Sie den folgenden Befehl durch.
1. Öffnen Sie Terminal, und navigieren Sie zu Ihrem Projektverzeichnis.
```
cd ~/path/to/your/project
```
2. Virtuelle Umgebung erstellen
```
python3 -m venv venv
```
3. Aktivieren Sie die virtuelle Umgebung.
```
source venv/bin/activate
```
4. Installieren Sie Abhängigkeiten.
```
pip install streamlit oci
```

Aufgabe 3: Anwendung starten

Führen Sie den folgenden Befehl aus, um die Anwendung zu starten.

streamlit run ocr_vision_app.py

Der Anwendungsstart sollte in Ihrem Browser angezeigt werden.

app

Aufgabe 4: Bild hochladen und Text extrahieren

Wählen Sie unter OCI-Konfigurationsprofil auswählen das Konfigurationsprofil aus dem Dropdown-Menü aus.
Geben Sie unter Compartment-OCID eingeben die Oracle Cloud-ID (OCID) des Compartments ein, in dem Sie Zugriff auf den OCI Generative AI-Service haben.
Wählen Sie unter Vision-Modell auswählen ein Modell aus.
Klicken Sie auf Hochladen, und wählen Sie ein Bild aus (Quittung, Rechnung, Screenshot).

Die Anwendung verarbeitet das Bild und zeigt den extrahierten Text an.

Meta Llama 4 jetzt in OCI Generative AI verfügbar

Bestätigungen

Autoren - Mukund Murali (Principal Cloud Architect)

Weitere Lernressourcen

Sehen Sie sich weitere Übungen zu docs.oracle.com/learn an, oder greifen Sie auf weitere kostenlose Lerninhalte im Oracle Learning YouTube-Kanal zu. Besuchen Sie außerdem education.oracle.com/learning-explorer, um ein Oracle Learning Explorer zu werden.

Die Produktdokumentation finden Sie im Oracle Help Center.

Titel und Copyright-Informationen

Build Llama Optical Character Recognition Web Application using OCI Generative AI

G36158-01