ノート:
- このチュートリアルでは、Oracle Cloudへのアクセス権が必要です。無料アカウントにサインアップするには、Oracle Cloud Infrastructure Free Tierの開始を参照してください。
- Oracle Cloud Infrastructureの資格証明、テナンシおよびコンパートメントの値の例を使用します。演習を完了したら、これらの値をクラウド環境に固有の値に置き換えてください。
OCI生成AIを使用したLlama光学式文字認識Webアプリケーションの構築
はじめに
Llama Optical Character Recognition(OCR)が好きな開発者、クラウド・アーキテクト、またはAI愛好家であれば、このチュートリアルはあなたのためのものです。このチュートリアルでは、次のような単純なLlama OCR Webアプリケーションを作成します。
-
Oracle Cloud Infrastructure(OCI)Generative AIのビジョン「Large Language Models(LLMs)」をMetaに使用します。
-
イメージ(領収書、スキャン済フォームなど)から構造化テキストを抽出します。
-
Streamlitを使用して、マシン上でローカルに実行されます。
-
フロントエンドのコーディングは必要ありません。
目的
次のことを可能にするWebユーザー・インタフェース(UI)を構築します。
-
アプリケーションでイメージ(入金、請求書、スクリーンショット)をアップロードします。
-
LLMを使用して、イメージから抽出されたMarkdown出力を取得します。
-
構造化テキストを表示およびコピーします。
前提条件
-
Oracle Cloud Infrastructureのコマンドライン・インタフェース(OCI CLI)(
~/.oci/config
)を構成します。 -
リージョン内のOCI生成AIサービスへのアクセス。
OCI Generative AIによるリージョン
リージョン名 場所 リージョン識別子 リージョン・キー ブラジル東部(サンパウロ) サンパウロ sa-saopaulo-1 GRU ドイツ中央部(フランクフルト) フランクフルト eu-frankfurt-1 FRA 日本中央部(大阪) 大阪 ap-osaka-1 KIX アラブ首長国連邦東部(ドバイ) ドバイ me-dubai-1 DXB 英国南部(ロンドン) London uk-london-1 LHR 米国中西部(シカゴ) Chicago USシカゴ-1 ORD -
ビジョン対応モデル(
meta.llama-3.2-90b-vision-instruct
、llama 4
など)をデプロイします。 -
Python
version 3.8
以降および必要なPythonパッケージをインストールします。
タスク1: Pythonコードのダウンロードと構成ファイルの設定
-
llama-ocr-oci.py
からコードをダウンロードします -
ファイル
~/.oci/config
に、その名前を使用して正しい構成プロファイルが構成されていることを確認します。たとえば、OCI_PROFILE
です。
タスク2: 仮想環境の設定
仮想環境を作成すると、依存関係が分離され、Streamlit OCRアプリがシステム上の他のPythonプロジェクトに干渉しないことが保証されます。
-
Windows:次のコマンドを実行します。
-
コマンド・プロンプト(
cmd
)またはPowerShellを開き、プロジェクト・フォルダに移動します。cd path\\to\\your\\project
-
仮想環境の構築
python -m venv venv
-
仮想環境をアクティブ化します。
venv\\Scripts\\activate
-
依存関係をインストールします。
pip install streamlit oci
-
-
macOS/Linux:次のコマンドを実行します。
-
ターミナルを開き、プロジェクト・ディレクトリに移動します。
cd ~/path/to/your/project
-
仮想環境の構築
python3 -m venv venv
-
仮想環境をアクティブ化します。
source venv/bin/activate
-
依存関係をインストールします。
pip install streamlit oci
-
タスク3: アプリケーションの起動
アプリケーションを起動するには、次のコマンドを実行します。
streamlit run ocr_vision_app.py
アプリケーションの起動がブラウザに表示されます。
タスク4: イメージのアップロードおよびテキストの抽出
-
「OCI構成プロファイルの選択」で、ドロップダウン・メニューから構成プロファイルを選択します。
-
「コンパートメントOCIDの入力」に、OCI生成AIサービスへのアクセス権があるコンパートメントOracle Cloud Identifier (OCID)を入力します。
-
「ビジョン・モデルの選択」で、モデルを選択します。
-
「アップロード」をクリックし、イメージ(受領書、請求書、スクリーンショット)を選択します。
アプリケーションはイメージを処理し、抽出されたテキストを表示します。
関連リンク
確認
- 著者 - Mukund Murali (プリンシパル・クラウド・アーキテクト)
その他の学習リソース
docs.oracle.com/learnで他のラボを確認するか、Oracle Learning YouTubeチャネルで無料のラーニング・コンテンツにアクセスしてください。また、education.oracle.com/learning-explorerにアクセスして、Oracle Learning Explorerになります。
製品ドキュメントについては、Oracle Help Centerを参照してください。
Build Llama Optical Character Recognition Web Application using OCI Generative AI
G36163-01
Copyright ©2025, Oracle and/or its affiliates.