ONNXモデルへの事前トレーニング済モデルの変換: テキスト埋込みのエンドツーエンドの手順

この項では、OML4Pyクライアントのインストールから、Oracleが提供するPythonユーティリティ・パッケージを使用したONNX形式での事前トレーニング済埋込みモデルのダウンロードまでのエンドツーエンドの手順について説明します。

ノート:

この例では、事前トレーニング済テキスト・モデルをONNXモデルに変換するためのエンドツーエンドの手順を示します。ステップ1から9は、イメージ・モデルとマルチモーダルで同一です。対応するトピックに記載されている適切なコード/構文を使用して、イメージ・モデルおよびマルチ・モデルをONNXパイプライン・モデルに変換できます。

これらの手順では、/etc/yum.repos.dでOracle Linux 8リポジトリを構成し、Autonomous Databaseを使用している場合はウォレットを構成し、必要に応じてプロキシを設定していることを前提としています。

Pythonのインストール:

sudo yum install libffi-devel openssl openssl-devel tk-devel xz-devel zlib-devel bzip2-devel readline-devel libuuid-devel ncurses-devel libaio
mkdir -p $HOME/python
wget https://www.python.org/ftp/python/3.12.6/Python-3.12.6.tgz
tar -xvzf Python-3.12.6.tgz --strip-components=1 -C $HOME/python
cd $HOME/python
./configure --prefix=$HOME/python
make clean; make
make altinstall

変数PYTHONHOME、PATHおよびLD_LIBRARY_PATHを設定します:

export PYTHONHOME=$HOME/python
export PATH=$PYTHONHOME/bin:$PATH
export LD_LIBRARY_PATH=$PYTHONHOME/lib:$LD_LIBRARY_PATH

python3およびpip3のシンボリックリンクを作成します:
```
cd $HOME/python/bin
ln -s python3.12 python3
ln -s pip3.12 pip3
```
Pythonからデータベースに埋込みモデルをエクスポートする場合は、Oracle Instantクライアントをインストールします。ファイルにエクスポートする場合は、ステップ4と5をスキップして、ステップ6の環境変数のノートを確認します。
```
cd $HOME
wget https://download.oracle.com/otn_software/linux/instantclient/2340000/instantclient-basic-linux.x64-23.4.0.24.05.zip
unzip instantclient-basic-linux.x64-23.4.0.24.05.zip
```

変数LD_LIBRARY_PATHを設定します:

export LD_LIBRARY_PATH=$HOME/instantclient_23_4:$LD_LIBRARY_PATH

PythonおよびOracle Instantクライアントの環境変数を定義し、各OML4Pyクライアント・セッションの前にこれらの環境変数をソースとするenv.shなどの環境ファイルを作成します。または、ユーザーがLinuxマシンにログインしたときに定義されるように、環境変数定義を.bashrcに追加します。
```
# Environment variables for Python
export PYTHONHOME=$HOME/python
export PATH=$PYTHONHOME/bin:$PATH
export LD_LIBRARY_PATH=$PYTHONHOME/lib:$LD_LIBRARY_PATH
```
ノート:
Oracle Instant Clientの環境変数 - モデルをデータベースにエクスポートするためにOracle Instant Clientがインストールされている場合のみ。
export LD_LIBRARY_PATH=$HOME/instantclient_23_4:$LD_LIBRARY_PATH
。

次に示す必要なサードパーティ・パッケージを含むrequirements.txtという名前のファイルを作成します。

--extra-index-url https://download.pytorch.org/whl/cpu
pandas==2.2.2
setuptools==70.0.0
scipy==1.14.0
matplotlib==3.8.4
oracledb==2.4.1
scikit-learn==1.5.1
numpy==2.0.1
onnxruntime==1.20.0
onnxruntime-extensions==0.12.0
onnx==1.17.0
torch==2.6.0
transformers==4.49.0
sentencepiece==0.2.0

pip3をアップグレードし、requirements.txtにリストされているパッケージをインストールします。
```
pip3 install --upgrade pip
pip3 install -r requirements.txt
```
OML4Pyクライアントをインストールします。OML4Pyダウンロード・ページからOML4Py 2.1クライアントをダウンロードし、Linuxマシンにアップロードします。
```
unzip oml4py-client-linux-x86_64-2.1.zip
pip3 install client/oml-2.1-cp312-cp312-linux_x86_64.whl
```

すべての事前構成済モデルのリストを取得します。Pythonを起動し、oml.utilsからONNXPipelineConfigをインポートします。

python3

from oml.utils import ONNXPipelineConfig

ONNXPipelineConfig.show_preconfigured()

['sentence-transformers/all-mpnet-base-v2',
'sentence-transformers/all-MiniLM-L6-v2',
'sentence-transformers/multi-qa-MiniLM-L6-cos-v1',
'sentence-transformers/distiluse-base-multilingual-cased-v2',
'sentence-transformers/all-MiniLM-L12-v2',
'BAAI/bge-small-en-v1.5',
'BAAI/bge-base-en-v1.5',
'taylorAI/bge-micro-v2',
'intfloat/e5-small-v2',
'intfloat/e5-base-v2',
'thenlper/gte-base',
'thenlper/gte-small',
'TaylorAI/gte-tiny',
'sentence-transformers/paraphrase-multilingual-mpnet-base-v2',
'intfloat/multilingual-e5-base',
'intfloat/multilingual-e5-small',
'sentence-transformers/stsb-xlm-r-multilingual',
'Snowflake/snowflake-arctic-embed-xs',
'Snowflake/snowflake-arctic-embed-s',
'Snowflake/snowflake-arctic-embed-m',
'mixedbread-ai/mxbai-embed-large-v1',
'openai/clip-vit-large-patch14',
'google/vit-base-patch16-224',
'microsoft/resnet-18',
'microsoft/resnet-50',
'WinKawaks/vit-tiny-patch16-224',
'Falconsai/nsfw_image_detection',
'WinKawaks/vit-small-patch16-224',
'nateraw/vit-age-classifier',
'rizvandwiki/gender-classification',
'AdamCodd/vit-base-nsfw-detector',
'trpakov/vit-face-expression',
'BAAI/bge-reranker-base']

次のいずれかを選択します。
- DBMS_VECTOR.LOAD_ONNX_MODELを使用してデータベースに手動でアップロードできるONNXファイルを生成するには、「SQLクイック・スタート」のステップ3を参照し、ステップ12および13をスキップします。
- モデルをデータベースに直接アップロードするには、このステップをスキップしてステップ12に進みます。
事前構成済の埋込みモデルをローカル・ファイルにエクスポートします。oml.utilsからONNXPipelineおよびONNXPipelineConfigをインポートします。これにより、ONNX形式モデルがローカル・ファイル・システムにエクスポートされます。
```
from oml.utils import ONNXPipeline, ONNXPipelineConfig

# Export to file
pipeline = ONNXPipeline(model_name="sentence-transformers/all-MiniLM-L6-v2")
pipeline.export2file("your_preconfig_file_name",output_dir=".")
```
ONNXファイルをデータベース・サーバー上のディレクトリに移動し、ファイル・システムおよびデータベースにインポート用のディレクトリを作成します。
```
mkdir -p /tmp/models
sqlplus / as sysdba
alter session set container=<name of pluggable database>;
```
必要な権限を適用します。
```
-- directory to store ONNX files for import
CREATE DIRECTORY ONNX_IMPORT AS '/tmp/models';
-- grant your OML user read and write permissions on the directory
GRANT READ, WRITE ON DIRECTORY ONNX_IMPORT to OMLUSER;
-- grant to allow user to import the model
GRANT CREATE MINING MODEL TO OMLUSER;
```
DBMS_VECTOR.LOAD_ONNX_MODELプロシージャを使用して、OMLユーザー・スキーマにモデルをロードします。この例では、プロシージャは、all-MiniLM-L6.onnxという名前のONNXモデル・ファイルをONNX_IMPORTディレクトリからALL_MINILM_L6という名前のモデルとしてデータベースにロードします。
```
BEGIN
   DBMS_VECTOR.LOAD_ONNX_MODEL(
     directory => 'ONNX_IMPORT',
     file_name => 'all-MiniLM-L6-v2.onnx',
     model_name => 'ALL_MINILM_L6',
     metadata => JSON('{"function" : "embedding", "embeddingOutput" : "embedding", "input": {"input": ["DATA"]}}'));
END;
```

事前構成済の埋込みモデルをデータベースにエクスポートします。資格証明およびデータベース環境と一致するように、データベース接続を使用して更新する場合。

ノート:

ステップ12が正しく機能するように、最初にステップ4および5を完了します。

# Import oml library and EmbeddingModel from oml.utils
import oml
from oml.utils import ONNXPipeline, ONNXPipelineConfig

# Set embedded mode to false for Oracle Database on premises. This is not supported or required for Oracle Autonomous Database.
oml.core.methods.__embed__ = False

# Create a database connection. 

# Oracle Database on-premises
oml.connect("<user>", "<password>", port=<port number> host="<hostname>", service_name="<service name>")

# Oracle Autonomous Database
oml.connect(user="<user>", password="<password>", dsn="myadb_low")
pipeline = ONNXPipeline(model_name="sentence-transformers/all-MiniLM-L6-v2")
em.export2db("ALL_MINILM_L6")

モデルとそのビューを問い合せて、PythonまたはSQLから埋込みを生成します。

import oracledb
cr = oml.cursor()
data = cr.execute("select vector_embedding(ALL_MINILM_L6 using 'RES' as DATA)AS embedding from dual")
data.fetchall()

SELECT VECTOR_EMBEDDING(ALL_MINILM_L6 USING 'RES' as DATA) AS embedding;

SQLを使用してモデルが存在することを確認します。

sqlplus $USER/pass@PDBNAME;

select model_name, algorithm, mining_function from user_mining_models where  model_name='ALL_MINILM_L6';

---------------------------------------------------------------------------
MODEL_NAME                 ALGORITHM                      MINING_FUNCTION
------------------------------ -------------------------------------------
ALL_MINILM_L6              ONNX                           EMBEDDING

親トピック: ONNX形式での事前トレーニング済モデルのインポート