カスタム・ボキャブラリの作成および使用
独自の語彙のトークンを作成して、データをチャンク化するときに使用します。
ここでは、
DBMS_VECTOR_CHAIN
パッケージのチャンカ・ヘルパー関数CREATE_VOCABULARY
を使用して、カスタム語彙をロードします。この語彙ファイルには、ベクトル埋込みモデルのトークナイザで認識されるトークンのリストが含まれています。
トークン語彙をロードしたら、
BY VOCABULARY
チャンク化モード(VECTOR_CHUNKS
またはUTL_TO_CHUNKS
を使用)を使用して、トークン数をカウントすることでデータを分割できるようになります。
親トピック: チャンク化パラメータの構成