ハイブリッド検索の理解

ハイブリッド検索では、すぐに利用可能なスコアリング手法またはカスタム・スコアリング手法を使用して、全文問合せとベクトルベースの類似度問合せを組み合せてドキュメントを検索できます。

ハイブリッド検索を使用する場合の重要な点は次のとおりです:

ハイブリッド検索は、ハイブリッド・ベクトル索引に対して実行されます(「ハイブリッド・ベクトル索引の管理」を参照)。ハイブリッド・ベクトル索引を問い合せるには、DBMS_HYBRID_VECTOR.SEARCH PL/SQLファンクションを使用します。
ハイブリッド・ベクトル索引を作成したら、次にまとめた5つの検索モードで索引を問い合せることにより使用できます:

キーワードとベクトルの両方のハイブリッド検索を実行すると、結果は1つの結果セットに結合(または融合)されます。

類似検索では、チャンクのランキングを決定するためにVECTOR_DISTANCE値の概念が使用されますが、従来のOracle Text検索では、CONTAINSスコアとも呼ばれるキーワード・スコアの概念が使用されます。これらの2つのメトリックは大きく異なり、一方は他方と比較するために直接使用できません。このため、類似検索の距離は、セマンティック・スコアと呼ばれるCONTAINSスコアに相当するものに変換または正規化され、その値の範囲は100 (最高)から0 (最低)になります。このように、キーワード・スコアとセマンティック・スコアは、ハイブリッド検索の実行時に比較できます。

複数の結果が単一の結果セットに結合(または融合)された後、ハイブリッド検索により、次のsearch_scorer方法のいずれかを使用して、キーワード検索結果とセマンティック検索結果の両方からの検索スコアが評価されます。ハイブリッド検索の結果は、このスコアリング・メカニズムに基づいています。このメカニズムは、その結果を解釈できるよう理解するために重要です。

RSF (Relative Score Fusion): RSFでは、キーワード検索結果とセマンティック検索結果からの正規化されたスコアの重み付け合計が計算されます。品質と関連性に正比例した、スコアの単純かつ重み付けされたブレンドが必要なときに、この方法を使用します。

式

rsf-formula.pngの説明が続きます
図rsf-formula.pngの説明

Oracle Databaseでハイブリッド検索結果についてRSF検索スコアが計算されるときは、その計算中に、JSON検索リクエストで提供されたtext.score_weightフィールドとvector.score_weightフィールドにおいて指定されている値が、テキスト・スコアとベクトル・スコアの重みとして使用されます。ここでは、ハイブリッド検索結果セット内のドキュメントごとにRSFがどのように計算されるかについて例を示します。

表8-3 RSFの例

ドキュメント	ベクトル・スコア	ベクトルの重み	ベクトルのRS	テキスト・スコア	テキストの重み	テキストのRS	RSの合計	RSF
1	90	5	450.0000	4	1	4.0000	454.0000	75.67
2	50	5	250.0000	95	1	95.0000	345.0000	57.50
3	33	5	165.0000	80	1	80.0000	245.0000	40.83
MAX RFS	100	5	500.0000	100	1	100.0000	600.0000	100.00

RRF (Reciprocal Rank Fusion): RRFでは、ペナルティ(ランク定数)によって調整された、キーワード検索方法とセマンティック検索方法の両方からのランク位置の相互関係を使用して、関連性がブレンドされます。この方法は、未加工のスコアの高さではなく、両方の検索タイプからの高ランクの結果を重視する必要があるときに使用します。

式

rrf-formula.pngの説明が続きます
図rrf-formula.pngの説明

Oracle Databaseでハイブリッド検索結果についてRRF検索スコアが計算されるときは、その計算中に、JSON検索リクエストで提供されたtext.rank_penaltyフィールドとvector.rank_penaltyフィールドにおいて指定されている値が、テキスト・スコアとベクトル・スコアのペナルティ値として使用されます。次の表では、様々なドキュメントについて、ベクトル結果とテキスト結果での所定のランキングとともに、RRFの計算を示します。

表8-4 RRFの例

ドキュメント	ベクトルのランク	ベクトルのペナルティ	ベクトルのRR	テキストのランク	テキストのペナルティ	テキストのRR	RRの合計	RRF
1	1	1	0.5000	4	5	0.1111	0.6111	91.67
2	5	1	0.1667	100	5	0.0095	0.1762	26.43
MAX RRF	1	1	0.5000	1	5	0.1667	0.6667	100.00

WRRF (Weighted Reciprocal Rank Fusion): WRRFは、RRFの拡張であり、キーワード結果とセマンティック結果の相対的な影響のバランスをとるために重みを導入しています。この方法は、各モダリティの影響(キーワード対セマンティック)をより細かく制御する必要があるときに使用します。

式

wrrf-formula.pngの説明が続きます
図wrrf-formula.pngの説明

Oracle Databaseでハイブリッド検索結果についてWRRF検索スコアが計算されるときは、その計算中に、JSON検索リクエストで提供されたtext.score_weightフィールドとvector.score_weightフィールドにおいて指定されている値が、テキスト・スコアとベクトル・スコアの重み値として使用されます。同様に、その計算中に、JSON検索リクエストで提供されたtext.rank_penaltyフィールドとvector.rank_penaltyフィールドにおいて指定されている値が、テキスト・スコアとベクトル・スコアのペナルティ値として使用されます。次の表では、様々なドキュメントについて、ベクトル結果とテキスト結果での所定のランキングとともに、WRRFの計算を示します。

表8-5 WRRFの例

ドキュメント	ベクトルのランク	ベクトルのペナルティ	ベクトルの重み	ベクトルのWRR	テキストのランク	テキストのペナルティ	テキストの重み	テキストのWRR	WRRの合計	WRRF
1	1	60	5	0.0820	4	60	1	0.0156	0.0976	99.22
2	5	60	5	0.0769	100	60	1	0.0063	0.0832	84.56
MAX WRRF	1	60	5	0.0820	1	60	1	0.0164	0.0984	100.00

次の説明のために、「ハイブリッド・ベクトル索引の理解」と同じユースケースを使用しています。

overview_hybrid_vector_index.epsの説明が続きます

図overview_hybrid_vector_index.epsの説明

ドキュメント・モードでの純粋なセマンティック

ドキュメント・モードでの純粋なセマンティックでは、ベクトルのみの検索を実行してドキュメント・レベルの結果をフェッチします。

次のSQL文は、このモードでハイブリッド・ベクトル索引を問い合せます:

select json_Serialize(
  DBMS_HYBRID_VECTOR.SEARCH(
    json(
      '{ "hybrid_index_name" : "my_hybrid_idx",
         "vector":
          {
             "search_text"   : "galaxies formation and massive black holes",
             "search_mode"   : "DOCUMENT",
             "aggregator"    : "AVG"
          },
         "return":
          {
             "values"        : [ "rowid", "score", "vector_score" ],
             "topN"          : 10
          }
      }'
    )
  ) RETURNING CLOB pretty);

この問合せの結果は次のようになります。ドキュメントに対応するDOCS表の行のROWIDと、そのベクトル・スコア(vector_score)が表示されます。この場合、キーワード・スコアがないため、最終スコア(score)はベクトル・スコアと同じです。

結果からの抜粋を次に示します:

[
{
    "rowid"        : "AAASBEAAEAAAUpqAAB",
    "score"        : 71.04,
    "vector_score" : 71.04
  },
  {
    "rowid"        : "AAASBEAAEAAAWBKAAE",
    "score"        : 67.82,
    "vector_score" : 67.82
  },
]

この文を解釈する方法を次に示します:

すべてのベクトルに対して類似検索が実行され、最大で上位k件が抽出されます。値kは内部的に計算されます。それぞれにベクトル・スコアが与えられます。
これらのkベクトル(最大)は、ドキュメントID別にグループ化され、識別された各ドキュメントについて、そのドキュメントで見つかった関連する各ベクトルのセマンティック・スコアを使用して、その特定のドキュメントに対するこれらのスコアの平均(この例では)が計算されます。
平均値が最も高い上位10件のドキュメント(最大)が返されます。

これを図に示すと次のようになります:

pure_semantic_document_mode_query.epsの説明が続きます

図pure_semantic_document_mode_query.epsの説明

チャンク・モードでの純粋なセマンティック

チャンク・モードでの純粋なセマンティックは、SQLセマンティック検索と同等です。このモードでは、ベクトルのみの検索を実行してチャンク結果をフェッチします。

次のSQL文は、このモードでハイブリッド・ベクトル索引を問い合せます:

select json_Serialize(
  dbms_hybrid_vector.search(
    json(
      '{ "hybrid_index_name" : "my_hybrid_idx",
         "vector":
          {
             "search_text"   : "galaxies formation and massive black holes",
             "search_mode"   : "CHUNK"
          },
         "return":
          {
             "values"        : [ "score", "chunk_text", "chunk_id" ],
             "topN"          : 3
          }
      }'
    )
  ) RETURNING CLOB pretty);

この文を解釈する方法を次に示します:

すべてのベクトルに対して類似検索が実行され、最大で上位k件が抽出されます。値kは内部的に計算されます。それぞれにベクトル・スコアが与えられます。
スコアが最も高い上位3つのチャンク(最大)が返されます。

この問合せの結果は次のようになります。ここでは、セマンティック・スコアに対応するチャンクを確認できます:

[
  {
    "score"      : 61,
    "chunk_text" : "Galaxies form through a complex process that begins with small fluctuations in the density of matter in the early
universe. Massive black holes, typically found at the centers of galaxies, are believed to play a crucial role in their formation and evolution.",
    "chunk_id"   : "1"
  },
  {
    "score"      : 56.64,
    "chunk_text" : "The presence of massive black holes in galaxies is closely linked to their morphological characteristics and star formation rates.
Observations suggest that as galaxies evolve, their central black holes grow in tandem with their host galaxy's mass.",
    "chunk_id"   : "3"
  },
  {
    "score"      : 55.75,
    "chunk_text" : "Black holes grow by accreting gas and merging with other black holes. Their gravitational influence can regulate star
formation and drive powerful jets of energy, which can impact the surrounding galaxy.",
    "chunk_id"   : "2"
  }
]

ドキュメント・モードでの純粋なキーワード

ドキュメント・モードでの純粋なキーワード検索は、Oracle Textを使用した従来のCONTAINS問合せと同等です。このモードでは、テキストのみの検索を実行してドキュメントレベルの結果をフェッチします。

次のSQL文は、このモードでハイブリッド・ベクトル索引を問い合せます:

select json_Serialize(
  dbms_hybrid_vector.search(
    json(
      '{ "hybrid_index_name" : "my_hybrid_idx",
         "text":
          {
             "contains"      : "galaxies, black holes"
          },
         "return":
          {
             "values"        : [ "rowid", "score" ],
             "topN"          : 3
          }
      }'
    )
  ) RETURNING CLOB pretty);

この文を解釈する方法を次に示します:

ドキュメントの最大数を返すCONTAINS問合せが実行されます。この最大数は内部で計算されます。各ドキュメントにはキーワード・スコアが付けられます。
スコアが最も高い上位3つのドキュメント(最大)が返されます。

この問合せの結果は次のようになります。ここでは、ドキュメントに対応するDOCS表の行のROWIDおよびキーワード・スコアを確認できます:

[
  {
    "rowid" : "AAAR9jAABAAAQeaAAB",
    "score" : 68
  },
  {
    "rowid" : "AAAR9jAABAAAQeaAAA",
    "score" : 35
  },
  {
    "rowid" : "AAAR9jAABAAAQeaAAD",
    "score" : 2
  }
]

ドキュメント・モードでのキーワードおよびセマンティック

キーワード・スコアとセマンティック・スコアが結合されたハイブリッド検索の純粋ではないケースを見てみましょう。

次のSQL文は、キーワードおよびセマンティック検索を実行して、ドキュメントレベルの結果をフェッチします:

select json_Serialize(
  DBMS_HYBRID_VECTOR.SEARCH(
    json(
      '{
         "hybrid_index_name" : "my_hybrid_idx",
         "search_scorer"     : "rsf",
         "search_fusion"     : "UNION",
         "vector":
          {
             "search_text"   : "How can I search with hybrid vector indexes?",
             "search_mode"   : "DOCUMENT",
             "aggregator"    : "MAX",
             "score_weight"  : 1,
             "rank_penalty"  : 5
          },
         "text":
          {
             "contains"      : "hybrid AND vector AND index"
             "score_weight"  : 10,
             "rank_penalty"  : 1
          },
         "return":
          {
             "values"        : [ "rowid", "score", "vector_score", "text_score" ],
             "topN"          : 10
          }
      }'
    )
  ) RETURNING CLOB pretty);

この文を解釈する方法を次に示します:

ドキュメント・モードでは、検索の結果は、識別された最適なファイルのリストに対応する実表のROWIDのリストです。

このリストを取得するために、次の2つの検索が実行されます:

キーワード検索: この検索では、検索キーワードのOracle TextのCONTAINS検索式を表すCONTAINS文字列が使用されます。この操作の結果は、CONTAINS式を満たすドキュメント識別子のリストです。取得されるドキュメント識別子の最大数は、内部的に計算されます。
類似検索: この検索では、すべてのドキュメントのすべてのチャンクのベクトル索引に対して、問合せベクトル(SEARCH_TEXT文字列から作成)を使用して類似検索が実行されます。取得されるチャンクの最大数も内部的に計算されます。次に、取得された各チャンクにベクトル・スコアを割り当てます。この検索はDOCUMENT SEARCH_MODEで実行されるため、この類似検索の結果はまずドキュメント識別子でグループ化されます。このプロセスでは、AGGREGATOR関数を使用して識別された各ドキュメントのベクトル・スコアが集計されるようになりました。この類似検索の結果は、SEARCH_TEXTの類似度問合せ文字列を満たすドキュメント識別子のリストです。

検索が完了したら、次に示すように結果をマージしてスコアリングする必要があります:

図8-2 ドキュメント・モードでのキーワードおよびセマンティク検索のスコアリング

「図8-2ドキュメント・モードでのキーワードおよびセマンティック検索のスコアリング」の説明

前述の図で概説したように、

最初に、両方の検索結果がUNION ALL操作を使用して追加されます。
最終スコアリングの前に、SEARCH_FUSION操作を指定して、この中間結果セットから保持する内容を定義できます。
次に、Reciprocal Rank Fusion (RRF)やRelative Score Fusion (RSF)などの定義されたSEARCH_SCORERアルゴリズムを使用して、最終スコアリングが計算されます。最終スコアリングでは、取得した各ドキュメント識別子に対して、取得元のソート操作に応じて、指定されたSCORE_WEIGHTおよびRANK_PENALTY値を使用できます。
最後に、定義された最大topN件のドキュメント識別子が返されます。

使用可能な融合演算子を次に示します:

図8-3 ドキュメント検索モードでの融合操作

「図8-3 ドキュメント検索モードでの融合操作」の説明

チャンク・モードでのキーワードおよびセマンティック

キーワード・スコアとセマンティック・スコアを結合してチャンク結果がフェッチされる、ハイブリッド検索の別の純粋ではないケースを見てみましょう。

次のSQL文は、チャンク・モードでキーワードおよびセマンティック検索を実行します:

select json_Serialize(
  DBMS_HYBRID_VECTOR.SEARCH(
    json(
         '{
            "hybrid_index_name" : "my_hybrid_vector_idx",
            "search_scorer"     : "rsf",
            "search_fusion"     : "UNION",
            "vector":
                      {
                        "search_text"   : "How can I search with hybrid vector indexes?",
                        "search_mode"   : "CHUNK",
                        "score_weight"  : 1
                      },
            "text":
                      {
                       "contains"       : "hybrid AND vector AND index",
                       "score_weight"   : 1
                      },
            "return":
                      {
                        "values"        : [ "chunk_id", "score", "vector_score", "text_score" ],
                        "topN"          : 10
                      }
          }'
    )
  ) RETURNING CLOB pretty);

この文を解釈する方法を次に示します:

チャンク・モードでは、検索の結果は、実表を使用して格納されたファイルからの最適なチャンク識別子のリストです。

このリストを取得するために、次の2つの検索が実行されます:

キーワード検索: この検索では、検索キーワードのOracle TextのCONTAINS検索式を表すCONTAINS文字列が使用されます。この操作の結果は、CONTAINS式を満たすドキュメント識別子のリストです。取得されるドキュメント識別子の最大数は、内部的に計算されます。
類似検索: この検索では、すべてのドキュメントのすべてのチャンクのベクトル索引に対して、問合せベクトル(SEARCH_TEXT文字列から作成)を使用して類似検索が実行されます。取得されるチャンクの最大数も内部的に計算されます。次に、取得された各チャンクにベクトル・スコアを割り当てます。この検索はCHUNK SEARCH_MODEで実行されるため、この類似検索の結果はチャンク・ベクトル・スコアでソートされます。この類似検索の結果は、SEARCH_TEXT類似度問合せ文字列を満たすチャンク識別子および関連するドキュメント識別子のリストです。

検索が完了したら、次に示すように結果をマージしてスコアリングする必要があります:

図8-4 チャンク・モードでのキーワードおよびセマンティック検索のスコアリング

「図8-4 チャンク・モードでのキーワードおよびセマンティック検索のスコアリング」の説明

前述の図で概説したように、

最初に、両方の検索結果がドキュメント識別子のRIGHT OUTER JOIN操作に送信されます。
最終スコアリングの前に、SEARCH_FUSION操作を指定して、この中間結果セットから保持する内容を定義できます。
次に、Reciprocal Rank Fusion (RRF)やRelative Score Fusion (RSF)などの定義されたSEARCH_SCORERアルゴリズムを使用して、最終スコアリングが計算されます。最終スコアリングでは、取得した各ドキュメント識別子に対して、取得元のソート操作に応じて、指定されたSCORE_WEIGHTおよびRANK_PENALTY値を使用できます。
最後に、定義された最大topN件のチャンク識別子が返されます。

使用可能な融合演算子を次に示します:

図8-5 チャンク検索モードでの融合操作

「図8-5 チャンク検索モードでの融合操作」の説明

MINUS_VECTOR、UNIONおよびTEXT_ONLYは無視されます。MINUS_VECTORを指定すると、すべての結果が除外されます。TEXT_ONLYおよびUNIONは、右外部結合で重複しないテキスト結果が除外されるため、使用できません。

関連トピック

親トピック: ハイブリッド検索の実行