用語集

次元

ディメンションはベクトルの配列要素を指します。

次元形式

ベクトルのディメンションは、ディメンション形式と呼ばれる様々な型と精度の数値を使用して表すことができます。Oracle Databaseのベクトル埋込みでサポートされるディメンションは、INT8 (1バイトの符号付き整数)、FLOAT32 (4バイトの単精度浮動小数点数)およびFLOAT64 (8バイトの倍精度浮動小数点数)です。ベクトルのすべてのディメンションは、同じディメンション形式である必要があります。

距離メトリック

距離メトリックは、ベクトル間の距離の計算に使用される数学的機能です。Oracle AI Vector検索でサポートされている一般的な距離メトリックには、ユークリッド距離、コサイン距離、マンハッタン距離などがあります。

埋込みモデル

埋込みモデルは、非構造化データのセマンティック情報を取得し、それをマルチディメンショナル空間のベクトルとして表すようにトレーニングされた機械学習アルゴリズムです。異なるタイプの非構造化データには、異なる埋込みモデルが存在します。たとえば、テキスト・データの場合はBERT、イメージ・データの場合はResNet-50などです。

ハイブリッド検索

ハイブリッド検索は、キーワードベクトルの両方でドキュメントを検索できる高度な情報取得手法です。ハイブリッド検索は、様々な検索モードで問い合せることで、ハイブリッド・ベクトル索引に対して実行されます。従来のキーワードベースのテキスト検索をベクトルベースの類似検索と統合することで、全体的な検索エクスペリエンスを向上させ、より関連性の高い情報をユーザーに提供できます。

ハイブリッド・ベクトル索引

ハイブリッド・ベクトル索引は、既存のOracle Textの検索索引とOracle AI Vector Searchのベクトル索引を1つの統合構造に結合する特殊なドメイン索引のクラスです。1つの索引には、ドキュメントのテキスト・フィールドとベクトル・フィールドの両方が含まれ、キーワードベースのテキスト検索とベクトルベースの類似検索の組合せを同時に実行できます。

大規模言語モデル

大規模言語モデル(LLM)は、人間との多様なやり取りのために自然言語を理解、処理および生成するように設計された高度な機械学習モデルです。通常、ディープ・ラーニング・アルゴリズムを使用して構築され、膨大な量のデータで事前トレーニングされます。一般的な例としては、Open AIのGPT-4、CohereのCommand R+、MetaのLLaMa 3などがあります。

マルチベクトル

マルチベクトルとは、複数のベクトルが単一のエンティティに対応するシナリオを指します。たとえば、大きなテキスト・ドキュメントを段落にチャンク化し、すべての段落を個別のベクトルに埋め込むことができます。類似検索問合せでは、ドキュメントごとに、特定の問合せベクトルに最も類似した段落(最も近いベクトル)に基づいて、一致するドキュメントを取得できます。Oracle AI Vector Searchには、パーティション化された行制限フェッチ構文のオプションがあり、効率的なマルチベクトル検索を可能にします。

近傍グラフ

近傍グラフは、ベクトル索引に使用されるグラフベースのデータ構造です。たとえば、Hierarchical Navigable Small World (HNSW)ベクトル索引は、多層近傍グラフ索引を利用します。近傍グラフでは、グラフの各頂点はデータ・セット内のベクトルを表し、エッジは類似したベクトルを表す頂点間に作成されます。

問合せ精度

問合せ精度は、ベクトル索引検索から取得した近似問合せ結果の品質の直感的なインジケータです。完全一致検索ではデータ・セット内のすべてのベクトルを検索して上位5件の一致が{ID1, ID3, ID5, ID7, ID9}として返され、近似ベクトル索引検索では上位5件の一致が{ID1, ID3, ID5, ID9, ID10}として返される問合せベクトルについて考えてみます。近似結果は5つのうち4つが正しく一致しているため、問合せの精度は80%です。

問合せベクトル

問合せベクトルは、ユーザーが類似検索を使用して類似アイテムを検索するアイテムを表す、ベクトル埋込みを指します。たとえば、ユーザーのお気に入りの映画に似た映画を検索する場合、ユーザーのお気に入りの映画を表すベクトル埋込みは問合せベクトルです。

検索拡張生成

検索拡張生成(RAG)は、大規模言語モデルによって生成される応答の精度を高めるための一般的な手法であり、AI Vector Searchを使用して取得された関連する最新の企業固有のコンテンツを使用して、ユーザーが指定したプロンプトを拡張します。RAGを使用して構築されたチャット・アシスタントなどのアプリケーションは、多くの場合、より正確で信頼性が高く、コスト効率に優れています。

類似検索

類似検索は、情報を取得するための一般的な操作であり、ユーザーが指定した問合せアイテムに似ているアイテムをデータ・セット内で検索します。たとえば、ユーザーのお気に入りの映画に似た映画を見つけることは、類似検索の例です。ベクトルによって、効率的な類似検索が実現されます。これは、ベクトル間の数学的距離は類似度のかわりになるという特性を利用しており、2つのアイテムが類似しているほど、ベクトル間の距離が短くなります。

ベクトル

ベクトルは、大きさと方向を持つ数学的エンティティです。通常、数値の配列として表されます。これは、多次元空間での位置を定義する座標です。

ベクトル距離

ベクトル距離とは、多次元空間における2つのベクトル間の数学的距離のことです。類似しているアイテム間のベクトル距離は、類似していないアイテム間のベクトル距離より短くなります。ベクトル距離は、比較対象のベクトルが同じ埋込みモデルによって生成される場合にのみ意味を持ちます。

ベクトル埋込み

ベクトル埋込みは、データのセマンティック・コンテンツをエンコードする、テキスト、イメージ、オーディオまたはビデオのデータの数値表現であり、基礎となる単語やピクセルではありません。ベクトルベクトル埋込みという用語は、AIベクトル検索で同じ意味で使用されます。

ベクトル索引

ベクトル索引は、高次元ベクトルを使用して類似検索を高速化するように設計された、特殊な索引付けデータ構造のクラスです。クラスタ化、パーティション化、近傍グラフなどの手法を使用して、類似項目を表すベクトルをグループ化します。これにより、検索領域が大幅に削減され、検索プロセスが非常に効率的になります。従来のデータベースの索引とは異なり、ベクトル索引では類似近似検索が可能であり、これにより、ユーザーはアプリケーションの要件に適合するように問合せパフォーマンスのために問合せ精度をトレードオフできます。

ベクトル・メモリー・プール

ベクトル・メモリー・プールは、インメモリー近傍グラフ・ベクトル索引(HNSW索引)および近傍パーティション・ベクトル索引のメタデータを格納するための専用のシステム・グローバル領域(SGA)のリージョンです。VECTOR_MEMORY_SIZEパラメータを使用して指定できます。