38.6 FEATURE_COMPARE
構文
feature_compare::=
mining_attribute_clause::=
目的
FEATURE_COMPARE
ファンクションでは、特徴抽出モデルを使用して、キーワード・フレーズなどの短いものや2つの属性リストを含む、2つの異なるドキュメントを比較して似ているかどうかを判別します。FEATURE_COMPARE
ファンクションは、特異値分解(SVD)、主成分分析(PCA)、Non-Negative Matrix Factorization (NMF)、明示的セマンティクス分析(ESA)などの特徴抽出アルゴリズムとともに使用できます。このファンクションは、ドキュメントだけでなく、数値データおよびカテゴリ・データにも適用できます。
FEATURE_COMPARE
ファンクションへの入力は、Oracle Data MiningのNMF、SVD、ESAなどの特徴抽出アルゴリズムを使用して構築された単一の機能モデルです。double USING
句によって、モデルで抽出された特徴を使用して、2つの異なるドキュメントまたは一定のキーワード・フレーズ、あるいはその2つの組合せを比較して似ているかどうかを判別するメカニズムが提供されます。
FEATURE_COMPARE
ファンクションの構文では、パーティション化されたモデルをスコアリングするときに、オプションのGROUPING
ヒントを使用できます。「GROUPINGヒント」を参照してください。
mining_attribute_clause
mining_attribute_clause
は、スコアの予測子として使用する列の属性を特定します。このファンクションが分析構文で起動された場合は、これらの予測子が一時モデルの構築にも使用されます。mining_attribute_clause
は、PREDICTION
ファンクションと同様に動作します。「mining_attribute_clause」を参照してください。
関連項目:
-
スコアリングの詳細は、Oracle Data Miningユーザーズ・ガイドを参照してください。
-
クラスタリングの詳細は、『Oracle Data Mining概要』を参照してください。
ノート:
次に示す例は、Data Miningのサンプル・プログラムからの抜粋です。サンプル・プログラムの詳細は、Oracle Data Miningユーザーズ・ガイドの「付録A」を参照してください。
例
ESAモデルは、200,000を超える特徴をレンダリングする2005 Wikiデータセットに対して構築されています。ドキュメントはテキストとしてマイニングされ、ドキュメント・タイトルは特徴IDとみなされます。
次の例で、類似するテキストのセットを比較して、その後で類似しないテキストのセットを比較するESAアルゴリズムを使用したFEATURE_COMPARE
ファンクションを示します。
類似するテキスト
SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'Nick Price won the 2002 Mastercard Colonial Open' text) similarity FROM DUAL;
SIMILARITY
----------
.258
出力されるメトリックに、差異の計算結果が示されます。したがって、より小さい数値は、テキストがより類似していることを示します。そのため、問合せでは1から差異を引いた値で、ドキュメントの類似性メトリックが示されます。
類似しないテキスト
SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'John Elway played quarterback for the Denver Broncos' text) similarity FROM DUAL;
SIMILARITY
----------
.007