27.5 例: WikiデータセットによるESAモデルの構築
次の例で、類似するテキストのセットを比較して、その後で類似しないテキストのセットを比較する明示的セマンティック分析(ESA)モデルを使用したFEATURE_COMPARE
ファンクションを示します。
次の例は、200,000を超える特徴をレンダリングする2005 Wikiデータセットに対して構築されているESAモデルを示しています。ドキュメントはテキストとしてマイニングされ、ドキュメント・タイトルは特徴IDとして指定されます。
類似するテキスト
SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'Nick Price won the 2002 Mastercard Colonial Open' text) similarity FROM DUAL;
SIMILARITY
----------
.258
出力されるメトリックに、差異の計算が示されます。したがって、より小さい数値は、テキストがより類似していることを示します。そのため、問合せでは1
から差異を引いた値が類似性となります。
類似しないテキスト
SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'John Elway played quarterback for the Denver Broncos' text) similarity FROM DUAL;
SIMILARITY
----------
.007