例: ESAモデルを使用したテキストの比較

1.5例: ESAモデルを使用したテキストの比較

この例は、トピックを抽出してテキストを比較する、明示的セマンティック分析(ESA)の事前作成済ウィキペディアベースのモデルを使用して、テキストのセマンティック関連性(類似性)を比較するFEATURE_COMPARE関数を示しています。

次の例は、200,000を超える特徴をレンダリングする事前作成済Wikiデータ・セットに対して構築されているESAモデルを示しています。ドキュメントはテキストとして分析され、ドキュメント・タイトルは特徴IDとして指定されます。最初の例では、Nick Priceが南アフリカで生まれたゴルファーであるため、文のペアのスコアが高くなっています。

類似するテキスト

SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'Nick Price won the 2002 Mastercard Colonial Open' text) similarity FROM DUAL;

出力内容は次のようになります。


SIMILARITY
----------
      .110

出力されるメトリックに、差異の計算が示されます。したがって、より小さい数値は、テキストがより類似していることを示します。そのため、問合せでは1から差異を引いた値が類似性となります。

類似しないテキスト

SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'John Elway played quarterback for the Denver Broncos' text) similarity FROM DUAL;

出力内容は次のようになります。


SIMILARITY
----------
      .004