33.5 例: ESAモデルを使用したテキストの比較

この例は、トピックを抽出してテキストを比較する明示的セマンティック分析(ESA)事前構築済のWikipediaベース・モデルを使用して、意味的な関連性(類似性)についてテキストを比較するFEATURE_COMPAREファンクションを示しています。

次の例は、200,000を超える特徴をレンダリングする事前構築済のWikiデータ・セットに対して構築されているESAモデルを示しています。ドキュメントはテキストとして分析され、ドキュメント・タイトルは特徴IDとして指定されます。最初の例では、ニック・プライスが南アフリカで生まれたゴルファーであるため、文のペアはスコアが高くなります。

類似するテキスト

SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'Nick Price won the 2002 Mastercard Colonial Open' text) similarity FROM DUAL;

出力内容は次のようになります。


SIMILARITY
----------
      .110

出力されるメトリックに、差異の計算が示されます。したがって、より小さい数値は、テキストがより類似していることを示します。そのため、問合せでは1から差異を引いた値が類似性となります。

類似しないテキスト

SELECT 1-FEATURE_COMPARE(esa_wiki_mod USING 'There are several PGA tour golfers from South Africa' text AND USING 'John Elway played quarterback for the Denver Broncos' text) similarity FROM DUAL;

出力内容は次のようになります。


SIMILARITY
----------
      .004