5 ドキュメントのセマンティク索引付け

情報エクストラクタは、構造化されていないドキュメントから意味のある情報を検索して抽出します。この抽出された情報に基づいてドキュメントを検索する機能は、全文検索エンジンでサポートされるキーワード・ベースの検索より大幅に優れています。

ドキュメントのセマンティク索引付けによって、情報エクストラクタおよびアノテータを使用して、リレーショナル表に格納されているドキュメントにセマンティクに索引付けできる索引タイプが導入されます。セマンティクに索引付けされたドキュメントは、標準のSQL問合せ内でSEM_CONTAINS演算子を使用して検索できます。これらのドキュメントの検索条件は、次の例に示すとおり、ドキュメントから抽出された情報に基づいて機能するSPARQL問合せパターンを使用して表現されます。

SELECT docId
FROM   Newsfeed
WHERE  SEM_CONTAINS (article, 
     ' { ?org    rdf:type            typ:Organization  . 
         ?org    pred:hasCategory    cat:BusinessFinance } ', ..) = 1

Oracle Databaseのドキュメントのセマンティク索引付けを容易にする主要コンポーネントは、次のとおりです。

  • 拡張可能な情報エクストラクタ・フレームワーク: サードパーティの情報エクストラクタをデータベースにプラグインできます。

  • SEM_CONTAINS演算子: 標準のSQL問合せを使用して、抽出された情報に基づいて目的のドキュメントを識別します。

  • SEM_CONTAINS_SELECT補助演算子: SEM_CONTAINS演算子を使用して識別されたドキュメントの関連情報を戻します。

  • SemContext索引タイプ: 情報エクストラクタと対話して索引構造のドキュメント・セットから抽出された情報を管理し、ドキュメントに対するセマンティクに意味のある検索を容易にします。

ドキュメントに対して作成されたエクストラクタ・ポリシーおよびセマンティク索引を管理するためのアプリケーション・プログラミング・インタフェース(API)は、SEM_RDFCTX PL/SQLパッケージで提供されます。「SEM_RDFCTXパッケージ・サブプログラム」に、SEM_RDFCTXパッケージのサブプログラムに関するリファレンス情報があります。