5 ドキュメントのセマンティク索引付け
情報エクストラクタは、構造化されていないドキュメントから意味のある情報を検索して抽出します。この抽出された情報に基づいてドキュメントを検索する機能は、全文検索エンジンでサポートされるキーワード・ベースの検索より大幅に優れています。
ドキュメントのセマンティク索引付けによって、情報エクストラクタおよびアノテータを使用して、リレーショナル表に格納されているドキュメントにセマンティクに索引付けできる索引タイプが導入されます。セマンティクに索引付けされたドキュメントは、標準のSQL問合せ内でSEM_CONTAINS演算子を使用して検索できます。これらのドキュメントの検索条件は、次の例に示すとおり、ドキュメントから抽出された情報に基づいて機能するSPARQL問合せパターンを使用して表現されます。
SELECT docId FROM Newsfeed WHERE SEM_CONTAINS (article, ' { ?org rdf:type typ:Organization . ?org pred:hasCategory cat:BusinessFinance } ', ..) = 1
Oracle Databaseのドキュメントのセマンティク索引付けを容易にする主要コンポーネントは、次のとおりです。
-
拡張可能な情報エクストラクタ・フレームワーク: サードパーティの情報エクストラクタをデータベースにプラグインできます。
-
SEM_CONTAINS演算子: 標準のSQL問合せを使用して、抽出された情報に基づいて目的のドキュメントを識別します。
-
SEM_CONTAINS_SELECT補助演算子: SEM_CONTAINS演算子を使用して識別されたドキュメントの関連情報を戻します。
-
SemContext索引タイプ: 情報エクストラクタと対話して索引構造のドキュメント・セットから抽出された情報を管理し、ドキュメントに対するセマンティクに意味のある検索を容易にします。
ドキュメントに対して作成されたエクストラクタ・ポリシーおよびセマンティク索引を管理するためのアプリケーション・プログラミング・インタフェース(API)は、SEM_RDFCTX PL/SQLパッケージで提供されます。「SEM_RDFCTXパッケージ・サブプログラム」に、SEM_RDFCTXパッケージのサブプログラムに関するリファレンス情報があります。
- セマンティクに索引付けされたドキュメントに対する情報エクストラクタ
情報エクストラクタは、通常、オントロジで支援された自然言語処理エンジンを使用して、構造化されていないドキュメントを処理し、そこから意味のある情報を抽出します。 - エクストラクタ・ポリシー
エクストラクタ・ポリシーは、ポリシーを使用して作成されるセマンティク索引の特徴を決定する名前付きディクショナリ・エンティティです。 - セマンティクに索引付されたドキュメント
リレーショナル表のCLOBまたはVARCHAR2列に格納されたテキスト・ドキュメントは、セマンティクに意味のある検索を容易にするため、MDSYS.SEMCONTEXT索引タイプを使用して索引付けできます。 - SEM_CONTAINS演算子および補助演算子
標準のSQL文でSEM_CONTAINS演算子を使用して、リレーショナル表に格納されているドキュメントまたはドキュメント参照を検索できます。 - SPARQL問合せパターンを使用したドキュメントの検索
セマンティクに索引付けされたドキュメント(mdsys.SemContext索引タイプを使用して索引付けされたドキュメント)は、標準のSQL問合せ内でSEM_CONTAINS演算子を使用して検索できます。 - ドキュメント内の一致サブグラフでのSPARQL変数のバインディング(SEM_CONTAINS_SELECT補助演算子)
SEM_CONTAINS_SELECT補助演算子を使用すると、SEM_CONTAINS演算子を使用して照合された各ドキュメントの追加情報を返すことができます。 - ドキュメント検索操作の品質向上
ドキュメント検索操作の品質は、ドキュメントの索引付けに使用されるエクストラクタが生成する情報の品質に左右されます。抽出される情報が不完全の場合、ドキュメントに注釈を追加できます。 - 外部ドキュメントの索引付け
ファイル・システムまたはネットワークに格納されているドキュメントに対してセマンティク索引付けを使用できます。この場合、表の列に外部ドキュメントへの参照を格納し、適切なエクストラクタ・ポリシーを使用してその列にセマンティク索引を作成します。 - Calaisエクストラクタ・タイプの構成
CALAIS_EXTRACTORタイプ(RDFCTX_WS_EXTRACTORタイプのサブタイプ)を使用すると、パブリックにアクセス可能なものを含む(OpenCalais.com
)ネットワーク上の任意の場所にあるWebサービス・エンド・ポイントにアクセスできます。 - General Architecture for Text Engineering (GATE)の使用
General Architecture for Text Engineering (GATE)は、オープン・ソースの自然言語プロセッサおよび情報エクストラクタです。 - 新たなエクストラクタ・タイプの作成
RDFCTX_EXTRACTORまたはRDFCTX_WS_EXTRACTORエクストラクタ・タイプを拡張することによって、新しいエクストラクタ・タイプを作成できます。 - レンジ・パーティション表に対するローカル・セマンティク索引の作成
レンジ・パーティション表のVARCHAR2またはCLOB列にローカル索引を作成できます。 - セマンティク索引の変更
セマンティク索引とともにALTER INDEX文を使用できます。 - CREATE INDEXおよびALTER INDEXによるエクストラクタに固有なパラメータの引渡し
CREATE INDEXおよびALTER INDEX文で、エクストラクタに必要なパラメータを渡すことができます。 - ドキュメントを中心にした推論の実行
ドキュメント中心の推論とは、各ドキュメントから個々に推論する機能です。 - セマンティク索引付けに関するメタデータのビュー
この項では、セマンティク索引付けに関するメタデータを含むビューについて説明します。 - GATEエクストラクタの出力で使用されるデフォルトのスタイル・シート
この項では、mdsys.gatenlp_extractor
の実装で、XMLでエンコードされた注釈セットのRDF/XMLへの変換に使用されるデフォルトのXMLスタイル・シートを一覧で示します。
親トピック: 概念および使用方法に関する情報