ドキュメントのセマンティク索引付け

5 ドキュメントのセマンティク索引付け

情報エクストラクタは、構造化されていないドキュメントから意味のある情報を検索して抽出します。この抽出された情報に基づいてドキュメントを検索する機能は、全文検索エンジンでサポートされるキーワード・ベースの検索より大幅に優れています。

ドキュメントのセマンティク索引付けによって、情報エクストラクタおよびアノテータを使用して、リレーショナル表に格納されているドキュメントにセマンティクに索引付けできる索引タイプが導入されます。セマンティクに索引付けされたドキュメントは、標準のSQL問合せ内でSEM_CONTAINS演算子を使用して検索できます。これらのドキュメントの検索条件は、次の例に示すとおり、ドキュメントから抽出された情報に基づいて機能するSPARQL問合せパターンを使用して表現されます。

SELECT docId
FROM   Newsfeed
WHERE  SEM_CONTAINS (article, 
     ' { ?org    rdf:type            typ:Organization  . 
         ?org    pred:hasCategory    cat:BusinessFinance } ', ..) = 1

Oracle Databaseのドキュメントのセマンティク索引付けを容易にする主要コンポーネントは、次のとおりです。

拡張可能な情報エクストラクタ・フレームワーク: サードパーティの情報エクストラクタをデータベースにプラグインできます。
SEM_CONTAINS演算子: 標準のSQL問合せを使用して、抽出された情報に基づいて目的のドキュメントを識別します。
SEM_CONTAINS_SELECT補助演算子: SEM_CONTAINS演算子を使用して識別されたドキュメントの関連情報を戻します。
SemContext索引タイプ: 情報エクストラクタと対話して索引構造のドキュメント・セットから抽出された情報を管理し、ドキュメントに対するセマンティクに意味のある検索を容易にします。

ドキュメントに対して作成されたエクストラクタ・ポリシーおよびセマンティク索引を管理するためのアプリケーション・プログラミング・インタフェース(API)は、SEM_RDFCTX PL/SQLパッケージで提供されます。「SEM_RDFCTXパッケージ・サブプログラム」に、SEM_RDFCTXパッケージのサブプログラムに関するリファレンス情報があります。

セマンティクに索引付けされたドキュメントに対する情報エクストラクタ
情報エクストラクタは、通常、オントロジで支援された自然言語処理エンジンを使用して、構造化されていないドキュメントを処理し、そこから意味のある情報を抽出します。
エクストラクタ・ポリシー
エクストラクタ・ポリシーは、ポリシーを使用して作成されるセマンティク索引の特徴を決定する名前付きディクショナリ・エンティティです。
セマンティクに索引付されたドキュメント
リレーショナル表のCLOBまたはVARCHAR2列に格納されたテキスト・ドキュメントは、セマンティクに意味のある検索を容易にするため、MDSYS.SEMCONTEXT索引タイプを使用して索引付けできます。
SEM_CONTAINS演算子および補助演算子
標準のSQL文でSEM_CONTAINS演算子を使用して、リレーショナル表に格納されているドキュメントまたはドキュメント参照を検索できます。
SPARQL問合せパターンを使用したドキュメントの検索
セマンティクに索引付けされたドキュメント(mdsys.SemContext索引タイプを使用して索引付けされたドキュメント)は、標準のSQL問合せ内でSEM_CONTAINS演算子を使用して検索できます。
ドキュメント内の一致サブグラフでのSPARQL変数のバインディング(SEM_CONTAINS_SELECT補助演算子)
SEM_CONTAINS_SELECT補助演算子を使用すると、SEM_CONTAINS演算子を使用して照合された各ドキュメントの追加情報を返すことができます。
ドキュメント検索操作の品質向上
ドキュメント検索操作の品質は、ドキュメントの索引付けに使用されるエクストラクタが生成する情報の品質に左右されます。抽出される情報が不完全の場合、ドキュメントに注釈を追加できます。
外部ドキュメントの索引付け
ファイル・システムまたはネットワークに格納されているドキュメントに対してセマンティク索引付けを使用できます。この場合、表の列に外部ドキュメントへの参照を格納し、適切なエクストラクタ・ポリシーを使用してその列にセマンティク索引を作成します。
Calaisエクストラクタ・タイプの構成
CALAIS_EXTRACTORタイプ(RDFCTX_WS_EXTRACTORタイプのサブタイプ)を使用すると、パブリックにアクセス可能なものを含む(OpenCalais.com)ネットワーク上の任意の場所にあるWebサービス・エンド・ポイントにアクセスできます。
General Architecture for Text Engineering (GATE)の使用
General Architecture for Text Engineering (GATE)は、オープン・ソースの自然言語プロセッサおよび情報エクストラクタです。
新たなエクストラクタ・タイプの作成
RDFCTX_EXTRACTORまたはRDFCTX_WS_EXTRACTORエクストラクタ・タイプを拡張することによって、新しいエクストラクタ・タイプを作成できます。
レンジ・パーティション表に対するローカル・セマンティク索引の作成
レンジ・パーティション表のVARCHAR2またはCLOB列にローカル索引を作成できます。
セマンティク索引の変更
セマンティク索引とともにALTER INDEX文を使用できます。
CREATE INDEXおよびALTER INDEXによるエクストラクタに固有なパラメータの引渡し
CREATE INDEXおよびALTER INDEX文で、エクストラクタに必要なパラメータを渡すことができます。
ドキュメントを中心にした推論の実行
ドキュメント中心の推論とは、各ドキュメントから個々に推論する機能です。
セマンティク索引付けに関するメタデータのビュー
この項では、セマンティク索引付けに関するメタデータを含むビューについて説明します。
GATEエクストラクタの出力で使用されるデフォルトのスタイル・シート
この項では、mdsys.gatenlp_extractorの実装で、XMLでエンコードされた注釈セットのRDF/XMLへの変換に使用されるデフォルトのXMLスタイル・シートを一覧で示します。

親トピック: 概念および使用方法に関する情報

5.1 ドキュメントのセマンティク索引付け用の情報エクストラクタ

情報エクストラクタは、通常、オントロジで支援された自然言語処理エンジンを使用して、構造化されていないドキュメントを処理し、そこから意味のある情報を抽出します。

ドキュメントから抽出される情報の品質と完全性は、エクストラクタごとに異なります。一部のエクストラクタは単にエンティティを識別するのみですが(ドキュメントに基づく人、組織および地理的場所の名前など)、他のエクストラクタは識別したエンティティ間の関係やそれらのエンティティの追加記述の識別を試みます。ドキュメントから抽出された情報がセマンティク索引として管理されている場合、大規模なセットから特定のドキュメントを検索できます。

情報エクストラクタを使用して、リレーショナル表の列に格納されたドキュメントに対してセマンティク索引を作成できます。拡張可能なフレームワークによって、データベースからアクセス可能なサードパーティの情報エクストラクタをデータベースにプラグインできます。エクストラクタ用に作成されたオブジェクト型は、抽出ロジックをカプセル化し、エクストラクタを構成してRDF/XML形式の特定のドキュメントから抽出された情報を受信するメソッドを持ちます。

抽象タイプMDSYS.RDFCTX_EXTRACTORは、すべての情報エクストラクタに共通のインタフェースを定義します。この抽象タイプの実装は、特定の情報エクストラクタと対話して特定のドキュメントのRDF/XMLを生成します。このタイプの実装は、データベース・アプリケーションとして使用できるか、ネットワークにインストールされている(Webサービス・コールアウトを使用してアクセスされる)サードパーティの情報エクストラクタにアクセスできます。例5-1に、RDFCTX_EXTRACTOR抽象タイプの定義を示します。

例5-1 RDFCTX_EXTRACTOR抽象タイプの定義

create or replace type rdfctx_extractor authid current_user as object (
  extr_type        VARCHAR2(32),
  member function  getDescription return VARCHAR2,
  member function  rdfReturnType return VARCHAR2,
  member function  getContext(attribute VARCHAR2) return VARCHAR2,
  member procedure startDriver,
  member function  extractRDF(document CLOB,
                              docId    VARCHAR2) return CLOB,
  member function  extractRdf(document CLOB,
                              docId    VARCHAR2,
                              params   VARCHAR2,
                              options  VARCHAR2 default NULL) return CLOB
  member function  batchExtractRdf(docCursor        SYS_REFCURSOR,
                              extracted_info_table  VARCHAR2,
                              params                VARCHAR2,
                              partition_name        VARCHAR2 default NULL,
                              docId                 VARCHAR2 default NULL,
                              preferences           SYS.XMLType default NULL,
                              options               VARCHAR2 default NULL)  
                              return CLOB,
  member procedure closeDriver
) not instantiable not final
/

RDFCTX_EXTRACTORタイプの特定の実装は、extr_type属性にこのエクストラクタ・タイプの識別子を設定し、getDescriptionメソッドを使用してこのエクストラクタ・タイプの短い説明を戻します。この抽象タイプのすべての実装で、抽出情報がRDFトリプルとして戻されます。現在のリリースでは、RDFトリプルはRDF/XML形式でシリアライズされることが期待されるため、rdfReturnTypeメソッドは'RDF/XML'を戻す必要があります。

エクストラクタ・タイプの実装は、extractRDFメソッドを使用して抽出ロジックをカプセル化し(おそらく独自のインタフェースを使用して外部情報エクストラクタを起動することによって)、抽出情報をRDF/XML形式で戻します。サード・パーティのエクストラクタがいくつかの独自のXMLスキーマを使用して抽出情報を取得する場合は、同等のRDF/XMLを生成するためにXMLスタイル・シートを使用できます。startDriverおよびcloseDriverメソッドは、情報エクストラクタに関係するハウスキーピング操作を実行できます。オプションのparamsパラメータを使用すると、エクストラクタが必要な抽出タイプ(たとえば、目的の抽出品質)に関する追加情報を取得できます。

必要に応じて、batchExtractRdfメンバー関数の実装を提供することによって、エクストラクタ・タイプの実装でバッチ・インタフェースをサポートする場合があります。この関数は入力パラメータdocCursorを介してカーソルを受け入れ、通常はそのカーソルを使用して各ドキュメントを取得し、ドキュメントから情報を抽出し、その抽出情報をextracted_info_table表のpartition_nameパーティションで識別される指定されたパーティションに挿入します。preferencesパラメータは、ポリシーに関連付けられたプリファレンス値の取得に使用されます(「外部ドキュメントの索引付け」およびSEM_RDFCTX.CREATE_POLICYのリファレンスの項を参照してください)。

getContextメンバー関数は属性名を受け入れ、その属性の値を戻します。現在、この関数は、バッチ・インタフェースをサポートしているエクストラクタに対してのみ使用されます。属性名と、それに対応する可能な戻り値を次に示します。

BATCH_SUPPORT属性: 戻り値は、エクストラクタがバッチ・インタフェースをサポートするかどうかに応じて、YESまたはNOです。
DBUSER属性: 戻り値は、カーソル(docCursorパラメータによって識別される)から行を取得するためにデータベースに接続し、表extracted_info_tableに書き込むデータベース・ユーザーの名前です。

この情報は、索引付けされる表および表extracted_info_tableに適切な権限を付与するために使用されます。

startDriverおよびcloseDriverメソッドは、情報エクストラクタに関係するハウスキーピング操作を実行できます。

General Architecture for Text Engineering (GATE)エンジンのエクストラクタ・タイプは、RDFCTX_EXTRACTORタイプのサブタイプとして定義されます。このエクストラクタ・タイプの実装は、TCP接続を介してGATEエンジンにドキュメントを送信し、エンジンによって抽出された注釈をXML形式で受信して、その独自のXMLドキュメントをRDF/XMLドキュメントに変換します。Oracle DatabaseでGATEエンジンを使用する構成の詳細は、「General Architecture for Text Engineering (GATE)の使用」を参照してください。新しい情報エクストラクタを作成する例は、「新たなエクストラクタ・タイプの作成」を参照してください。

Webサービスとしてデプロイされる情報エクストラクタは、RDFCTX_WS_EXTRACTORタイプ(RDFCTX_EXTRACTORタイプのサブタイプ)を拡張することでデータベースから起動できます。RDFCTX_WS_EXTRACTORタイプはextractRDFメソッドでWebサービス・コールアウトをカプセル化します(関連する属性値をタイプ・コンストラクタで設定することによって、ネットワークベースのエクストラクタの特定の実装でこの実装を再利用できます)。

Thomson Reuters Calaisは、Webサービス・コールアウトを使用してアクセスできるネットワーク・ベースの情報エクストラクタの一例です。RDFCTX_WS_EXTRACTORタイプのサブタイプであるCALAIS_EXTRACTORタイプは、Calais抽出ロジックをカプセル化し、それを使用してドキュメントにセマンティクに索引付けできます。CALAIS_EXTRACTORタイプをセマンティク索引の作成に使用するには、「CALAIS_EXTRACTORタイプの構成」の説明のとおりに、事前にこのタイプをデータベース・インスタンスに対して構成する必要があります。

列名	データ型	説明
POLICY_OWNER	VARCHAR2(32)	エクストラクタ・ポリシーの所有者
POLICY_NAME	VARCHAR2(32)	エクストラクタ・ポリシーの名前
EXTRACTOR	MDSYS.RDFCTX_EXTRACTOR	エクストラクタ・タイプのインスタンス
IS_DEPENDENT	VARCHAR2(3)	エクストラクタ・ポリシーがベース・ポリシーに依存する場合は`YES`を含み、エクストラクタ・ポリシーがベース・ポリシーに依存しない場合は`NO`を含みます。
BASE_POLICY	VARCHAR2(32)	依存ポリシーの場合、ベース・ポリシーの名前
USER_MODELS	MDSYS.RDF_MODELS	依存ポリシーの場合、そのポリシーに含まれるRDFモデルのリスト

列名	データ型	説明
INDEX_OWNER	VARCHAR2(32)	セマンティク索引の所有者
INDEX_NAME	VARCHAR2(32)	セマンティク索引の名前
INDEX_PARTITION	VARCHAR2(32)	索引パーティションの名前(LOCAL索引のみ)
POLICY_NAME	VARCHAR2(32)	エクストラクタ・ポリシーの名前
EXTR_PARAMETERS	VARCHAR2(100)	エクストラクタに指定されたパラメータ
IS_DEFAULT	VARCHAR2(3)	POLICY_NAMEが索引のデフォルトのエクストラクタ・ポリシーの場合は`YES`を含み、POLICY_NAMEが索引のデフォルトのエクストラクタ・ポリシーではない場合は`NO`を含みます。
STATUS	VARCHAR2(10)	`VALID`(索引が有効の場合)、`INPROGRESS`(索引が作成中の場合)または`FAILED`(索引の作成中にシステム障害が発生した場合)が含まれます。
RDF_MODEL	VARCHAR2(32)	索引データを保持するRDFモデルの名前

列名	データ型	説明
INDEX_OWNER	VARCHAR2(32)	例外に関連付けられたセマンティク索引の所有者
INDEX_NAME	VARCHAR2(32)	例外に関連付けられたセマンティク索引の名前
POLICY_NAME	VARCHAR2(32)	例外に関連付けられたエクストラクタ・ポリシーの名前
DOC_IDENTIFIER	VARCHAR2(38)	例外に関連付けられたドキュメントの行識別子(ROWID)
EXCEPTION_TYPE	VARCHAR2(13)	例外のタイプ
EXCEPTION_CODE	NUMBER	例外に関連付けられたエラー・コード
EXCEPTION_TEXT	CLOB	例外に関連付けられたテキスト
EXTRACTED_AT	TIMESTAMP	例外が発生した時刻

5 ドキュメントのセマンティク索引付け

5.1 ドキュメントのセマンティク索引付け用の情報エクストラクタ

5.2 エクストラクタ・ポリシー

5.3 セマンティクに索引付けされたドキュメント

5.4 SEM_CONTAINSと補助演算子

5.4.1 SEM_CONTAINS_SELECT補助演算子

5.4.2 SEM_CONTAINS_COUNT補助演算子

5.5 SPARQL問合せパターンを使用したドキュメントの検索

5.6 ドキュメント内の一致サブグラフでのSPARQL変数のバインディング(SEM_CONTAINS_SELECT補助演算子)

5.7 ドキュメント検索操作の品質向上

5.8 外部ドキュメントの索引付け

5.9 Calaisエクストラクタ・タイプの構成

5.10 General Architecture for Text Engineering (GATE)の使用

5.11 新たなエクストラクタ・タイプの作成

5.12 レンジ・パーティション表に対するローカル・セマンティク索引の作成

5.13 セマンティク索引の変更

5.13.1 セマンティク索引内にあるすべての既存ポリシーに対する内容の再構築

5.13.2 セマンティク索引に新しいポリシーに関する内容を追加するための再構築

5.13.3 既存ポリシーに関する内容のセマンティク索引からの再構築

5.13.4 セマンティク索引から既存ポリシーに関する内容を削除するための再構築

5.14 CREATE INDEXおよびALTER INDEXによるエクストラクタに固有なパラメータの引渡し

5.15 ドキュメントを中心にした推論の実行

5.16 セマンティク索引付に関するメタデータのビュー

5.16.1 MDSYS.RDFCTX_POLICIESビュー

5.16.2 RDFCTX_INDEX_POLICIESビュー

5.16.3 RDFCTX_INDEX_EXCEPTIONSビュー

5.17 GATEエクストラクタの出力で使用されるデフォルトのスタイル・シート