テキスト・ポリシーの作成

Oracle Textのポリシーは、テキスト内容をどのように解釈する必要があるのかを指定します。モデル、属性、またはモデルと個々の属性の両方を制御するテキスト・ポリシーを提供できます。モデル固有のポリシーが存在し、1つ以上の属性が独自のポリシーを持つ場合、Oracle Data Miningでは、指定された属性に対しては属性のポリシーを使用し、その他の属性に対してはモデル固有のポリシーを使用します。

テキスト・ポリシーの作成は、CTX_DDL.CREATE_POLICYプロシージャで行います。

CTX_DDL.CREATE_POLICY(
          policy_name    IN VARCHAR2,
          				filter         IN VARCHAR2 DEFAULT NULL,
          				section_group  IN VARCHAR2 DEFAULT NULL,
          				lexer          IN VARCHAR2 DEFAULT NULL,
          				stoplist       IN VARCHAR2 DEFAULT NULL,
          				wordlist       IN VARCHAR2 DEFAULT NULL);

CTX_DDL.CREATE_POLICYのパラメータを、次の表で説明します。

表7-3 CTX_DDL.CREATE_POLICYプロシージャのパラメータ

パラメータ名	説明
`policy_name`	新しいポリシー・オブジェクトの名前。Oracle Textのポリシーとテキスト索引は、同じネームスペースを共有します。
`filter`	索引付けのためにドキュメントをプレーン・テキストに変換する方法を指定します。例としては、キャラクタ・セット用の`CHARSET_FILTER`や、プレーン・テキスト、HTMLおよびXML用の`NULL_FILTER`があります。 `filter`値については、『Oracle Textリファレンス』のフィルタ型に関する説明を参照してください。
`section_group`	ドキュメント内のセクションを特定します。たとえば、`HTML_SECTION_GROUP`はHTMLドキュメント内のセクションを定義します。 `section_group`値については、『Oracle Textリファレンス』のセクション・グループ型に関する説明を参照してください。注意: `CONTEXT`索引でサポートされている任意のセクション・グループを指定できます。
`lexer`	索引付けされている言語を特定します。たとえば、`BASIC_LEXER`は、空白で区切られた単語を使用する言語(英語やほとんどの西ヨーロッパ言語など)のテキストから用語を抽出するためのレクサーです。 `lexer`値については、『Oracle Textリファレンス』のレクサー型に関する説明を参照してください。
`stoplist`	用語抽出から除外する単語とテーマを指定します。たとえば、英語言語のドキュメントの場合、単語の「the」は通常ストップリストに含まれます。デフォルトではシステム提供のストップリストが使用されます。『Oracle Textリファレンス』のストップリストに関する説明を参照してください。
`wordlist`	ステミング問合せおよびファジー問合せの拡張方法を指定します。ステムは、異なる文法形式で単一表現を持つことができるように単語の原形を定義します。ファジー問合せには、単語の表現における一般的なスペルミスが含まれます。『Oracle Textリファレンス』の`BASIC_WORDLIST`に関する説明を参照してください。