ヘッダーをスキップ
Oracle Textアプリケーション開発者ガイド
11g リリース1(11.1)
E05788-02
  目次
目次
索引
索引

戻る
戻る
 
次へ
次へ
 

用語集

AUTO_SECTION_GROUP

XMLドキュメント内で開始タグと終了タグのペアごとにゾーン・セクションを自動的に作成するために使用するセクション・グループ。属性を持つXMLタグについては、属性セクションが自動的に作成される。「属性セクション」「セクション」「セクション・グループ」「XML_SECTION_GROUP」「ゾーン・セクション」も参照。

BASIC_SECTION_GROUP

開始および終了タグが<tag>および</tag>という形式のセクションを定義するために使用されるセクション・グループ。コメント・タグ、属性付きタグまたは片方のみのカッコ付きタグなど、基本以外のタグはサポートされない。「HTML_SECTION_GROUP」「セクション」「セクション・グループ」も参照。

CONTEXT索引(CONTEXT index)

基本的なタイプのOracle Text索引(テキスト列の索引)。CONTEXT索引は、ソース・テキストが大量のまとまったドキュメントで構成されている場合に有用である。CONTEXT索引を使用するアプリケーションは、CONTAINS問合せ演算子を使用してテキストを取り出す。

CTXAPPロール(CTXAPP role)

ユーザーがOracle Text索引と索引プリファレンスを作成し、PL/SQLパッケージを使用できるようにする、アプリケーション開発者のロール。このロールはOracle Textユーザーに付与する必要がある。

CTXCAT索引(CTXCAT index)

1つのテキスト列と他の1つ以上の列が結合された索引。通常は、カタログによくある品目名、価格および説明など、小さいドキュメントやテキスト断片の索引付けに使用する。一般に、CTXCAT索引は、CONTEXT索引よりも複合問合せのパフォーマンスが優れている。

アプリケーションは、この索引をCATSEARCH演算子を使用して問い合せる。この索引はトランザクションに基づき、元表に対するDMLにより自動的に更新される。

CTXRULE索引(CTXRULE index)

ドキュメント分類アプリケーションの構築に使用される索引。CTXRULE索引は、問合せ表に作成する索引で、問合せは分類基準を定義するルールとして機能する。この索引は、MATCHES演算子で問い合せる。

CTXSYSユーザー(CTXSYS user)

CTXSYSユーザーは、インストール時に作成される。CTXSYSユーザーは、全索引の表示、全索引の同期化、ctxkbtc(ナレッジ・ベース拡張コンパイラ)の実行、すべてのシステム定義ビューの問合せ、およびCTXAPPロールを持つユーザーの全タスクの実行が可能。

CTXXPATH索引(CTXXPATH index)

XMLType列に対するexistsNode()問合せを高速にするために使用される索引。

endjoin

トークンの最終文字として出現し、トークンの終わりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後のstartjoin文字は、トークンのテキスト索引エントリに含まれる。たとえば、endjoinとして++を指定すると、C++が認識されて単一トークンとして索引付けされる。「printjoin」「skipjoin」「startjoin」も参照。

HASPATH演算子(HASPATH operator)

問合せで指定したとおりのセクション・パスを含むXMLドキュメントの検索に使用するCONTAINS問合せ演算子。「PATH_SECTION_GROUP」も参照。

HTML_SECTION_GROUP

HTMLドキュメントのセクション定義に使用するセクション・グループ・タイプ。「BASIC_SECTION_GROUP」「セクション」「セクション・グループ」も参照。

INPATH演算子(INPATH operator)

XMLドキュメントのタグ内またはパス内の検索に使用するCONTAINS問合せ演算子。WITHIN演算子よりも汎用的なパス名の指定が可能。「WITHIN演算子」も参照。

KWIC(Key Word in Context)

Oracle Textで、ソース・ドキュメント内の前後のテキストとともに問合せ用語を表示する方法。この表示方法は、問合せ用語の単一インスタンス、複数インスタンスまたはソース・ドキュメント内の各インスタンスで構成される。これはCTX_DOC.SNIPPETプロシージャにより生成される。Key Word in Context(KWIC)とも呼ばれる。

MDATA

「メタデータ」を参照。

MDATAセクション(MDATA section)

ユーザー定義索引メタデータが含まれている。このメタデータを使用すると、複合CONTAINS問合せを高速化できる。「メタデータ」「複合問合せ」「セクション」も参照。

NEWS_SECTION_GROUP

RFC 1036で定義されたニュース・グループ形式のドキュメントのセクションを定義するために使用されるセクション・グループ・タイプ。「セクション」「セクション・グループ」も参照。

NULL_SECTION_GROUP

セクションが定義されていない場合や、SENTENCEまたはPARAGRAPHセクションのみが定義されている場合の、デフォルトのセクション・グループ・タイプ。「セクション」「セクション・グループ」「特殊セクション」も参照。

PATH_SECTION_GROUP

XMLドキュメントの索引付けに使用されるセクション・グループ・タイプ。AUTO_SECTION_GROUPタイプに似ているが、HASPATHおよびINPATH演算子を使用できる。「AUTO_SECTION_GROUP」「HASPATH演算子」「INPATH演算子」「セクション」「セクション・グループ」も参照。

printjoin

ワードの任意の場所(先頭、中間または最後)に出現した場合に、英数字として処理されてOracle Text索引にトークンとともに含まれる、英数字以外の1文字以上の文字。これには、連続的に発生するprintjoinが含まれる。

たとえば、ハイフン(-)とアンダースコア(_)がprintjoinとして定義されている場合、pseudo-intellectual_file_などの語句はOracle Text索引にpseudo-intellectualおよび_file_として格納される。

endjoinおよびstartjoinとは異なり、printjoinの場合は位置は無関係である。たとえば、$がstartjoinまたはprintjoinとして定義されている場合、$35は1つのトークンとして索引付けされるが、endjoinとして定義されている場合は2つのトークンとして索引付けされる。「endjoin」「printjoin」「startjoin」も参照。

SDATAセクション(SDATA section)

構造化/ソート・データ・セクション。等価性検索のみをサポートするMDATAセクション・タイプとは異なり、SDATAセクションは範囲検索もサポートするように設計されている。デフォルトでは、すべてのFILTER BY列とORDER BY列がSDATAセクションとしてマップされる。SDATAセクションにはユーザー定義索引メタデータが含まれている。このタイプのセクションを使用すると、複合CONTAINS問合せを高速化できる。「複合問合せ」「セクション」も参照。

skipjoin

ワード内に出現した場合に、そのワードを単一トークンとして識別する英数字以外の文字。ただし、その文字はテキスト索引にトークンとともに格納されない。たとえば、ハイフン(-)がskipjoinとして定義されている場合、ワードpseudo-intellectualはテキスト索引にpseudointellectualとして格納される。「endjoin」「printjoin」「startjoin」も参照。

startjoin

トークンの第1文字として出現し、トークンの始まりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後の他のstartjoin文字は、トークンのテキスト索引エントリに含まれる。たとえば、$がstartjoinとして定義されている場合、$35は単一トークンとして索引付けされる。また、startjoin文字列の最初のstartjoin文字は、前のトークンを暗黙的に終了させる。「endjoin」「printjoin」「skipjoin」も参照。

WITHIN演算子(WITHIN operator)

特定のXMLドキュメント・セクション内で問合せ語句の検索に使用されるCONTAINS問合せ演算子。INPATH演算子に似ているが、より限定的である。「INPATH演算子」も参照。

XML_SECTION_GROUP

索引付けするXMLドキュメントの識別に使用されるセクション・グループ。「セクション」「セクション・グループ」も参照。

XMLセクション(XML section)

XMLタグで定義され、XMLセクション検索を可能にするセクション。XMLセクションで索引付けすると、ドキュメント・タイプ別のセクションを宣言できるのみでなく、自動セクション化が可能。XMLセクション検索には、INPATHHASPATHおよびWITHIN演算子を使用したパス・セクション検索のみでなく属性検索が含まれる。「セクション」も参照。

管理型分類(supervised classification)

「分類」を参照。

基本文字変換(base-letter conversion)

代替書式(アクセント、ウムラウトまたはセディラなど)を持つ文字を基本書式(アクセントなしなど)に変換すること。

空白(whitespace)

トークン間の空白として扱われる文字。空白の事前定義済のデフォルト値は「space」と「tab」である。BASIC_LEXERでは、空白文字を(句読点および改行文字とともに)使用して、文と段落の検索に文デリミタとして機能する文字列が識別される。

クラスタ化(clustering)

非管理型分類と同義。「分類」を参照。

ケース(case)

語句や文字に大文字を使用すること。たとえば、大文字を使用するとmのかわりにMとなる。大文字のない言語もある。特に西ヨーロッパなどの一部の言語では、大/小文字混合の索引付けがサポートされている。

コンポジット・ドメイン索引(composite domain index)

CDIタイプの索引とも呼ばれる。指定されたテキスト列を索引付けおよび処理するだけでなく、索引の作成中に指定されたFILTER BYおよびORDER BY構造化列も索引付けおよび処理するOracle Text索引。「ドメイン索引」も参照。

サブレクサー(sub-lexer)

「レクサー」を参照。

ステミング(stemming)

同じ語幹のワードを持つ語句をすべて含むように問合せ語句を拡張すること。たとえば、動詞talkをステミングすると、talkのみでなくtalkingtalksおよびtalkedが導出される(ただし、talkieは導出されない)。ステミングと異なり、ワイルド・カード拡張の場合は結果がスペルにのみ関連し、語形には関連しない。「ワイルド・カード拡張」も参照。

ストップクラス(stopclass)

NUMBERなど、索引作成時にスキップされるトークンのクラス。ストップクラスを指定するには、CTX_DDL.ADD_STOPCLASSでストップリストにストップクラスを追加する。「ストップリスト」も参照。

ストップテーマ(stoptheme)

索引作成時にスキップされるテーマ。ストップテーマを指定するには、CTX_DDL.ADD_STOPTHEMESでストップリストに追加する。「ストップリスト」も参照。

ストップリスト(stoplist)

ストップワード、テーマ(ストップテーマ)およびデータ・クラス(ストップクラス)と呼ばれ、索引作成の対象にならないワードのリスト。デフォルトでは、指定のデータベース言語に対応するシステム提供のストップリストを使用してテキストが索引付けされる。

Oracle Textには、英語、フランス語、ドイツ語、スペイン語、中国語、オランダ語およびデンマーク語など、最も一般的な言語用のデフォルトのストップリストが用意されている。これらのデフォルト・ストップリストには、ストップワードのみが含まれている。ストップリストは、CTX_DDL.CREATE_STOPLISTまたはALTER INDEX文で作成する。「ストップクラス」「ストップテーマ」「ストップワード」も参照。

ストップワード(stopword)

索引作成時にスキップされるワード。ストップワードを指定するには、CTX_DDL.ADD_STOPWORDでストップリストにストップワードを追加する。ALTER INDEX文を使用して索引に動的に追加することもできる。「ストップリスト」も参照。

正規化されたワード(normalized word)

有効な変換ルールに従って索引付けのために変換された後のワードの書式。有効なルールによっては、ワードの正規化形式がソース・ドキュメント内の形式と同一の場合がある。正規化形式のワードには、オリジナル・バージョンと変換済バージョンの両方が含まれる場合もある。たとえば、ドイツ語の新規スペルが指定されている場合、ワードPotentialPotenzialおよびPotentialの両方に正規化される。

セクション(section)

ドキュメントの下位区分。たとえば、HTMLページの<a>...</a>セクション内の内容全体。

1つのドキュメントを複数のセクションに分割してからセクション内で検索すると、テキスト問合せをドキュメント内のテキスト・ブロックに絞り込むことができる。 セクション検索は、HTMLやXMLのドキュメントのように、ドキュメントに内部構造がある場合に有効である。 また、テキストを文レベルと段落レベルで検索できる。

セクション検索は、HASPATHISPATHまたはWITHIN演算子を使用して実行する。セクション検索を使用可能にするには、索引作成時にセクション・グループを使用する。

各種セクション・タイプには、属性、フィールド、HTML、MDATA、特殊、停止、XMLおよびゾーンなどがある。

セクション・グループ(section group)

ドキュメント・セットのタイプを識別し、索引付けに使用するタグ構造を暗黙的に示すグループ。たとえば、HTMLタグ付きのドキュメントを索引付けするには、HTML_SECTION_GROUPセクション・グループ・タイプを使用する。同様に、XMLタグ付きのドキュメントを索引付けするには、XML_SECTION_GROUPセクション・グループ・タイプを使用する。セクション・グループは、CTX_DDL.CREATE_SECTION_GROUPプロシージャまたはALTER INDEX文を使用して宣言する。「セクション」も参照。

ゾーン・セクション(zone section)

基本的なタイプのドキュメント・セクション。ドキュメント内の開始タグと終了タグで区切られたテキストの本体。 ゾーン・セクションは、HTMLおよびXMLドキュメントのセクションの定義に最適である。ゾーン・セクションは、CTX_DDL.ADD_ZONE_SECTIONプロシージャまたはALTER INDEX文を使用してセクション・グループに追加する。「フィールド・セクション」「セクション」「セクション・グループ」も参照。

属性(attribute)

プリファレンスに関連付けられているオプションのパラメータ。たとえば、BASIC_LEXERプリファレンスにはbase_letter属性が含まれる。この属性には、値YES(基本文字変換を実行)またはNO(基本文字変換を実行しない)を指定できる。属性の設定には、CTX_DDL.SET_ATTRIBUTEプロシージャまたはALTER INDEX文を使用する。「プリファレンス」「基本文字変換」も参照。

属性セクション(attribute section)

AUTHORまたはTITLEなど、XMLドキュメントの属性を表すユーザー定義セクション。属性セクションは、CTX_DDL.ADD_ATTR_SECTIONまたはALTER INDEX文を使用してセクション・グループに追加する。「AUTO_SECTION_GROUP」「セクション」「XML_SECTION_GROUP」も参照。

代替スペル(alternate spelling)

Oracle Textで、特にドイツ語、スウェーデン語およびオランダ語でスペルのバリエーションを使用すること。BASIC_LEXER属性のALTERNATE_SPELLINGが指定されている場合は、これらのバリエーションに索引付けできる。

テーマ(theme)

特定のドキュメントに関連付けられているトピック。1つのドキュメントに多数のテーマが存在する場合がある。ドキュメントにテーマが表示される必要はなく、たとえば、ワードSan Franciscoを含むドキュメントがテーマの1つとしてCaliforniaを持つ場合がある。

テーマ・コンポーネントを索引に追加するには、BASIC_LEXERプリファレンスのINDEX_THEMES属性を使用する。ドキュメントから抽出するにはCTX_DOC.THEMESを使用し、問合せにはABOUT演算子を使用する。

停止セクション(stop section)

AUTO_SECTION_GROUPに追加され、そのタイプのドキュメント・セクションの情報を索引作成中に無視させるセクション。ただし、セクションの内容は検索可能。停止セクションは、CTX_DDL.ADD_STOP_SECTIONプロシージャを使用してセクション・グループに追加される。「AUTO_SECTION_GROUP」「セクション」「セクション・グループ」も参照。

データストア(datastore)

Oracle Textにおけるテキストの格納方法。格納方法は、特定の型の記憶域プリファレンスを指定することで決定される。たとえば、DIRECT_DATASTORE型ではデータはテキスト列に直接格納されるが、URL_DATASTOREではデータをURLで指定した外部の場所に格納するように指定される。

特殊セクション(special section)

タグで境界が設定されていないドキュメント・セクション。かわりに、セクションは文や段落などのプレーン・テキスト・ドキュメント構造で形成される。特殊セクションは、CTX_DDL.ADD_SPECIAL_SECTIONプロシージャを使用してセクション・グループに追加される。「セクション」「セクション・グループ」も参照。

ドメイン索引(domain index)

指定されたテキスト列を索引付けおよび処理するOracle Databaseのドメイン索引。「コンポジット・ドメイン索引」も参照。

ナレッジ・ベース(knowledge base)

Oracle Textに組み込まれている、テーマの索引付け、ABOUT問合せおよびドキュメント・サービスでのドキュメント・テーマの抽出などに使用する概念の階層ツリー。ナレッジ・ベースはオプションでインストールできる。独自のナレッジ・ベースの作成、または標準のOracle Textのナレッジ・ベースの拡張が可能。

ハイライト表示(highlighting)

通常、Oracle Textでは、問合せ語句が特別な方法で表示またはコールアウトされた状態でドキュメントまたはドキュメント断片のバージョンを生成することを表す。

ハイライト表示には次の3つの形式がある。CTX_DOC.MARKUPは、問合せ語句をプレーン・テキストまたはHTMLタグで囲んだドキュメントを戻す。CTX_DOC.HIGHLIGHTは、ユーザーが必要に応じてドキュメントをマークアップできるように、問合せ語句のオフセットを戻す。CTX_DOC.SNIPPETは、問合せ語句を前後のテキスト断片に表示したコンコーダンスを生成する。「マークアップ」も参照。

非管理型分類(unsupervised classification)

クラスタ化とも呼ばれる。「分類」を参照。

ファジー・マッチング(fuzzy matching)

ファジー・マッチング問合せでは、指定の語句に似たスペルを持つワードを含むように問合せが拡張される。このタイプの拡張は、ドキュメント・セットにスペルミスが頻出する場合に、より正確な結果を検出する上で有用である。ファジー・マッチングはFUZZY問合せ演算子で呼び出す。

フィールド・セクション(field section)

フィールド・セクションはゾーン・セクションに似ているが、主な違いはフィールド・セクションの開始タグと終了タグの間にある内容をドキュメントの他の部分とは別に索引付けできることである。このため、フィールド・セクションの内容を通常の問合せから非表示にすることができる。(INPATHおよびWITHIN演算子を使用すると、このようなセクション内の語句を検索できる。)フィールド・セクションは、ドキュメント内のセクションに1回のみ出現するニュース・ヘッダーのフィールドなどに適している。フィールド・セクションは、CTX_DDL.ADD_FIELD_SECTIONプロシージャまたはALTER INDEX文を使用してセクション・グループに追加する。「INPATH演算子」「セクション」「WITHIN演算子」「ゾーン・セクション」も参照。

フィルタ処理(filtering)

Oracle Textの索引作成プロセスのステップの1つ。索引作成に関連付けられているフィルタ・プリファレンスに応じて、フィルタ処理中に3つの処理(形式設定されたドキュメントがマークアップされたテキストにフィルタ処理される、テキストが非データベース・キャラクタ・セットからデータベース・キャラクタ・セットに変換される、フィルタ処理が発生しない)のいずれかが発生する(HTML、XMLおよびプレーン・テキスト・ドキュメントはフィルタ処理されない)。

複合問合せ(mixed query)

テキストの内容とドキュメント・タイプなど、タイプの異なる2つの情報を検索する問合せ。<title>メタデータ内のRomeo and Julietの検索は複合問合せの一例。

分類(classification)

「ドキュメント分類」と同義。ソース・ドキュメントをその内容に基づいてグループまたはクラスタに概念的に分割すること。たとえば、ドキュメント・グループを医薬、金融およびスポーツに関するクラスタに分割できる。

Oracle Textには、ルールベース分類、管理型分類およびクラスタ化(非管理型分類)が組み込まれている。ルールベース分類では、ユーザーがドキュメントの分類ルールを(問合せ形式で)記述すると、Oracle Textでルールに従ってドキュメント分類が実行される。管理型分類では、サンプル・ドキュメント・セットに基づいてOracle Textにより分類ルールが作成される。クラスタ化分類の場合は、クラスタとルールの両方がOracle Textにより作成される。

プリファレンス(preference)

Oracle Textによる索引の作成方法に影響するオプションのパラメータ。たとえば、レクサー・プリファレンスでは、JAPANESE_VGRAM_LEXERなど、ドキュメントの処理時に使用するレクサーを指定する。格納、フィルタ処理、レクサー、分類、ワードリスト、セクション・タイプなどのプリファレンスがある。プリファレンスには、属性が関連付けられている場合と関連付けられていない場合がある。プリファレンスの設定にはCTX_DDL.CREATE_PREFERENCEプロシージャを使用する。「属性」も参照。

マークアップ(markup)

ハイライト表示の形式の1つ。CTX_DOC.MARKUPおよびCTX_DOC.POLICY_MARKUPプロシージャにより、問合せ語句とドキュメントを使用して、問合せ語句がマークアップされた(つまり、プレーン・テキスト文字またはHTMLタグで囲まれた)ドキュメントが戻される。事前定義済のマークアップ・タグを使用するか、独自のマークアップ・タグを指定できる。これに対して、CTX_DOC.HIGHLIGHTおよびCTX_DOC.POLICY_HIGHLIGHTは問合せ語句のオフセットを戻すため、独自のハイライト表示タグを追加できる。「ハイライト表示」も参照。

メタデータ(metadata)

ドキュメントの通常の内容に含まれていないドキュメント関連情報。たとえば、HTMLドキュメントに<author>Mark Twain</author>が含まれている場合、authorはメタデータのタイプとみなされ、Mark Twainauthorの値とみなされる。

メタデータを含むセクションはMDATAセクションと呼ばれ、CTX_DDL.ADD_MDATA_SECTIONプロシージャを使用してドキュメントに追加できる。メタデータを利用すると、複合問合せを高速化できる。このような問合せは、MDATA演算子を使用して実行できる。「複合問合せ」「セクション」も参照。

ルールベース分類(rule-based classification)

「分類」を参照。

レクサー(lexer)

指定の言語に従ってソース・テキストをトークン(通常はワード)に分割する。レクサーは、トークンの抽出にレクサー・プリファレンスに定義されたパラメータを使用する。これらのパラメータには、トークンの分割に使用する空白などの文字の定義や、テキストをすべて大文字に変換するかどうかなどの定義が含まれている。テーマの索引付けが使用可能の場合、レクサーはテキストを分析してテーマ・トークンを作成する。

アプリケーションで複数の言語によるドキュメントを含む表を索引付けする必要がある場合は、MULTI_LEXER(マルチ言語レクサー)を使用してサブレクサーを作成し、各言語を処理できる。各サブレクサーは、CTX_DDl.ADD_SUB_LEXERプロシージャを使用してメインのマルチレクサーに追加される。

ワードリスト(wordlist)

CONTAINSおよびCATSEARCHを使用してワイルド・カード問合せのパフォーマンスを向上させるサブストリングおよびプリフィックス索引付けとともに、ファジー、ステミングおよびプリフィックス索引付けなどの機能を使用可能にしてワイルド・カード検索を向上させるOracle Textプリファレンス。ワードリストは、CTX_DDL.ADD_WORDLISTプロシージャまたはALTER INDEX文を使用して作成する。「プリファレンス」も参照。

ワイルド・カード拡張(wildcard expansion)

指定したパターンと一致するワードを戻すように問合せ語句を拡張すること。たとえば、問合せ語句%rot%を拡張すると、trotrottenの両方が戻される。ワイルド・カード拡張は、ステミングとは異なる。「ステミング」も参照。