XMLドキュメント内で開始タグと終了タグのペアごとにゾーン・セクションを自動的に作成するために使用するセクション・グループ。属性を持つXMLタグについては、属性セクションが自動的に作成される。「属性セクション」、「セクション」、「セクション・グループ」、「XML_SECTION_GROUP」、「ゾーン・セクション」も参照。
開始および終了タグが<tag>および</tag>という形式のセクションを定義するために使用されるセクション・グループ。コメント・タグ、属性付きタグまたは片方のみのカッコ付きタグなど、基本以外のタグはサポートされない。「HTML_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照。
基本的なタイプのOracle Text索引(テキスト列の索引)。CONTEXT
索引は、ソース・テキストが大量のまとまったドキュメントで構成されている場合に有用である。CONTEXT
索引を使用するアプリケーションは、CONTAINS
問合せ演算子を使用してテキストを取り出す。
ユーザーがOracle Text索引と索引プリファレンスを作成し、PL/SQLパッケージを使用できるようにする、アプリケーション開発者のロール。このロールはOracle Textユーザーに付与する必要がある。
1つのテキスト列と他の1つ以上の列が結合された索引。通常は、カタログによくある品目名、価格および説明など、小さいドキュメントやテキスト断片の索引付けに使用する。一般に、CTXCAT
索引は、CONTEXT
索引よりも複合問合せのパフォーマンスが優れている。
アプリケーションは、この索引をCATSEARCH
演算子を使用して問い合せる。この索引はトランザクションに基づき、元表に対するDMLにより自動的に更新される。
CTXSYS
ユーザーは、インストール時に作成される。CTXSYS
ユーザーは、全索引の表示、全索引の同期化、ctxkbtc
(ナレッジ・ベース拡張コンパイラ)の実行、すべてのシステム定義ビューの問合せ、およびCTXAPP
ロールを持つユーザーの全タスクの実行が可能。
トークンの最終文字として出現し、トークンの終わりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後のstartjoin文字は、トークンのテキスト索引エントリに含まれる。たとえば、endjoinとして++を指定すると、C++が認識されて単一トークンとして索引付けされる。「printjoin」、「skipjoin」、「startjoin」も参照。
問合せで指定したとおりのセクション・パスを含むXMLドキュメントの検索に使用するCONTAINS
問合せ演算子。「PATH_SECTION_GROUP」も参照。
HTMLドキュメントのセクション定義に使用するセクション・グループ・タイプ。「BASIC_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照。
XMLドキュメントのタグ内またはパス内の検索に使用するCONTAINS
問合せ演算子。WITHIN
演算子よりも汎用的なパス名の指定が可能。「WITHIN演算子」も参照。
Oracle Textで、ソース・ドキュメント内の前後のテキストとともに問合せ用語を表示する方法。この表示方法は、問合せ用語の単一インスタンス、複数インスタンスまたはソース・ドキュメント内の各インスタンスで構成される。これはCTX_DOC.SNIPPET
プロシージャにより生成される。Key Word in Context(KWIC)とも呼ばれる。
RFC 1036で定義されたニュース・グループ形式のドキュメントのセクションを定義するために使用されるセクション・グループ・タイプ。「セクション」、「セクション・グループ」も参照。
セクションが定義されていない場合や、SENTENCE
またはPARAGRAPH
セクションのみが定義されている場合の、デフォルトのセクション・グループ・タイプ。「セクション」、「セクション・グループ」、「特殊セクション」も参照。
XMLドキュメントの索引付けに使用されるセクション・グループ・タイプ。AUTO_SECTION_GROUP
タイプに似ているが、HASPATH
およびINPATH
演算子を使用できる。「AUTO_SECTION_GROUP」、「HASPATH演算子」、「INPATH演算子」、「セクション」、「セクション・グループ」も参照。
ワードの任意の場所(先頭、中間または最後)に出現した場合に、英数字として処理されてOracle Text索引にトークンとともに含まれる、英数字以外の1文字以上の文字。これには、連続的に発生するprintjoinが含まれる。
たとえば、ハイフン(-)とアンダースコア(_)がprintjoinとして定義されている場合、pseudo-intellectualや_file_などの語句はOracle Text索引にpseudo-intellectualおよび_file_として格納される。
endjoinおよびstartjoinとは異なり、printjoinの場合は位置は無関係である。たとえば、$がstartjoinまたはprintjoinとして定義されている場合、$35は1つのトークンとして索引付けされるが、endjoinとして定義されている場合は2つのトークンとして索引付けされる。「endjoin」、「printjoin」、「startjoin」も参照。
構造化/ソート・データ・セクション。等価性検索のみをサポートするMDATA
セクション・タイプとは異なり、SDATA
セクションは範囲検索もサポートするように設計されている。デフォルトでは、すべてのFILTER
BY
列とORDER
BY
列がSDATA
セクションとしてマップされる。SDATA
セクションにはユーザー定義索引メタデータが含まれている。このタイプのセクションを使用すると、複合CONTAINS
問合せを高速化できる。「複合問合せ」、「セクション」も参照。
ワード内に出現した場合に、そのワードを単一トークンとして識別する英数字以外の文字。ただし、その文字はテキスト索引にトークンとともに格納されない。たとえば、ハイフン(-)がskipjoinとして定義されている場合、ワードpseudo-intellectualはテキスト索引にpseudointellectualとして格納される。「endjoin」、「printjoin」、「startjoin」も参照。
トークンの第1文字として出現し、トークンの始まりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後の他のstartjoin文字は、トークンのテキスト索引エントリに含まれる。たとえば、$がstartjoinとして定義されている場合、$35は単一トークンとして索引付けされる。また、startjoin文字列の最初のstartjoin文字は、前のトークンを暗黙的に終了させる。「endjoin」、「printjoin」、「skipjoin」も参照。
特定のXMLドキュメント・セクション内で問合せ語句の検索に使用されるCONTAINS
問合せ演算子。INPATH
演算子に似ているが、より限定的である。「INPATH演算子」も参照。
XMLタグで定義され、XMLセクション検索を可能にするセクション。XMLセクションで索引付けすると、ドキュメント・タイプ別のセクションを宣言できるのみでなく、自動セクション化が可能。XMLセクション検索には、INPATH
、HASPATH
およびWITHIN
演算子を使用したパス・セクション検索のみでなく属性検索が含まれる。「セクション」も参照。
トークン間の空白として扱われる文字。空白の事前定義済のデフォルト値は「space」と「tab」である。BASIC_LEXER
では、空白文字を(句読点および改行文字とともに)使用して、文と段落の検索に文デリミタとして機能する文字列が識別される。
コンポジット・ドメイン索引(composite domain index)
CDIタイプの索引とも呼ばれる。指定されたテキスト列を索引付けおよび処理するだけでなく、索引の作成中に指定されたFILTER
BY
およびORDER
BY
構造化列も索引付けおよび処理するOracle Text索引。「ドメイン索引」も参照。
同じ語幹のワードを持つ語句をすべて含むように問合せ語句を拡張すること。たとえば、動詞talkをステミングすると、talkのみでなくtalking、talksおよびtalkedが導出される(ただし、talkieは導出されない)。ステミングと異なり、ワイルド・カード拡張の場合は結果がスペルにのみ関連し、語形には関連しない。「ワイルド・カード拡張」も参照。
NUMBER
など、索引作成時にスキップされるトークンのクラス。ストップクラスを指定するには、CTX_DDL.ADD_STOPCLASS
でストップリストにストップクラスを追加する。「ストップリスト」も参照。
索引作成時にスキップされるテーマ。ストップテーマを指定するには、CTX_DDL.ADD_STOPTHEMES
でストップリストに追加する。「ストップリスト」も参照。
ストップワード、テーマ(ストップテーマ)およびデータ・クラス(ストップクラス)と呼ばれ、索引作成の対象にならないワードのリスト。デフォルトでは、指定のデータベース言語に対応するシステム提供のストップリストを使用してテキストが索引付けされる。
Oracle Textには、英語、フランス語、ドイツ語、スペイン語、中国語、オランダ語およびデンマーク語など、最も一般的な言語用のデフォルトのストップリストが用意されている。これらのデフォルト・ストップリストには、ストップワードのみが含まれている。ストップリストは、CTX_DDL.CREATE_STOPLIST
またはALTER INDEX
文で作成する。「ストップクラス」、「ストップテーマ」、「ストップワード」も参照。
索引作成時にスキップされるワード。ストップワードを指定するには、CTX_DDL.ADD_STOPWORD
でストップリストにストップワードを追加する。ALTER INDEX
文を使用して索引に動的に追加することもできる。「ストップリスト」も参照。
有効な変換ルールに従って索引付けのために変換された後のワードの書式。有効なルールによっては、ワードの正規化形式がソース・ドキュメント内の形式と同一の場合がある。正規化形式のワードには、オリジナル・バージョンと変換済バージョンの両方が含まれる場合もある。たとえば、ドイツ語の新規スペルが指定されている場合、ワードPotentialはPotenzialおよびPotentialの両方に正規化される。
ドキュメントの下位区分。たとえば、HTMLページの<a>...</a>
セクション内の内容全体。
1つのドキュメントを複数のセクションに分割してからセクション内で検索すると、テキスト問合せをドキュメント内のテキスト・ブロックに絞り込むことができる。 セクション検索は、HTMLやXMLのドキュメントのように、ドキュメントに内部構造がある場合に有効である。 また、テキストを文レベルと段落レベルで検索できる。
セクション検索は、HASPATH
、ISPATH
またはWITHIN
演算子を使用して実行する。セクション検索を使用可能にするには、索引作成時にセクション・グループを使用する。
各種セクション・タイプには、属性、フィールド、HTML、MDATA、特殊、停止、XMLおよびゾーンなどがある。
ドキュメント・セットのタイプを識別し、索引付けに使用するタグ構造を暗黙的に示すグループ。たとえば、HTMLタグ付きのドキュメントを索引付けするには、HTML_SECTION_GROUP
セクション・グループ・タイプを使用する。同様に、XMLタグ付きのドキュメントを索引付けするには、XML_SECTION_GROUP
セクション・グループ・タイプを使用する。セクション・グループは、CTX_DDL.CREATE_SECTION_GROUP
プロシージャまたはALTER INDEX
文を使用して宣言する。「セクション」も参照。
基本的なタイプのドキュメント・セクション。ドキュメント内の開始タグと終了タグで区切られたテキストの本体。 ゾーン・セクションは、HTMLおよびXMLドキュメントのセクションの定義に最適である。ゾーン・セクションは、CTX_DDL.ADD_ZONE_SECTION
プロシージャまたはALTER INDEX
文を使用してセクション・グループに追加する。「フィールド・セクション」、「セクション」、「セクション・グループ」も参照。
プリファレンスに関連付けられているオプションのパラメータ。たとえば、BASIC_LEXER
プリファレンスにはbase_letter
属性が含まれる。この属性には、値YES
(基本文字変換を実行)またはNO
(基本文字変換を実行しない)を指定できる。属性の設定には、CTX_DDL.SET_ATTRIBUTE
プロシージャまたはALTER INDEX
文を使用する。「プリファレンス」、「基本文字変換」も参照。
AUTHOR
またはTITLE
など、XMLドキュメントの属性を表すユーザー定義セクション。属性セクションは、CTX_DDL.ADD_ATTR_SECTION
またはALTER INDEX
文を使用してセクション・グループに追加する。「AUTO_SECTION_GROUP」、「セクション」、「XML_SECTION_GROUP」も参照。
Oracle Textで、特にドイツ語、スウェーデン語およびオランダ語でスペルのバリエーションを使用すること。BASIC_LEXER
属性のALTERNATE_SPELLING
が指定されている場合は、これらのバリエーションに索引付けできる。
特定のドキュメントに関連付けられているトピック。1つのドキュメントに多数のテーマが存在する場合がある。ドキュメントにテーマが表示される必要はなく、たとえば、ワードSan Franciscoを含むドキュメントがテーマの1つとしてCaliforniaを持つ場合がある。
テーマ・コンポーネントを索引に追加するには、BASIC_LEXER
プリファレンスのINDEX_THEMES
属性を使用する。ドキュメントから抽出するにはCTX_DOC.THEMES
を使用し、問合せにはABOUT
演算子を使用する。
AUTO_SECTION_GROUP
に追加され、そのタイプのドキュメント・セクションの情報を索引作成中に無視させるセクション。ただし、セクションの内容は検索可能。停止セクションは、CTX_DDL.ADD_STOP_SECTION
プロシージャを使用してセクション・グループに追加される。「AUTO_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照。
Oracle Textにおけるテキストの格納方法。格納方法は、特定の型の記憶域プリファレンスを指定することで決定される。たとえば、DIRECT_DATASTORE
型ではデータはテキスト列に直接格納されるが、URL_DATASTORE
ではデータをURLで指定した外部の場所に格納するように指定される。
タグで境界が設定されていないドキュメント・セクション。かわりに、セクションは文や段落などのプレーン・テキスト・ドキュメント構造で形成される。特殊セクションは、CTX_DDL.ADD_SPECIAL_SECTION
プロシージャを使用してセクション・グループに追加される。「セクション」、「セクション・グループ」も参照。
Oracle Textに組み込まれている、テーマの索引付け、ABOUT
問合せおよびドキュメント・サービスでのドキュメント・テーマの抽出などに使用する概念の階層ツリー。ナレッジ・ベースはオプションでインストールできる。独自のナレッジ・ベースの作成、または標準のOracle Textのナレッジ・ベースの拡張が可能。
通常、Oracle Textでは、問合せ語句が特別な方法で表示またはコールアウトされた状態でドキュメントまたはドキュメント断片のバージョンを生成することを表す。
ハイライト表示には次の3つの形式がある。CTX_DOC.MARKUP
は、問合せ語句をプレーン・テキストまたはHTMLタグで囲んだドキュメントを戻す。CTX_DOC.HIGHLIGHT
は、ユーザーが必要に応じてドキュメントをマークアップできるように、問合せ語句のオフセットを戻す。CTX_DOC.SNIPPET
は、問合せ語句を前後のテキスト断片に表示したコンコーダンスを生成する。「マークアップ」も参照。
ファジー・マッチング問合せでは、指定の語句に似たスペルを持つワードを含むように問合せが拡張される。このタイプの拡張は、ドキュメント・セットにスペルミスが頻出する場合に、より正確な結果を検出する上で有用である。ファジー・マッチングはFUZZY
問合せ演算子で呼び出す。
フィールド・セクションはゾーン・セクションに似ているが、主な違いはフィールド・セクションの開始タグと終了タグの間にある内容をドキュメントの他の部分とは別に索引付けできることである。このため、フィールド・セクションの内容を通常の問合せから非表示にすることができる。(INPATH
およびWITHIN
演算子を使用すると、このようなセクション内の語句を検索できる。)フィールド・セクションは、ドキュメント内のセクションに1回のみ出現するニュース・ヘッダーのフィールドなどに適している。フィールド・セクションは、CTX_DDL.ADD_FIELD_SECTION
プロシージャまたはALTER INDEX
文を使用してセクション・グループに追加する。「INPATH演算子」、「セクション」、「WITHIN演算子」、「ゾーン・セクション」も参照。
Oracle Textの索引作成プロセスのステップの1つ。索引作成に関連付けられているフィルタ・プリファレンスに応じて、フィルタ処理中に3つの処理(形式設定されたドキュメントがマークアップされたテキストにフィルタ処理される、テキストが非データベース・キャラクタ・セットからデータベース・キャラクタ・セットに変換される、フィルタ処理が発生しない)のいずれかが発生する(HTML、XMLおよびプレーン・テキスト・ドキュメントはフィルタ処理されない)。
「ドキュメント分類」と同義。ソース・ドキュメントをその内容に基づいてグループまたはクラスタに概念的に分割すること。たとえば、ドキュメント・グループを医薬、金融およびスポーツに関するクラスタに分割できる。
Oracle Textには、ルールベース分類、管理型分類およびクラスタ化(非管理型分類)が組み込まれている。ルールベース分類では、ユーザーがドキュメントの分類ルールを(問合せ形式で)記述すると、Oracle Textでルールに従ってドキュメント分類が実行される。管理型分類では、サンプル・ドキュメント・セットに基づいてOracle Textにより分類ルールが作成される。クラスタ化分類の場合は、クラスタとルールの両方がOracle Textにより作成される。
Oracle Textによる索引の作成方法に影響するオプションのパラメータ。たとえば、レクサー・プリファレンスでは、JAPANESE_VGRAM_LEXER
など、ドキュメントの処理時に使用するレクサーを指定する。格納、フィルタ処理、レクサー、分類、ワードリスト、セクション・タイプなどのプリファレンスがある。プリファレンスには、属性が関連付けられている場合と関連付けられていない場合がある。プリファレンスの設定にはCTX_DDL.CREATE_PREFERENCE
プロシージャを使用する。「属性」も参照。
ハイライト表示の形式の1つ。CTX_DOC.MARKUP
およびCTX_DOC.POLICY_MARKUP
プロシージャにより、問合せ語句とドキュメントを使用して、問合せ語句がマークアップされた(つまり、プレーン・テキスト文字またはHTMLタグで囲まれた)ドキュメントが戻される。事前定義済のマークアップ・タグを使用するか、独自のマークアップ・タグを指定できる。これに対して、CTX_DOC.HIGHLIGHT
およびCTX_DOC.POLICY_HIGHLIGHT
は問合せ語句のオフセットを戻すため、独自のハイライト表示タグを追加できる。「ハイライト表示」も参照。
ドキュメントの通常の内容に含まれていないドキュメント関連情報。たとえば、HTMLドキュメントに<author>Mark Twain</author>
が含まれている場合、authorはメタデータのタイプとみなされ、Mark Twainはauthor
の値とみなされる。
メタデータを含むセクションはMDATA
セクションと呼ばれ、CTX_DDL.ADD_MDATA_SECTION
プロシージャを使用してドキュメントに追加できる。メタデータを利用すると、複合問合せを高速化できる。このような問合せは、MDATA
演算子を使用して実行できる。「複合問合せ」、「セクション」も参照。
指定の言語に従ってソース・テキストをトークン(通常はワード)に分割する。レクサーは、トークンの抽出にレクサー・プリファレンスに定義されたパラメータを使用する。これらのパラメータには、トークンの分割に使用する空白などの文字の定義や、テキストをすべて大文字に変換するかどうかなどの定義が含まれている。テーマの索引付けが使用可能の場合、レクサーはテキストを分析してテーマ・トークンを作成する。
アプリケーションで複数の言語によるドキュメントを含む表を索引付けする必要がある場合は、MULTI_LEXER
(マルチ言語レクサー)を使用してサブレクサーを作成し、各言語を処理できる。各サブレクサーは、CTX_DDl.ADD_SUB_LEXER
プロシージャを使用してメインのマルチレクサーに追加される。
CONTAINS
およびCATSEARCH
を使用してワイルド・カード問合せのパフォーマンスを向上させるサブストリングおよびプリフィックス索引付けとともに、ファジー、ステミングおよびプリフィックス索引付けなどの機能を使用可能にしてワイルド・カード検索を向上させるOracle Textプリファレンス。ワードリストは、CTX_DDL.ADD_WORDLIST
プロシージャまたはALTER INDEX
文を使用して作成する。「プリファレンス」も参照。
ワイルド・カード拡張(wildcard expansion)
指定したパターンと一致するワードを戻すように問合せ語句を拡張すること。たとえば、問合せ語句%rot%を拡張すると、trotとrottenの両方が戻される。ワイルド・カード拡張は、ステミングとは異なる。「ステミング」も参照。