用語集
代替スペル
ドイツ語、スウェーデン語およびオランダ語でスペルのバリエーションを使用すること。ALTERNATE_SPELLING
という名前のBASIC_LEXER
属性を指定した場合は、これらのバリエーションを索引付けできます。
属性セクション
AUTHOR
やTITLE
など、XML文書の属性を表すユーザー定義セクション。セクション・グループに属性セクションを追加するには、CTX_DDL.ADD_ATTR_SECTION
文またはALTER INDEX
文を使用します。「AUTO_SECTION_GROUP」、「セクション」、「XML_SECTION_GROUP」も参照してください。
AUTO_SECTION_GROUP
XMLドキュメント内で開始タグと終了タグのペアごとにゾーン・セクションを自動作成するために使用されるセクション・グループ。属性セクションは、属性を持つXMLタグに対して自動的に作成されます。「属性セクション」、「セクション」、「セクション・グループ」、「XML_SECTION_GROUP」、「ゾーン・セクション」も参照してください。
BASIC_SECTION_GROUP
開始タグと終了タグを<tag>
と</tag>
という形式にして、セクションを定義するために使用するセクション・グループ。コメント・タグ、属性のあるタグ、カッコが一致しないタグなど、基本タグ以外のタグはサポートされていません。「HTML_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。
ケース
ワードや文字を大文字にすることを意味します(たとえば、mではなくMとなります)。大文字のない言語もあります。特に西ヨーロッパなどの一部の言語では、大/小文字混合の索引付けがサポートされています。
分類
ドキュメント分類と同義。ソース・ドキュメントをその内容に基づいてグループまたはクラスタに概念的に分割すること。たとえば、ドキュメント・グループを医薬、金融およびスポーツのクラスタに分割できます。
Oracle Textには、ルールベース分類、教師あり分類およびクラスタ化(教師なし分類)が組み込まれています。ルールベース分類では、ユーザーがドキュメントの分類ルールを(問合せ形式で)記述すると、Oracle Textでルールに従ってドキュメント分類が実行されます。教師あり分類では、サンプル・ドキュメント・セットに基づいてOracle Textにより分類ルールが作成されます。クラスタリングでは、クラスタとルールの両方がOracle Textにより作成されます。
コンポジット・ドメイン索引
CDIタイプの索引とも呼ばれます。指定されたテキスト列を索引付けおよび処理するだけでなく、索引の作成中に指定されたFILTER
BY
およびORDER
BY
構造化列も索引付けおよび処理するOracle Text索引です。「ドメイン索引」も参照してください。
CONTEXT索引
基本的なタイプのOracle Text索引(テキスト列の索引)。CONTEXT
索引は、ソース・テキストが、大規模な多数の一貫性のあるドキュメントで構成される場合に有効です。CONTEXT
索引を使用するアプリケーションは、CONTAINS
問合せ演算子を使用してテキストを取り出します。
CTXAPPロール
ユーザーがOracle Text索引と索引プリファレンスを作成し、PL/SQLパッケージを使用できるようにする、アプリケーション開発者のロール。このロールはOracle Textユーザーに付与する必要があります。
CTXCAT索引
1つのテキスト列と他の1つ以上の列が結合された索引。通常は、カタログによくある品目名、価格、説明など、小さいドキュメントやテキスト断片の索引付けに使用します。一般に、CTXCAT
索引は、CONTEXT
索引よりも複合問合せのパフォーマンスが優れています。
アプリケーションは、この索引をCATSEARCH
演算子を使用して問い合せます。この索引はトランザクションに基づき、元表に対する挿入、更新または削除の際に自動的に更新されます。
CTXRULE索引
ドキュメント分類アプリケーションの構築に使用される索引。CTXRULE
索引は、問合せ表に作成する索引で、問合せが分類基準を定義するルールとして機能します。この索引は、MATCHES
演算子で問い合せます。
CTXSYSユーザー
インストール時に作成されます。CTXSYS
ユーザーは、全索引の表示、全索引の同期化、ctxkbtc
(ナレッジ・ベース拡張コンパイラ)の実行、すべてのシステム定義ビューの問合せ、およびCTXAPP
ロールを持つユーザーのすべてのタスクの実行が可能です。
データストア
テキストの格納方法。格納方法は、特定の型の記憶域プリファレンスを指定することで決定されます。たとえば、DIRECT_DATASTORE
型ではデータはテキスト列に直接格納されますが、URL_DATASTORE
ではデータをURLで指定した外部の場所に格納するように指定されます。
ドキュメント・サービス
CTX_DOC
PL/SQL パッケージには、ドキュメント・サービスを要求するプロシージャおよび関数が用意されています。「ナレッジ・ベース」も参照してください。
endjoin
トークンの最終文字として出現し、トークンの終わりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後のstartjoin文字は、トークンのOracle Text索引エントリに含まれます。たとえば、endjoinとして++を指定すると、C++が認識されて単一トークンとして索引付けされます。「printjoin」、「skipjoin」、「startjoin」も参照してください。
エンティティ抽出
CTX_ENTITY
パッケージは、組込み辞書および英語テキストのルールのセットを使用して、エンティティ抽出を実装します。ユーザー提供のアドオン辞書およびルール・セットを使用すると、英語や他の言語の機能を拡張できます。
フィールド・セクション
ゾーン・セクションに似ていますが、主な違いはフィールド・セクションの開始タグと終了タグの間にある内容をドキュメントの他の部分とは別に索引付けできることです。このように分けて索引付けできるため、フィールド・セクションの内容を通常の問合せから隠すことができます。(INPATH
およびWITHIN
演算子を使用すると、このようなセクション内の語句を検索できます。)フィールド・セクションは、ニュース・ヘッダーのフィールドなど、ドキュメント内に1回のみ出現するセクションに適しています。フィールド・セクションをセクション・グループに追加するには、CTX_DDL.ADD_FIELD_SECTION
プロシージャまたはALTER INDEX
文を使用します。「INPATH演算子」、「セクション」、「WITHIN演算子」、「ゾーン・セクション」も参照してください。
フィルタ処理
Oracle Text索引作成プロセスのステップ。索引作成に関連付けられているフィルタ・プリファレンスに応じて、フィルタ処理中に3つの処理(形式設定されたドキュメントがマークアップされたテキストにフィルタ処理される、テキストが非データベース文字セットからデータベース文字セットに変換される、フィルタ処理が発生しない)のいずれかが発生します(HTML、XMLおよびプレーン・テキスト・ドキュメントはフィルタ処理されません)。
ファジー・マッチング
指定した語句と類似のスペルを持つワードを含めるように問合せを拡張します。このタイプの拡張は、ドキュメント・セットにスペルミスが頻出する場合に、より正確な結果を検出する上で有用です。ファジー・マッチングを起動するには、FUZZY
問合せ演算子を使用します。
ハイライト表示
特別な方法で表示またはコールされる問合せ語句を含む、ドキュメントまたはドキュメント・フラグメントの生成されたバージョン。
ハイライト表示には、3つの形式があります。CTX_DOC.MARKUP
プロシージャは、問合せ語句をプレーン・テキストまたはHTMLタグで囲んだドキュメントを戻します。CTX_DOC.HIGHLIGHT
プロシージャは、ユーザーがドキュメントをマークアップできるように、問合せ語句のオフセットを戻します。CTX_DOC.SNIPPET
プロシージャは、問合せ語句を前後のテキストの断片に表示したコンコーダンスを生成します。「マークアップ」も参照してください。
HTML_SECTION_GROUP
HTMLドキュメントのセクション定義に使用するセクション・グループ・タイプ。「BASIC_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。
KWIC
ソース・ドキュメント内の前後のテキストとともに問合せ語句を表示する方法。この表示方法は、問合せ用語の単一インスタンス、複数インスタンスまたはソース・ドキュメント内の各インスタンスで構成されます。これはCTX_DOC.SNIPPET
プロシージャにより生成されます。
ナレッジ・ベース
テーマの索引付け、ABOUT
問合せおよびドキュメント・サービスでのドキュメント・テーマの抽出などに使用する概念の階層ツリー。独自のナレッジ・ベースを作成したり、標準のOracle Textナレッジ・ベースを拡張できます。
レクサー
指定された言語に従ってソース・テキストをトークン(通常はワード)に分割するソフトウェア・プログラム。レクサーは、トークンの抽出にレクサー・プリファレンスに定義されたパラメータを使用します。これらのパラメータには、トークンの分割に使用する空白などの文字の定義や、テキストをすべて大文字に変換するかどうかのルールなどが含まれています。テーマの索引付けを有効にすると、レクサーはテキストを分析してテーマ・トークンを作成します。
アプリケーションで複数の言語によるドキュメントを含む表を索引付けする必要がある場合は、MULTI_LEXER
(マルチ言語レクサー)を使用し、サブレクサーを作成して各言語を処理できます。各サブレクサーをメインのマルチレクサーに追加するには、CTX_DDl.ADD_SUB_LEXER
プロシージャを使用します。「サブレクサー」も参照してください。
マークアップ
ハイライト表示の形式の1つ。CTX_DOC.MARKUP
およびCTX_DOC.POLICY_MARKUP
プロシージャにより、問合せ語句とドキュメントを使用して、問合せ語句がマークアップされた(つまり、プレーン・テキスト文字またはHTMLタグで囲まれた)ドキュメントが戻されます。事前定義済のマークアップ・タグを使用するか、独自のマークアップ・タグを指定できます。これに対して、CTX_DOC.HIGHLIGHT
およびCTX_DOC.POLICY_HIGHLIGHT
は問合せ語句のオフセットを戻すため、独自のハイライト表示タグを追加できます。「ハイライト表示」も参照してください。
名前検索
正字法の違いによりスペリングが異なる可能性がある正しい名前を一致させるための解決策。また、これを使用すると、レコードの名および姓が正しくセグメント化されていない場合などに発生する可能性がある、正確さに欠けるデータも検索できます。名前の照合とも呼ばれます。
NEWS_SECTION_GROUP
RFC 1036で定義されたニュース・グループ形式のドキュメントのセクションを定義するために使用されるセクション・グループ・タイプ。「セクション」、「セクション・グループ」も参照してください。
正規化されたワード
有効な変換ルールに従って索引付けのために変換された後のワードの書式。有効なルールによっては、ワードの正規化形式がソース・ドキュメント内の形式と同一の場合があります。正規化形式のワードには、オリジナル・バージョンと変換済バージョンの両方が含まれる場合もあります。たとえば、ドイツ語の新規スペルを指定した場合、ワードPotentialはPotenzialおよびPotentialの両方に正規化されます。
NULL_SECTION_GROUP
セクションが定義されていない場合や、SENTENCE
またはPARAGRAPH
セクションのみが定義されている場合の、デフォルトのセクション・グループ・タイプ。「セクション」、「セクション・グループ」、「特殊セクション」も参照してください。
PATH_SECTION_GROUP
XMLドキュメントの索引付けに使用されるセクション・グループ・タイプ。AUTO_SECTION_GROUP
タイプに似ていますが、HASPATH
およびINPATH
演算子を使用できます。「AUTO_SECTION_GROUP」、「HASPATH演算子」、「INPATH演算子」、「セクション」、「セクション・グループ」も参照してください。
プリファレンス
Oracle Textによる索引の作成方法に影響を与えるオプションのパラメータ。たとえば、レクサー・プリファレンスには、ドキュメントを処理するときに使用するレクサー(JAPANESE_VGRAM_LEXER
など)を指定します。記憶域、フィルタ処理、レクサー、分類子、ワードリスト、セクション・タイプなどのプリファレンスがあります。プリファレンスには、属性が関連付けられている場合と関連付けられていない場合があります。プリファレンスを設定するには、CTX_DDL.CREATE_PREFERENCE
プロシージャを使用します。「属性」も参照してください。
printjoin
ワードの先頭、中間または最後に出現した場合に、英数字として処理されてOracle Text索引にトークンとともに含まれる、英数字以外の1文字以上の文字。連続したprintjoinも含まれています。
たとえば、ハイフン(-)とアンダースコア(_)をprintjoinとして定義した場合、pseudo-intellectualや_file_などの語句はOracle Text索引にpseudo-intellectualおよび_file_として格納されます。
printjoinは、endjoinおよびstartjoinと異なり、使用場所の制限はありません。たとえば、$がstartjoinまたはprintjoinとして定義されている場合、$35は1つのトークンとして索引付けされますが、endjoinとして定義されている場合は2つのトークンとして索引付けされます。「endjoin」、「printjoin」、「startjoin」も参照してください。
結果セット
オーバーヘッドを共有することでパフォーマンスを改善するインタフェース。これにより、検索結果のページに必要な様々な要素(最初の数個のドキュメントのメタデータ、ヒット総数、ワードごとのヒット数など)を同時に生成できます。SQLでは表現しにくいデータ・ビューも返すことができます。
以前のバージョンのOracle Textでこれらの結果を生成するには、複数の問合せとコールが必要でした。追加のコールのたびに、問合せを再解析して索引メタデータを検索するための時間がかかります。また、SQLでは、反復問合せ絞込みといった一部の検索操作が難しくなります。
セクション
ドキュメントの下位区分。たとえば、HTMLページの<a>...</a>
セクション内の内容全体。各種セクション・タイプには、属性、フィールド、HTML、MDATA、特殊、停止、XMLおよびゾーンなどがあります。
1つのドキュメントを複数のセクションに分割してからセクション内で検索することで、テキスト問合せをドキュメント内のテキスト・ブロックに絞り込むことができます。セクション検索は、HTMLやXMLのドキュメントのように、ドキュメントに内部構造がある場合に有効です。また、テキストを文レベルと段落レベルで検索できます。
セクション検索は、HASPATH
、ISPATH
またはWITHIN
演算子を使用して実行します。索引付け時には、セクション・グループを使用してセクション検索を有効にします。「セクション・グループ」も参照してください。
セクション・グループ
ドキュメント・セットのタイプを識別し、索引付けに使用するタグ構造を暗黙的に示すグループ。たとえば、HTMLタグ付きのドキュメントを索引付けするには、HTML_SECTION_GROUP
セクション・グループ・タイプを使用します。同様に、XMLタグ付きのドキュメントを索引付けするには、XML_SECTION_GROUP
セクション・グループ・タイプを使用します。セクション・グループを宣言するには、CTX_DDL.CREATE_SECTION_GROUP
プロシージャまたはALTER INDEX
文を使用します。「セクション」も参照してください。
skipjoin
ワード内に出現した場合に、そのワードを単一トークンとして識別する英数字以外の文字。ただし、その文字はOracle Text索引にトークンとともに格納されません。たとえば、ハイフン文字(-)をskipjoinとして定義した場合、ワードpseudo-intellectualはOracle Text索引にpseudointellectualとして格納されます。「endjoin」、「printjoin」、「startjoin」も参照してください。
startjoin
トークンの第1文字として出現し、トークンの始まりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後の他のstartjoin文字は、トークンのOracle Text索引エントリに含まれます。たとえば、$をstartjoinとして定義した場合、$35は単一トークンとして索引付けされます。また、startjoin文字列の最初のstartjoin文字は、前のトークンを暗黙的に終了させます。「endjoin」、「printjoin」、「skipjoin」も参照してください。
ステミング
同じ語幹のワードを持つ語句をすべて含むように問合せ語句を拡張すること。たとえば、動詞talkをステミングすると、talkのみでなくtalking、talksおよびtalkedが導出されます(ただし、talkieは導出されません)。ステミングと異なり、ワイルド・カード拡張の場合は結果がスペルにのみ関連し、語形には関連しません。「ワイルドカード拡張」も参照してください。
特殊セクション
タグで境界が設定されていないドキュメント・セクション。かわりに、セクションは文や段落などのプレーン・テキスト・ドキュメント構造で形成されます。特殊セクションは、CTX_DDL.ADD_SPECIAL_SECTION
プロシージャを使用してセクション・グループに追加されます。「セクション」、「セクション・グループ」も参照してください。
停止セクション
AUTO_SECTION_GROUP
に追加され、そのタイプのドキュメント・セクションの情報が索引付け中に無視されるようにするセクション。ただし、この場合もセクションの内容は検索可能です。停止セクションをセクション・グループに追加するには、CTX_DDL.ADD_STOP_SECTION
プロシージャを使用します。「AUTO_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。
ストップクラス
NUMBER
など、索引作成時にスキップされるトークンのクラス。ストップクラスを指定するには、CTX_DDL.ADD_STOPCLASS
を使用して、それをストップリストに追加します。「ストップリスト」も参照してください。
ストップリスト
ストップワード、テーマ(ストップテーマ)およびデータ・クラス(ストップクラス)と呼ばれ、索引作成の対象にならないワードのリスト。デフォルトでは、指定のデータベース言語に対応するシステム提供のストップリストを使用してテキストが索引付けされます。
Oracle Textでは、英語、フランス語、ドイツ語、スペイン語、中国語、オランダ語およびデンマーク語を含むほとんどの言語に対して、デフォルトのストップリストが提供されています。これらのデフォルト・ストップリストには、ストップワードのみが含まれています。ストップリストを作成するには、CTX_DDL.CREATE_STOPLIST
プロシージャまたはALTER INDEX
文を使用します。「ストップクラス」、「ストップテーマ」、「ストップワード」も参照してください。
ストップテーマ
索引作成時にスキップされるテーマ。ストップテーマを指定するには、CTX_DDL.ADD_STOPTHEMES
プロシージャを使用して、それをストップリストに追加します。「ストップリスト」も参照してください。
ストップワード
索引付け中にスキップされるワード。ストップワードを指定するには、CTX_DDL.ADD_STOPWORD
プロシージャを使用して、それをストップリストに追加します。また、ALTER INDEX文
を使用して索引に動的に追加することもできます。「ストップリスト」も参照してください。
テーマ
特定のドキュメントに関連付けられているトピック。1つのドキュメントに多数のテーマが存在する場合があります。ドキュメントにテーマが表示される必要はなく、たとえば、ワードSan Franciscoを含むドキュメントがテーマの1つとしてCaliforniaを持つ場合があります。
索引にテーマ・コンポーネントを追加するには、BASIC_LEXER
プリファレンスのINDEX_THEMES
属性を使用します。ドキュメントからテーマ・コンポーネントを抽出するにはCTX_DOC.THEMES
プロシージャを使用し、テーマ・コンポーネントに問い合せるにはABOUT
演算子を使用します。
ワイルドカード拡張
指定したパターンと一致するワードを戻すように問合せ語句を拡張すること。たとえば、問合せ語句%rot%を拡張すると、trotとrottenの両方が戻されます。ワイルド・カード拡張は、ステミングとは異なります。「ステミング」も参照してください。
空白
トークン間の空白として扱われる文字。空白の事前定義済のデフォルト値は「space」と「tab」です。BASIC_LEXER
では、空白文字を(句読点および改行文字とともに)使用して、文と段落の検索に文デリミタとして機能する文字列が識別されます。
WITHIN演算子
特定のXMLドキュメント・セクション内で問合せ語句の検索に使用されるCONTAINS
問合せ演算子。INPATH
演算子に似ていますが、より限定的です。「INPATH演算子」も参照してください。
ワードリスト
サブストリングおよびプリフィックス索引付けとともに、ファジー、ステミングおよびプリフィックス索引付けなどの機能を使用可能にしてワイルド・カード検索を向上させるOracle Textプリファレンス。ワードリスト・プリファレンスによってワイルドカード問合せのパフォーマンスを改善するには、CONTAINS
およびCATSEARCH
を使用します。ワードリストを作成するには、CTX_DDL.ADD_WORDLIST
プロシージャまたはALTER INDEX
文を使用します。「プリファレンス」も参照してください。
XMLセクション
XMLタグで定義され、XMLセクション検索を可能にするセクション。XMLセクションで索引付けすると、ドキュメント・タイプ別のセクションを自動的にセクション化および作成できます。XMLセクション検索には、INPATH
、HASPATH
およびWITHIN
演算子を使用したパス・セクション検索のみでなく属性検索が含まれます。「セクション」も参照してください。
ゾーン・セクション
基本的なタイプのドキュメント・セクションであり、ドキュメント内の開始タグと終了タグで区切られたテキストの本文です。ゾーン・セクションは、HTMLおよびXMLドキュメントのセクションの定義に最適です。ゾーン・セクションをセクション・グループに追加するには、CTX_DDL.ADD_ZONE_SECTION
プロシージャまたはALTER INDEX
文を使用します。「フィールド・セクション」、「セクション」、「セクション・グループ」も参照してください。