代替スペル
Oracle Textでの代替スペルとは、特にドイツ語、スウェーデン語およびオランダ語でスペルのバリエーションを使用することです。BASIC_LEXER
属性のALTERNATE_SPELLING
が指定されている場合は、これらのバリエーションに索引付けできます。
属性
属性は、プリファレンスに関連付けられているオプションのパラメータです。たとえば、BASIC_LEXER
プリファレンスにはbase_letter
属性が含まれ、この属性には値YES
(基本文字変換を実行)またはNO
(基本文字変換を実行しない)を指定できます。属性は、CTX_DDL.SET_ATTRIBUTE
プロシージャまたはALTER INDEX
文を使用して設定します。「プリファレンス」、「基本文字変換」も参照してください。
属性セクション
AUTHOR
またはTITLE
など、XMLドキュメントの属性を表すユーザー定義セクション。属性セクションは、CTX_DDL.ADD_ATTR_SECTION
またはALTER INDEX
文を使用してセクション・グループに追加します。「AUTO_SECTION_GROUP」、「セクション」、「XML_SECTION_GROUP」も参照してください。
AUTO_SECTION_GROUP
XMLドキュメント内で開始タグと終了タグのペアごとにゾーン・セクションを自動作成するために使用されるセクション・グループ。属性セクションは、属性を持つXMLタグに対して自動的に作成されます。「属性セクション」、「セクション」、「セクション・グループ」、「XML_SECTION_GROUP」、「ゾーン・セクション」も参照してください。
BASIC_SECTION_GROUP
開始および終了タグが<tag>および</tag>という形式のセクションを定義するために使用されるセクション・グループ。コメント・タグ、属性付きタグまたは片方のみのカッコ付きタグなど、基本以外のタグはサポートされません。「HTML_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。
ケース
ケースは、語句や文字を大文字にすることを意味します(たとえば、mではなくMとなります)。大文字のない言語もあります。特に西ヨーロッパなどの一部の言語では、大/小文字混合の索引付けがサポートされています。
分類
ドキュメント分類と同義。ソース・ドキュメントをその内容に基づいてグループまたはクラスタに概念的に分割すること。たとえば、ドキュメント・グループを医薬、金融およびスポーツに関するクラスタに分割できます。
Oracle Textには、ルールベース分類、管理型分類およびクラスタ化(非管理型分類)が組み込まれています。ルールベース分類では、ユーザーがドキュメントの分類ルールを(問合せ形式で)記述すると、Oracle Textでルールに従ってドキュメント分類が実行されます。管理型分類では、サンプル・ドキュメント・セットに基づいてOracle Textにより分類ルールが作成されます。クラスタ化分類では、クラスタとルールの両方がOracle Textにより作成されます。
コンポジット・ドメイン索引
CDIタイプの索引とも呼ばれます。指定されたテキスト列を索引付けおよび処理するだけでなく、索引の作成中に指定されたFILTER
BY
およびORDER
BY
構造化列も索引付けおよび処理するOracle Text索引です。「ドメイン索引」も参照してください。
CONTEXT索引
基本的なタイプのOracle Text索引(テキスト列の索引)。CONTEXT
索引は、ソース・テキストが大量のまとまったドキュメントで構成されている場合に有用です。CONTEXT
索引を使用するアプリケーションは、CONTAINS
問合せ演算子を使用してテキストを取り出します。
CTXAPPロール
ユーザーがOracle Text索引と索引プリファレンスを作成し、PL/SQLパッケージを使用できるようにする、アプリケーション開発者のロール。このロールはOracle Textユーザーに付与する必要があります。
CTXCAT索引
1つのテキスト列と他の1つ以上の列が結合された索引。通常は、カタログによくある品目名、価格および説明など、小さいドキュメントやテキスト断片の索引付けに使用します。一般に、CTXCAT
索引は、CONTEXT
索引よりも複合問合せのパフォーマンスが優れています。
アプリケーションは、この索引をCATSEARCH
演算子を使用して問い合せます。この索引はトランザクションに基づき、元表に対するDMLにより自動的に更新されます。
CTXRULE索引
CTXRULE
索引は、ドキュメント分類アプリケーションの作成に使用される索引。CTXRULE
索引は、問合せ表に作成する索引で、問合せが分類基準を定義するルールとして機能します。この索引は、MATCHES
演算子で問い合せます。
CTXSYSユーザー
CTXSYS
ユーザーは、インストール時に作成されます。CTXSYS
ユーザーは、全索引の表示、全索引の同期化、ctxkbtc
(ナレッジ・ベース拡張コンパイラ)の実行、すべてのシステム定義ビューの問合せ、およびCTXAPP
ロールを持つユーザーの全タスクの実行が可能です。
データストア
Oracle Textでは、データストアはテキストの格納方法を意味します。格納方法は、特定の型の記憶域プリファレンスを指定することで決定されます。たとえば、DIRECT_DATASTORE
型ではデータはテキスト列に直接格納されますが、URL_DATASTORE
ではデータをURLで指定した外部の場所に格納するように指定されます。
endjoin
トークンの最終文字として出現し、トークンの終わりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後のstartjoin文字は、トークンのテキスト索引エントリに含まれます。たとえば、endjoinとして++を指定すると、C++が認識されて単一トークンとして索引付けされます。「printjoin」、「skipjoin」、「startjoin」も参照してください。
フィールド・セクション
フィールド・セクションはゾーン・セクションに似ていますが、主な違いはフィールド・セクションの開始タグと終了タグの間にある内容をドキュメントの他の部分とは別に索引付けできることです。このため、フィールド・セクションの内容を通常の問合せから非表示にすることができます。(INPATH
およびWITHIN
演算子を使用すると、このようなセクション内の語句を検索できます。)フィールド・セクションは、ドキュメント内のセクションに1回のみ出現するニュース・ヘッダーのフィールドなどに適しています。フィールド・セクションは、CTX_DDL.ADD_FIELD_SECTION
プロシージャまたはALTER INDEX
文を使用してセクション・グループに追加します。「INPATH演算子」、「セクション」、「WITHIN演算子」、「ゾーン・セクション」も参照してください。
フィルタ処理
Oracle Textの索引作成プロセスのステップの1つ。索引作成に関連付けられているフィルタ・プリファレンスに応じて、フィルタ処理中に3つの処理(形式設定されたドキュメントがマークアップされたテキストにフィルタ処理される、テキストが非データベース・キャラクタ・セットからデータベース・キャラクタ・セットに変換される、フィルタ処理が発生しない)のいずれかが発生します(HTML、XMLおよびプレーン・テキスト・ドキュメントはフィルタ処理されません)。
ファジー・マッチング
ファジー・マッチング問合せでは、指定した語句に似たスペルを持つワードまで含むように問合せが拡張されます。このタイプの拡張は、ドキュメント・セットにスペルミスが頻出する場合に、より正確な結果を検出する上で有用です。ファジー・マッチングはFUZZY
問合せ演算子で呼び出します。
ハイライト表示
Oracle Textでのハイライト表示とは、一般に、問合せ語句が特別な方法で表示またはコールアウトされた状態でドキュメントまたはドキュメント断片のバージョンが生成されることです。
ハイライト表示には次の3つの形式があります。CTX_DOC.MARKUP
は、問合せ語句をプレーン・テキストまたはHTMLタグで囲んだドキュメントを戻します。CTX_DOC.HIGHLIGHT
は、ユーザーが必要に応じてドキュメントをマークアップできるように、問合せ語句のオフセットを戻します。CTX_DOC.SNIPPET
は、問合せ語句を前後のテキスト・マークアップの断片に表示したコンコーダンスを生成します。
HTML_SECTION_GROUP
HTMLドキュメントのセクション定義に使用するセクション・グループ・タイプ。「BASIC_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。
KWIC
Oracle Textで、ソース・ドキュメント内の前後のテキストとともに問合せ用語を表示する方法。この表示方法は、問合せ用語の単一インスタンス、複数インスタンスまたはソース・ドキュメント内の各インスタンスで構成されます。これはCTX_DOC.SNIPPET
プロシージャにより生成されます。Key Word in Context(KWIC)とも呼ばれます。
ナレッジ・ベース
ナレッジ・ベースは、テーマの索引付け、ABOUT
問合せおよびドキュメント・サービスでのテーマの抽出などに使用される、Oracle Textに組み込まれた概念の階層ツリーです。ナレッジ・ベースはオプションでインストールできます。独自のナレッジ・ベースの作成、または標準のOracle Textのナレッジ・ベースの拡張が可能です。
レクサー
Oracle Textのレクサーは、指定された言語に従ってソース・テキストをトークン(通常はワード)に分割します。レクサーは、トークンの抽出にレクサー・プリファレンスに定義されたパラメータを使用します。これらのパラメータには、トークンの分割に使用する空白などの文字の定義や、テキストをすべて大文字に変換するかどうかなどの定義が含まれています。テーマの索引付けが使用可能の場合、レクサーはテキストを分析してテーマ・トークンを作成します。
アプリケーションで複数の言語によるドキュメントを含む表を索引付けする必要がある場合は、MULTI_LEXER
(マルチ言語レクサー)を使用し、サブレクサーを作成して各言語を処理できます。各サブレクサーは、CTX_DDl.ADD_SUB_LEXER
プロシージャを使用してメインのマルチレクサーに追加されます。
マークアップ
ハイライト表示の形式の1つ。CTX_DOC.MARKUP
およびCTX_DOC.POLICY_MARKUP
プロシージャにより、問合せ語句とドキュメントを使用して、問合せ語句がマークアップされた(つまり、プレーン・テキスト文字またはHTMLタグで囲まれた)ドキュメントが戻されます。事前定義済のマークアップ・タグを使用するか、独自のマークアップ・タグを指定できます。これに対して、CTX_DOC.HIGHLIGHT
およびCTX_DOC.POLICY_HIGHLIGHT
は問合せ語句のオフセットを戻すため、独自のハイライト表示タグを追加できます。「ハイライト表示」も参照してください。
MDATAセクション
MDATA
セクションには、ユーザー定義索引メタデータが含まれます。このメタデータを使用すると、複合CONTAINS
問合せを高速化できます。「メタデータ」、「複合問合せ」、「セクション」も参照してください。
メタデータ
メタデータは、ドキュメントの通常の内容に含まれていないドキュメント関連情報です。たとえば、HTMLドキュメントに<author>Mark Twain</author>
が含まれている場合、authorはメタデータのタイプとみなされ、Mark Twainはauthor
の値とみなされます。
メタデータを含むセクションはMDATA
セクションと呼ばれ、CTX_DDL.ADD_MDATA_SECTION
プロシージャを使用してドキュメントに追加できます。メタデータを利用すると、複合問合せを高速化できます。このような問合せは、MDATA
演算子を使用して実行できます。「複合問合せ」、「セクション」も参照してください。
名前検索
(名前マッチングとも呼ばれる)名前検索では、表記バリエーションのためにスペルが異なっても正しい名前を照合するソリューションを提供しています。また、これを使用すると、レコードの名および姓が正しくセグメント化されていない場合などに発生する可能性がある、正確さに欠けるデータも検索できます。
NEWS_SECTION_GROUP
RFC 1036で定義されたニュース・グループ形式のドキュメントのセクションを定義するために使用されるセクション・グループ・タイプ。「セクション」、「セクション・グループ」も参照してください。
正規化されたワード
有効な変換ルールに従って索引付けのために変換された後のワードの書式。有効なルールによっては、ワードの正規化形式がソース・ドキュメント内の形式と同一の場合があります。正規化形式のワードには、オリジナル・バージョンと変換済バージョンの両方が含まれる場合もあります。たとえば、ドイツ語の新規スペルが指定されている場合、ワードPotentialはPotenzialおよびPotentialの両方に正規化されます。
NULL_SECTION_GROUP
セクションが定義されていない場合や、SENTENCE
またはPARAGRAPH
セクションのみが定義されている場合の、デフォルトのセクション・グループ・タイプ。「セクション」、「セクション・グループ」、「特殊セクション」も参照してください。
PATH_SECTION_GROUP
XMLドキュメントの索引付けに使用されるセクション・グループ・タイプ。AUTO_SECTION_GROUP
タイプに似ていますが、HASPATH
およびINPATH
演算子を使用できます。「AUTO_SECTION_GROUP」、「HASPATH演算子」、「INPATH演算子」、「セクション」、「セクション・グループ」も参照してください。
プリファレンス
プリファレンスは、Oracle Textでの索引の作成方法に影響するオプションのパラメータです。たとえば、レクサー・プリファレンスでは、JAPANESE_VGRAM_LEXER
など、ドキュメントの処理時に使用するレクサーを指定します。格納、フィルタ処理、レクサー、分類、ワードリスト、セクション・タイプなどのプリファレンスがあります。プリファレンスには、属性が関連付けられている場合と関連付けられていない場合があります。プリファレンスの設定にはCTX_DDL.CREATE_PREFERENCE
プロシージャを使用します。「属性」も参照してください。
printjoin
ワードの任意の場所(先頭、中間または最後)に出現した場合に、英数字として処理されてOracle Text索引にトークンとともに含まれる、英数字以外の1文字以上の文字。これには、連続的に発生するprintjoinが含まれます。
たとえば、ハイフン(-)とアンダースコア(_)がprintjoinとして定義されている場合、pseudo-intellectualや_file_などの語句はOracle Text索引にpseudo-intellectualおよび_file_として格納されます。
endjoinおよびstartjoinとは異なり、printjoinの場合は位置は無関係です。たとえば、$がstartjoinまたはprintjoinとして定義されている場合、$35は1つのトークンとして索引付けされますが、endjoinとして定義されている場合は2つのトークンとして索引付けされます。「endjoin」、「printjoin」、「startjoin」も参照してください。
結果セット
アプリケーション内の検索結果のページは、多くの異種要素(最初のいくつかのドキュメントのメタデータ、合計ヒット数、ワード当たりのヒット数など)で構成されます。以前のバージョンのOracle Textでこれらの結果を生成するには、複数の問合せとコールが必要でした。追加のコールのたびに、問合せを再解析して索引メタデータを検索するための時間がかかります。また、SQLでは、反復問合せ絞込みや上位10の内訳といった一部の検索操作が難しくなります。
結果セット・インタフェースは、検索結果のページに必要な様々な種類のデータを同時に作成でき、オーバーヘッドを共有することでパフォーマンスを向上させます。結果セット・インタフェースは、SQLでは表現しにくいデータ・ビュー(カテゴリ問合せによる上位Nなど)も戻すことができます。
SDATAセクション
構造化/ソート・データ・セクション。等価性検索のみをサポートするMDATA
セクション・タイプとは異なり、SDATA
セクションは範囲検索もサポートするように設計されています。デフォルトでは、すべてのFILTER
BY
列とORDER
BY
列がSDATA
セクションとしてマップされます。SDATA
セクションにはユーザー定義索引メタデータが含まれています。このタイプのセクションを使用すると、複合CONTAINS
問合せを高速化できます。「複合問合せ」、「セクション」も参照してください。
セクション
ドキュメントの下位区分。たとえば、HTMLページの<a>...</a>
セクション内の内容全体。
1つのドキュメントを複数のセクションに分割してからセクション内で検索すると、テキスト問合せをドキュメント内のテキスト・ブロックに絞り込むことができます。セクション検索は、HTMLやXMLのドキュメントのように、ドキュメントに内部構造がある場合に有効です。また、テキストを文レベルと段落レベルで検索できます。
セクション検索は、HASPATH
、ISPATH
またはWITHIN
演算子を使用して実行します。セクション検索を使用可能にするには、索引作成時にセクション・グループを使用します。
各種セクション・タイプには、属性、フィールド、HTML、MDATA、特殊、停止、XMLおよびゾーンなどがあります。
セクション・グループ
ドキュメント・セットのタイプを識別し、索引付けに使用するタグ構造を暗黙的に示すグループ。たとえば、HTMLタグ付きのドキュメントを索引付けするには、HTML_SECTION_GROUP
セクション・グループ・タイプを使用します。同様に、XMLタグ付きのドキュメントを索引付けするには、XML_SECTION_GROUP
セクション・グループ・タイプを使用します。セクション・グループは、CTX_DDL.CREATE_SECTION_GROUP
プロシージャまたはALTER INDEX
文を使用して宣言します。「セクション」も参照してください。
skipjoin
ワード内に出現した場合に、そのワードを単一トークンとして識別する英数字以外の文字。ただし、その文字はテキスト索引にトークンとともに格納されません。たとえば、ハイフン文字(-)がskipjoinとして定義されている場合、ワードpseudo-intellectualは、テキスト索引にpseudointellectualとして格納されます。「endjoin」、「printjoin」、「startjoin」も参照してください。
startjoin
トークンの第1文字として出現し、トークンの始まりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後の他のstartjoin文字は、トークンのテキスト索引エントリに含まれます。たとえば、$がstartjoinとして定義されている場合、$35は単一トークンとして索引付けされます。また、startjoin文字列の最初のstartjoin文字は、前のトークンを暗黙的に終了させます。「endjoin」、「printjoin」、「skipjoin」も参照してください。
ステミング
同じ語幹のワードを持つ語句をすべて含むように問合せ語句を拡張すること。たとえば、動詞talkをステミングすると、talkのみでなくtalking、talksおよびtalkedが導出されます(ただし、talkieは導出されません)。ステミングと異なり、ワイルド・カード拡張の場合は結果がスペルにのみ関連し、語形には関連しません。「ワイルド・カード拡張」も参照してください。
特殊セクション
タグで境界が設定されていないドキュメント・セクション。かわりに、セクションは文や段落などのプレーン・テキスト・ドキュメント構造で形成されます。特殊セクションは、CTX_DDL.ADD_SPECIAL_SECTION
プロシージャを使用してセクション・グループに追加されます。「セクション」、「セクション・グループ」も参照してください。
停止セクション
AUTO_SECTION_GROUP
に追加され、そのタイプのドキュメント・セクションの情報を索引作成中に無視させるセクション。ただし、この場合もセクションの内容は検索可能です。停止セクションは、CTX_DDL.ADD_STOP_SECTION
プロシージャを使用してセクション・グループに追加します。「AUTO_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。
ストップクラス
NUMBER
など、索引作成時にスキップされるトークンのクラス。ストップクラスを指定するには、CTX_DDL.ADD_STOPCLASS
を使用してストップリストにストップクラスを追加します。「ストップリスト」も参照してください。
ストップリスト
ストップワード、テーマ(ストップテーマ)およびデータ・クラス(ストップクラス)と呼ばれ、索引作成の対象にならないワードのリスト。デフォルトでは、指定のデータベース言語に対応するシステム提供のストップリストを使用してテキストが索引付けされます。
Oracle Textには、英語、フランス語、ドイツ語、スペイン語、中国語、オランダ語およびデンマーク語など、最も一般的な言語用のデフォルトのストップリストが用意されています。これらのデフォルト・ストップリストには、ストップワードのみが含まれています。ストップリストは、CTX_DDL.CREATE_STOPLIST
またはALTER INDEX
文で作成します。「ストップクラス」、「ストップテーマ」、「ストップワード」も参照してください。
ストップテーマ
索引作成時にスキップされるテーマ。ストップテーマを指定するには、CTX_DDL.ADD_STOPTHEMES
を使用してストップリストにストップテーマを追加します。「ストップリスト」も参照してください。
ストップワード
索引作成時にスキップされるワード。ストップワードを指定するには、CTX_DDL.ADD_STOPWORD
を使用してストップリストにストップワードを追加します。ALTER INDEX
文を使用して索引に動的に追加することもできます。「ストップリスト」も参照してください。
テーマ
特定のドキュメントに関連付けられているトピック。1つのドキュメントに多数のテーマが存在する場合があります。ドキュメントにテーマが表示される必要はなく、たとえば、ワードSan Franciscoを含むドキュメントがテーマの1つとしてCaliforniaを持つ場合があります。
テーマ・コンポーネントを索引に追加するには、BASIC_LEXER
プリファレンスのINDEX_THEMES
属性を使用します。ドキュメントから抽出するにはCTX_DOC.THEMES
を使用し、問合せにはABOUT
演算子を使用します。
ワイルド・カード拡張
指定したパターンと一致するワードを戻すように問合せ語句を拡張すること。たとえば、問合せ語句%rot%を拡張すると、trotとrottenの両方が戻されます。ワイルド・カード拡張は、ステミングとは異なります。「ステミング」も参照してください。
空白
トークン間の空白として扱われる文字。空白の事前定義済のデフォルト値は「space」と「tab」です。BASIC_LEXER
では、空白文字を(句読点および改行文字とともに)使用して、文と段落の検索に文デリミタとして機能する文字列が識別されます。
WITHIN演算子
特定のXMLドキュメント・セクション内で問合せ語句の検索に使用されるCONTAINS
問合せ演算子。INPATH
演算子に似ていますが、より限定的です。「INPATH演算子」も参照してください。
ワードリスト
サブストリングおよびプリフィックス索引付けとともに、ファジー、ステミングおよびプリフィックス索引付けなどの機能を使用可能にしてワイルド・カード検索を向上させるOracle Textプリファレンス。ワードリスト・プリファレンスは、CONTAINS
およびCATSEARCH
を使用してワイルド・カード問合せのパフォーマンスを向上させます。ワードリストは、CTX_DDL.ADD_WORDLIST
プロシージャまたはALTER INDEX
文を使用して作成します。「プリファレンス」も参照してください。
XMLセクション
XMLタグで定義され、XMLセクション検索を可能にするセクション。XMLセクションで索引付けすると、ドキュメント・タイプ別のセクションを宣言できるのみでなく、自動セクション化が可能です。XMLセクション検索には、INPATH
、HASPATH
およびWITHIN
演算子を使用したパス・セクション検索のみでなく属性検索が含まれます。「セクション」も参照してください。
ゾーン・セクション
基本的なタイプのドキュメント・セクションであり、ドキュメント内の開始タグと終了タグで区切られたテキストの本体です。ゾーン・セクションは、HTMLおよびXMLドキュメントのセクションの定義に最適です。ゾーン・セクションは、CTX_DDL.ADD_ZONE_SECTION
プロシージャまたはALTER INDEX
文を使用してセクション・グループに追加します。「フィールド・セクション」、「セクション」、「セクション・グループ」も参照してください。