用語集

代替スペル

ドイツ語、スウェーデン語およびオランダ語でスペルのバリエーションを使用すること。ALTERNATE_SPELLINGという名前のBASIC_LEXER属性を指定した場合は、これらのバリエーションを索引付けできます。

属性

プリファレンスに関連付けられたオプションのパラメータ。たとえば、BASIC_LEXERプリファレンスにはbase_letter属性が含まれ、この属性には値YES (基本文字変換を実行)またはNO (基本文字変換を実行しない)を指定できます。属性は、CTX_DDL.SET_ATTRIBUTEプロシージャまたはALTER INDEX文を使用して設定します。「プリファレンス」、「基本文字変換」も参照してください。

属性セクション

AUTHORまたはTITLEなど、XMLドキュメントの属性を表すユーザー定義セクション。属性セクションは、CTX_DDL.ADD_ATTR_SECTIONまたはALTER INDEX文を使用してセクション・グループに追加します。「AUTO_SECTION_GROUP」、「セクション」、「XML_SECTION_GROUP」も参照してください。

AUTO_SECTION_GROUP

XMLドキュメント内で開始タグと終了タグのペアごとにゾーン・セクションを自動作成するために使用されるセクション・グループ。属性セクションは、属性を持つXMLタグに対して自動的に作成されます。「属性セクション」、「セクション」、「セクション・グループ」、「XML_SECTION_GROUP」、「ゾーン・セクション」も参照してください。

基本文字変換

代替書式(アクセント、ウムラウトまたはセディラなど)を持つ文字を基本書式(アクセントなしなど)に変換すること。

BASIC_SECTION_GROUP

開始および終了タグが<tag>および</tag>という形式のセクションを定義するために使用されるセクション・グループ。コメント・タグ、属性付きタグまたは片方のみのカッコ付きタグなど、基本以外のタグはサポートされません。「HTML_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。

ケース

ワードや文字を大文字にすることを意味します(たとえば、mではなくMとなります)。大文字のない言語もあります。特に西ヨーロッパなどの一部の言語では、大/小文字混合の索引付けがサポートされています。

分類

ドキュメント分類と同義。ソース・ドキュメントをその内容に基づいてグループまたはクラスタに概念的に分割すること。たとえば、ドキュメント・グループを医薬、金融およびスポーツのクラスタに分割できます。

Oracle Textには、ルールベース分類、教師あり分類およびクラスタ化(教師なし分類)が組み込まれています。ルールベース分類では、ユーザーがドキュメントの分類ルールを(問合せ形式で)記述すると、Oracle Textでルールに従ってドキュメント分類が実行されます。教師あり分類では、サンプル・ドキュメント・セットに基づいてOracle Textにより分類ルールが作成されます。クラスタリングでは、クラスタとルールの両方がOracle Textにより作成されます。

クラスタリング

教師なし分類と同義。「分類」を参照してください。

コンポジット・ドメイン索引

CDIタイプの索引とも呼ばれます。指定されたテキスト列を索引付けおよび処理するだけでなく、索引の作成中に指定されたFILTER BYおよびORDER BY構造化列も索引付けおよび処理するOracle Text索引です。「ドメイン索引」も参照してください。

CONTEXT索引

基本的なタイプのOracle Text索引(テキスト列の索引)。CONTEXT索引は、ソース・テキストが、大規模な多数の一貫性のあるドキュメントで構成される場合に有効です。CONTEXT索引を使用するアプリケーションは、CONTAINS問合せ演算子を使用してテキストを取り出します。

CTXAPPロール

ユーザーがOracle Text索引と索引プリファレンスを作成し、PL/SQLパッケージを使用できるようにする、アプリケーション開発者のロール。このロールはOracle Textユーザーに付与する必要があります。

CTXCAT索引

1つのテキスト列と他の1つ以上の列が結合された索引。通常は、カタログによくある品目名、価格、説明など、小さいドキュメントやテキスト断片の索引付けに使用します。一般に、CTXCAT索引は、CONTEXT索引よりも複合問合せのパフォーマンスが優れています。

アプリケーションは、この索引をCATSEARCH演算子を使用して問い合せます。この索引はトランザクションに基づき、元表に対する挿入、更新または削除の際に自動的に更新されます。

CTXRULE索引

ドキュメント分類アプリケーションの構築に使用される索引。CTXRULE索引は、問合せ表に作成する索引で、問合せが分類基準を定義するルールとして機能します。この索引は、MATCHES演算子で問い合せます。

CTXSYSユーザー

インストール時に作成されます。CTXSYSユーザーは、全索引の表示、全索引の同期化、ctxkbtc (ナレッジ・ベース拡張コンパイラ)の実行、すべてのシステム定義ビューの問合せ、およびCTXAPPロールを持つユーザーのすべてのタスクの実行が可能です。

データストア

テキストの格納方法。格納方法は、特定の型の記憶域プリファレンスを指定することで決定されます。たとえば、DIRECT_DATASTORE型ではデータはテキスト列に直接格納されますが、URL_DATASTOREではデータをURLで指定した外部の場所に格納するように指定されます。

ドキュメント・サービス

ドキュメント・レベルで動作するサービス(ドキュメント内の問合せ語句のハイライト表示、ドキュメントのマークアップ、問合せ操作中のドキュメント・スニペットの生成など)。CTX_DOC PL/SQL パッケージには、ドキュメント・サービスを要求するプロシージャおよび関数が用意されています。「ナレッジ・ベース」も参照してください。

ドメイン索引

指定されたテキスト列を索引付けおよび処理するOracle Databaseのドメイン索引。「コンポジット・ドメイン索引」も参照してください。

endjoin

トークンの最終文字として出現し、トークンの終わりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後のstartjoin文字は、トークンのOracle Text索引エントリに含まれます。たとえば、endjoinとして++を指定すると、C++が認識されて単一トークンとして索引付けされます。「printjoin」、「skipjoin」、「startjoin」も参照してください。

エンティティ抽出

テキスト内の名前付きエンティティを識別および抽出すること。エンティティは、主に名前や場所、時間、コード化された文字列(電話番号や郵便番号など)、割合、金額といった名詞および名詞句です。CTX_ENTITYパッケージは、組込み辞書および英語テキストのルールのセットを使用して、エンティティ抽出を実装します。ユーザー提供のアドオン辞書およびルール・セットを使用すると、英語や他の言語の機能を拡張できます。

フィールド・セクション

ゾーン・セクションに似ていますが、主な違いはフィールド・セクションの開始タグと終了タグの間にある内容をドキュメントの他の部分とは別に索引付けできることです。このように分けて索引付けできるため、フィールド・セクションの内容を通常の問合せから隠すことができます。(INPATHおよびWITHIN演算子を使用すると、このようなセクション内の語句を検索できます。)フィールド・セクションは、ニュース・ヘッダーのフィールドなど、ドキュメント内に1回のみ出現するセクションに適しています。フィールド・セクションをセクション・グループに追加するには、CTX_DDL.ADD_FIELD_SECTIONプロシージャまたはALTER INDEX文を使用します。「INPATH演算子」、「セクション」、「WITHIN演算子」、「ゾーン・セクション」も参照してください。

フィルタ処理

Oracle Text索引作成プロセスのステップ。索引作成に関連付けられているフィルタ・プリファレンスに応じて、フィルタ処理中に3つの処理(形式設定されたドキュメントがマークアップされたテキストにフィルタ処理される、テキストが非データベース文字セットからデータベース文字セットに変換される、フィルタ処理が発生しない)のいずれかが発生します(HTML、XMLおよびプレーン・テキスト・ドキュメントはフィルタ処理されません)。

ファジー・マッチング

指定した語句と類似のスペルを持つワードを含めるように問合せを拡張します。このタイプの拡張は、ドキュメント・セットにスペルミスが頻出する場合に、より正確な結果を検出する上で有用です。ファジー・マッチングを起動するには、FUZZY問合せ演算子を使用します。

HASPATH演算子

問合せで指定したとおりのセクション・パスを含むXMLドキュメントの検索に使用するCONTAINS問合せ演算子。「PATH_SECTION_GROUP」も参照してください。

ハイライト表示

特別な方法で表示またはコールされる問合せ語句を含む、ドキュメントまたはドキュメント・フラグメントの生成されたバージョン。

ハイライト表示には、3つの形式があります。CTX_DOC.MARKUPプロシージャは、問合せ語句をプレーン・テキストまたはHTMLタグで囲んだドキュメントを戻します。CTX_DOC.HIGHLIGHTプロシージャは、ユーザーがドキュメントをマークアップできるように、問合せ語句のオフセットを戻します。CTX_DOC.SNIPPETプロシージャは、問合せ語句を前後のテキストの断片に表示したコンコーダンスを生成します。「マークアップ」も参照してください。

HTML_SECTION_GROUP

HTMLドキュメントのセクション定義に使用するセクション・グループ・タイプ。「BASIC_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。

INPATH演算子

XMLドキュメントのタグ内またはパス内の検索に使用するCONTAINS問合せ演算子。WITHIN演算子よりも汎用的なパス名の指定が可能。「WITHIN演算子」も参照してください。

KWIC

ソース・ドキュメント内の前後のテキストとともに問合せ語句を表示する方法。この表示方法は、問合せ用語の単一インスタンス、複数インスタンスまたはソース・ドキュメント内の各インスタンスで構成されます。これはCTX_DOC.SNIPPETプロシージャにより生成されます。

ナレッジ・ベース

テーマの索引付け、ABOUT問合せおよびドキュメント・サービスでのドキュメント・テーマの抽出などに使用する概念の階層ツリー。独自のナレッジ・ベースを作成したり、標準のOracle Textナレッジ・ベースを拡張できます。

レクサー

指定された言語に従ってソース・テキストをトークン(通常はワード)に分割するソフトウェア・プログラム。レクサーは、トークンの抽出にレクサー・プリファレンスに定義されたパラメータを使用します。これらのパラメータには、トークンの分割に使用する空白などの文字の定義や、テキストをすべて大文字に変換するかどうかのルールなどが含まれています。テーマの索引付けを有効にすると、レクサーはテキストを分析してテーマ・トークンを作成します。

アプリケーションで複数の言語によるドキュメントを含む表を索引付けする必要がある場合は、MULTI_LEXER (マルチ言語レクサー)を使用し、サブレクサーを作成して各言語を処理できます。各サブレクサーをメインのマルチレクサーに追加するには、CTX_DDl.ADD_SUB_LEXERプロシージャを使用します。「サブレクサー」も参照してください。

マークアップ

ハイライト表示の形式の1つ。CTX_DOC.MARKUPおよびCTX_DOC.POLICY_MARKUPプロシージャにより、問合せ語句とドキュメントを使用して、問合せ語句がマークアップされた(つまり、プレーン・テキスト文字またはHTMLタグで囲まれた)ドキュメントが戻されます。事前定義済のマークアップ・タグを使用するか、独自のマークアップ・タグを指定できます。これに対して、CTX_DOC.HIGHLIGHTおよびCTX_DOC.POLICY_HIGHLIGHTは問合せ語句のオフセットを戻すため、独自のハイライト表示タグを追加できます。「ハイライト表示」も参照してください。

MDATA

「メタデータ」を参照してください。

MDATAセクション

ユーザー定義の索引メタデータ。このメタデータを使用すると、複合CONTAINS問合せを高速化できます。「メタデータ」、「複合問合せ」、「セクション」も参照してください。

メタデータ

ドキュメントの通常の内容に含まれていないドキュメント関連情報。たとえば、HTMLドキュメントに<author>Smith</author>が含まれている場合、authorはメタデータのタイプとみなされ、Smithはauthorの値とみなされます。

MDATAセクションと呼ばれる、メタデータを含むセクションをドキュメントに追加するには、CTX_DDL.ADD_MDATA_SECTIONプロシージャを使用します。メタデータにより複合問合せを高速化できます。このような問合せは、MDATA演算子を使用して実行できます。「複合問合せ」、「セクション」も参照してください。

複合問合せ

テキストの内容とドキュメント・タイプなど、タイプの異なる2つの情報を検索する問合せ。たとえば、<title>メタデータ内のJonesの検索は複合問合せです。

名前検索

正字法の違いによりスペリングが異なる可能性がある正しい名前を一致させるための解決策。また、これを使用すると、レコードの名および姓が正しくセグメント化されていない場合などに発生する可能性がある、正確さに欠けるデータも検索できます。名前の照合とも呼ばれます。

NEWS_SECTION_GROUP

RFC 1036で定義されたニュース・グループ形式のドキュメントのセクションを定義するために使用されるセクション・グループ・タイプ。「セクション」、「セクション・グループ」も参照してください。

正規化されたワード

有効な変換ルールに従って索引付けのために変換された後のワードの書式。有効なルールによっては、ワードの正規化形式がソース・ドキュメント内の形式と同一の場合があります。正規化形式のワードには、オリジナル・バージョンと変換済バージョンの両方が含まれる場合もあります。たとえば、ドイツ語の新規スペルを指定した場合、ワードPotentialはPotenzialおよびPotentialの両方に正規化されます。

NULL_SECTION_GROUP

セクションが定義されていない場合や、SENTENCEまたはPARAGRAPHセクションのみが定義されている場合の、デフォルトのセクション・グループ・タイプ。「セクション」、「セクション・グループ」、「特殊セクション」も参照してください。

PATH_SECTION_GROUP

XMLドキュメントの索引付けに使用されるセクション・グループ・タイプ。AUTO_SECTION_GROUPタイプに似ていますが、HASPATHおよびINPATH演算子を使用できます。「AUTO_SECTION_GROUP」、「HASPATH演算子」、「INPATH演算子」、「セクション」、「セクション・グループ」も参照してください。

プリファレンス

Oracle Textによる索引の作成方法に影響を与えるオプションのパラメータ。たとえば、レクサー・プリファレンスでは、JAPANESE_VGRAM_LEXERなど、ドキュメントの処理時に使用するレクサーを指定します。格納、フィルタ処理、レクサー、分類、ワードリスト、セクション・タイプなどのプリファレンスがあります。プリファレンスには、属性が関連付けられている場合と関連付けられていない場合があります。プリファレンスを設定するには、CTX_DDL.CREATE_PREFERENCEプロシージャを使用します。「属性」も参照してください。

printjoin

ワードの先頭、中間または最後に出現した場合に、英数字として処理されてOracle Text索引にトークンとともに含まれる、英数字以外の1文字以上の文字。連続したprintjoinも含まれています。

たとえば、ハイフン(-)とアンダースコア(_)をprintjoinとして定義した場合、pseudo-intellectualや_file_などの語句はOracle Text索引にpseudo-intellectualおよび_file_として格納されます。

printjoinは、endjoinおよびstartjoinと異なり、使用場所の制限はありません。たとえば、$がstartjoinまたはprintjoinとして定義されている場合、$35は1つのトークンとして索引付けされますが、endjoinとして定義されている場合は2つのトークンとして索引付けされます。「endjoin」、「printjoin」、「startjoin」も参照してください。

結果セット

オーバーヘッドを共有することでパフォーマンスを改善するインタフェース。これにより、検索結果のページに必要な様々な要素(最初の数個のドキュメントのメタデータ、ヒット総数、ワードごとのヒット数など)を同時に生成できます。SQLでは表現しにくいデータ・ビューも返すことができます。

以前のバージョンのOracle Textでこれらの結果を生成するには、複数の問合せとコールが必要でした。追加のコールのたびに、問合せを再解析して索引メタデータを検索するための時間がかかります。また、SQLでは、反復問合せ絞込みといった一部の検索操作が難しくなります。

ルールベース分類

「分類」を参照してください。

構造化/ソート・データ(SDATA)セクション

等価検索と範囲検索をサポートするセクション・タイプ。デフォルトでは、すべてのFILTER BY列とORDER BY列がSDATAセクションとしてマップされます。SDATAセクションにはユーザー定義索引メタデータが含まれています。このタイプのセクションを使用すると、複合CONTAINS問合せを高速化できます。「複合問合せ」、「セクション」も参照してください。

セクション

ドキュメントの下位区分。たとえば、HTMLページの<a>...</a>セクション内の内容全体。各種セクション・タイプには、属性、フィールド、HTML、MDATA、特殊、停止、XMLおよびゾーンなどがあります。

1つのドキュメントを複数のセクションに分割してからセクション内で検索することで、テキスト問合せをドキュメント内のテキスト・ブロックに絞り込むことができます。セクション検索は、HTMLやXMLのドキュメントのように、ドキュメントに内部構造がある場合に有効です。また、テキストを文レベルと段落レベルで検索できます。

セクション検索は、HASPATH、ISPATHまたはWITHIN演算子を使用して実行します。索引付け時には、セクション・グループを使用してセクション検索を有効にします。「セクション・グループ」も参照してください。

セクション・グループ

ドキュメント・セットのタイプを識別し、索引付けに使用するタグ構造を暗黙的に示すグループ。たとえば、HTMLタグ付きのドキュメントを索引付けするには、HTML_SECTION_GROUPセクション・グループ・タイプを使用します。同様に、XMLタグ付きのドキュメントを索引付けするには、XML_SECTION_GROUPセクション・グループ・タイプを使用します。セクション・グループを宣言するには、CTX_DDL.CREATE_SECTION_GROUPプロシージャまたはALTER INDEX文を使用します。「セクション」も参照してください。

skipjoin

ワード内に出現した場合に、そのワードを単一トークンとして識別する英数字以外の文字。ただし、その文字はOracle Text索引にトークンとともに格納されません。たとえば、ハイフン文字(-)をskipjoinとして定義した場合、ワードpseudo-intellectualはOracle Text索引にpseudointellectualとして格納されます。「endjoin」、「printjoin」、「startjoin」も参照してください。

startjoin

トークンの第1文字として出現し、トークンの始まりを明示的に識別する英数字以外の1文字以上の文字。この文字と直後の他のstartjoin文字は、トークンのOracle Text索引エントリに含まれます。たとえば、$をstartjoinとして定義した場合、$35は単一トークンとして索引付けされます。また、startjoin文字列の最初のstartjoin文字は、前のトークンを暗黙的に終了させます。「endjoin」、「printjoin」、「skipjoin」も参照してください。

ステミング

同じ語幹のワードを持つ語句をすべて含むように問合せ語句を拡張すること。たとえば、動詞talkをステミングすると、talkのみでなくtalking、talksおよびtalkedが導出されます(ただし、talkieは導出されません)。ステミングと異なり、ワイルド・カード拡張の場合は結果がスペルにのみ関連し、語形には関連しません。「ワイルドカード拡張」も参照してください。

特殊セクション

タグで境界が設定されていないドキュメント・セクション。かわりに、セクションは文や段落などのプレーン・テキスト・ドキュメント構造で形成されます。特殊セクションは、CTX_DDL.ADD_SPECIAL_SECTIONプロシージャを使用してセクション・グループに追加されます。「セクション」、「セクション・グループ」も参照してください。

停止セクション

AUTO_SECTION_GROUPに追加され、そのタイプのドキュメント・セクションの情報が索引付け中に無視されるようにするセクション。ただし、この場合もセクションの内容は検索可能です。停止セクションをセクション・グループに追加するには、CTX_DDL.ADD_STOP_SECTIONプロシージャを使用します。「AUTO_SECTION_GROUP」、「セクション」、「セクション・グループ」も参照してください。

ストップクラス

NUMBERなど、索引作成時にスキップされるトークンのクラス。ストップクラスを指定するには、CTX_DDL.ADD_STOPCLASSを使用して、それをストップリストに追加します。「ストップリスト」も参照してください。

ストップリスト

ストップワード、テーマ(ストップテーマ)およびデータ・クラス(ストップクラス)と呼ばれ、索引作成の対象にならないワードのリスト。デフォルトでは、指定のデータベース言語に対応するシステム提供のストップリストを使用してテキストが索引付けされます。

Oracle Textでは、英語、フランス語、ドイツ語、スペイン語、中国語、オランダ語およびデンマーク語を含むほとんどの言語に対して、デフォルトのストップリストが提供されています。これらのデフォルト・ストップリストには、ストップワードのみが含まれています。ストップリストを作成するには、CTX_DDL.CREATE_STOPLISTプロシージャまたはALTER INDEX文を使用します。「ストップクラス」、「ストップテーマ」、「ストップワード」も参照してください。

ストップテーマ

索引作成時にスキップされるテーマ。ストップテーマを指定するには、CTX_DDL.ADD_STOPTHEMESプロシージャを使用して、それをストップリストに追加します。「ストップリスト」も参照してください。

ストップワード

索引付け中にスキップされるワード。ストップワードを指定するには、CTX_DDL.ADD_STOPWORDプロシージャを使用して、それをストップリストに追加します。また、ALTER INDEX文を使用して索引に動的に追加することもできます。「ストップリスト」も参照してください。

サブレクサー

「レクサー」を参照してください。

教師なし分類

「分類」を参照してください。

テーマ

特定のドキュメントに関連付けられているトピック。1つのドキュメントに多数のテーマが存在する場合があります。ドキュメントにテーマが表示される必要はなく、たとえば、ワードSan Franciscoを含むドキュメントがテーマの1つとしてCaliforniaを持つ場合があります。

索引にテーマ・コンポーネントを追加するには、BASIC_LEXERプリファレンスのINDEX_THEMES属性を使用します。ドキュメントからテーマ・コンポーネントを抽出するにはCTX_DOC.THEMESプロシージャを使用し、テーマ・コンポーネントに問い合せるにはABOUT演算子を使用します。

教師なし分類

クラスタリングとも呼ばれます。「分類」を参照してください。

ワイルドカード拡張

指定したパターンと一致するワードを戻すように問合せ語句を拡張すること。たとえば、問合せ語句%rot%を拡張すると、trotとrottenの両方が戻されます。ワイルド・カード拡張は、ステミングとは異なります。「ステミング」も参照してください。

空白

トークン間の空白として扱われる文字。空白の事前定義済のデフォルト値は「space」と「tab」です。BASIC_LEXERでは、空白文字を(句読点および改行文字とともに)使用して、文と段落の検索に文デリミタとして機能する文字列が識別されます。

WITHIN演算子

特定のXMLドキュメント・セクション内で問合せ語句の検索に使用されるCONTAINS問合せ演算子。INPATH演算子に似ていますが、より限定的です。「INPATH演算子」も参照してください。

ワードリスト

サブストリングおよびプリフィックス索引付けとともに、ファジー、ステミングおよびプリフィックス索引付けなどの機能を使用可能にしてワイルド・カード検索を向上させるOracle Textプリファレンス。ワードリスト・プリファレンスは、CONTAINSおよびCATSEARCHを使用してワイルド・カード問合せのパフォーマンスを向上させます。ワードリストは、CTX_DDL.ADD_WORDLISTプロシージャまたはALTER INDEX文を使用して作成します。「プリファレンス」も参照してください。

XMLセクション

XMLタグで定義され、XMLセクション検索を可能にするセクション。XMLセクションで索引付けすると、ドキュメント・タイプ別のセクションを自動的にセクション化および作成できます。XMLセクション検索には、INPATH、HASPATHおよびWITHIN演算子を使用したパス・セクション検索のみでなく属性検索が含まれます。「セクション」も参照してください。

XML_SECTION_GROUP

索引付けするXMLドキュメントの識別に使用されるセクション・グループ。「セクション」、「セクション・グループ」も参照してください。

ゾーン・セクション

基本的なタイプのドキュメント・セクションであり、ドキュメント内の開始タグと終了タグで区切られたテキストの本文です。ゾーン・セクションは、HTMLおよびXMLドキュメントのセクションの定義に最適です。ゾーン・セクションをセクション・グループに追加するには、CTX_DDL.ADD_ZONE_SECTIONプロシージャまたはALTER INDEX文を使用します。「フィールド・セクション」、「セクション」、「セクション・グループ」も参照してください。