Oracle Textでの問合せ

6 Oracle Textでの問合せ

Oracle Textの問合せと関連機能について理解します。

この章のトピックは、次のとおりです:

6.1 問合せの概要

Oracle Textの基本的な問合せでは、問合せ式を入力します。式は、通常はワードで、演算子を併用する場合と併用しない場合があります。式を満たすすべてのドキュメント(事前に索引付け済)が、各ドキュメントの関連性スコアとともに戻ります。スコアを使用して、結果セット内のドキュメントを順序付けできます。

Oracle Textの問合せを入力するには、SQLのSELECT文を使用します。索引のタイプに応じて、WHERE句にCONTAINS演算子またはCATSEARCH演算子のいずれかを使用します。これらの演算子は、PL/SQLカーソル内など、SELECT文を使用できる状況であれば、いつでもプログラムで使用できます。

CTXRULE索引を使用してドキュメントを分類するには、MATCHES演算子を使用します。

6.1.1 CONTAINSによる問合せ

CONTEXT索引タイプを作成する場合は、CONTAINS演算子を使用して問合せを入力する必要があります。この索引は、大量のまとまったドキュメントのコレクションを索引付けする場合に適しています。

CONTAINS演算子では、複数の演算子を使用して検索条件を定義できます。これらの演算子によって、論理、近接、ファジー、ステミング、シソーラスおよびワイルドカードの各検索を入力できます。また、適切に構成された索引を使用すると、HTMLやXMLのような内部構造を持つドキュメントに対してセクション検索を入力することもできます。

CONTAINSでは、ABOUT演算子を使用して、ドキュメント・テーマを検索できます。

6.1.1.1 CONTAINS SQL例

SELECT文では、CONTAINS演算子を使用してWHERE句で問合せを指定します。また、ヒットリストのヒットごとにスコアを戻すには、SCORE演算子を指定します。次の例では、問合せの入力方法を示します。

SELECT SCORE(1), title from news WHERE CONTAINS(text, 'oracle', 1) > 0;

次のように、ORDER BY句を使用して、結果を最も高いスコアのドキュメントから最も低いスコアのドキュメントに順序付けることができます。

SELECT SCORE(1), title from news 
           WHERE CONTAINS(text, 'oracle', 1) > 0
           ORDER BY SCORE(1) DESC;

CONTAINS演算子の後には、> 0構文が必要です。この構文は、CONTAINS演算子によって戻されるスコアの値が、戻される行に対してゼロより大きい必要があることを指定します。

SELECT文でSCORE演算子がコールされた場合、CONTAINS演算子は、前述の例に示すように、3番目のパラメータでスコア・ラベルの値を参照する必要があります。

6.1.1.2 CONTAINS PL/SQL例

PL/SQLアプリケーションでは、カーソルを使用して問合せ結果をフェッチできます。

次の例では、CONTAINS問合せをNEWS表に対して入力し、ワードoracleを含むすべての記事を検索します。ヒットしたもののうち上位10個のタイトルとスコアが出力されます。

declare 
  rowno number := 0; 
begin 
  for c1 in (SELECT SCORE(1) score, title FROM news 
              WHERE CONTAINS(text, 'oracle', 1) > 0
              ORDER BY SCORE(1) DESC) 
  loop 
    rowno := rowno + 1; 
    dbms_output.put_line(c1.title||': '||c1.score); 
    exit when rowno = 10; 
  end loop; 
end;

この例では、カーソルFORループを使用して、ヒットしたもののうち上位10個を取り出します。SCORE演算子の戻り値に対して、別名scoreが宣言されています。スコアとタイトルがカーソル・ドット表記法を使用して出力として表示されます。

6.1.1.3 CONTAINSによる構造化問合せの例

構造化問合せは複合問合せとも呼ばれ、テキスト列を問い合せる1つのCONTAINS述語と、構造化データ列を問い合せる別の述語を持つ問合せです。

構造化問合せを入力するには、SELECT文のWHERE条件に構造化句を指定します。

たとえば、次のSELECT文は、1997年10月1日以降に書かれた、ワードoracleを含む記事をすべて検索します。

SELECT SCORE(1), title, issue_date from news 
           WHERE CONTAINS(text, 'oracle', 1) > 0
           AND issue_date >= ('01-OCT-97') 
           ORDER BY SCORE(1) DESC;

ノート:

CONTAINSで構造化問合せを入力できる場合でも、CTXCAT索引を作成し、CATSEARCHで問合せを発行することを検討してください。その方が構造化問合せのパフォーマンスが向上します。

6.1.2 CATSEARCHによる問合せ

CTXCAT索引タイプを作成する場合は、CATSEARCH演算子を使用して問合せを入力する必要があります。この索引は、使用しているアプリケーションで、テキスト列に短いテキスト断片を格納し、関連列に関連情報を格納する場合に適しています。

たとえば、オンライン・オークション・サイトを提供しているアプリケーションの場合、表のテキスト列に品目の説明を格納し、その他の列に日付と価格情報を格納するという具合です。CTXCAT索引を使用すると、1つ以上の列にBツリー索引を作成できるため、複雑な問合せに対する問合せのパフォーマンスが通常高速になります。

CATSEARCH問合せに使用できる演算子は、ANDやORなどの論理演算に制限されています。構造化基準を定義するには、より大きい、より小さい、等価、BETWEEN、INの各演算子を使用します。

6.1.2.1 CATSEARCH SQL問合せの例

CATSEARCHによる一般的な問合せの例として、ワードcameraを含むすべての行を検索してbid_closeの日付順にソートする次の構造化句などがあります。

SELECT FROM auction WHERE CATSEARCH(title, 'camera', 'order by bid_close desc')> 0;

入力できる構造化問合せのタイプは、サブ索引の作成方法によって異なります。

関連項目:

「CTXCAT索引の作成」

前述の例のように、CATSEARCH問合せの構造化部分を指定するには、3番目のstructured_queryパラメータを使用します。構造化式の列には、対応するサブ索引が必要です。

たとえば、category_idとbid_closeには、AUCTION表のctxcat索引内にサブ索引があるとします。この場合は、次のような構造化問合せを入力します。

SELECT FROM auction WHERE CATSEARCH(title, 'camera', 'category_id=99 order by bid_close desc')> 0;

6.1.2.2 CATSEARCH例

次の例は、CTXCAT索引に対するフィールド・セクション検索を示しています。これは、CATSEARCH問合せの問合せテンプレートでCONTEXT構文を使用します。

-- Create and populate table
create table BOOKS (ID number, INFO varchar2(200), PUBDATE DATE);
 
insert into BOOKS values(1, '<author>NOAM CHOMSKY</author><subject>CIVIL
   RIGHTS</subject><language>ENGLISH</language><publisher>MIT
   PRESS</publisher>', '01-NOV-2003');
 
insert into BOOKS values(2, '<author>NICANOR PARRA</author><subject>POEMS 
  AND ANTIPOEMS</subject><language>SPANISH</language>
  <publisher>VASQUEZ</publisher>', '01-JAN-2001');
 
insert into BOOKS values(1, '<author>LUC SANTE</author><subject>XML
  DATABASE</subject><language>FRENCH</language><publisher>FREE
  PRESS</publisher>', '15-MAY-2002');
 
commit;

-- Create index set and section group
exec ctx_ddl.create_index_set('BOOK_INDEX_SET');
exec ctx_ddl.add_index('BOOK_INDEX_SET','PUBDATE');
 
exec ctx_ddl.create_section_group('BOOK_SECTION_GROUP',
      'BASIC_SECTION_GROUP');
exec ctx_ddl.add_field_section('BOOK_SECTION_GROUP','AUTHOR','AUTHOR');
exec ctx_ddl.add_field_section('BOOK_SECTION_GROUP','SUBJECT','SUBJECT');
exec ctx_ddl.add_field_section('BOOK_SECTION_GROUP','LANGUAGE','LANGUAGE');
exec ctx_ddl.add_field_section('BOOK_SECTION_GROUP','PUBLISHER','PUBLISHER'); 
 
-- Create index
create index books_index on books(info) indextype is ctxsys.ctxcat
  parameters('index set book_index_set section group book_section_group');
 
-- Use the index
-- Note that: even though CTXCAT index can be created with field sections, it
-- cannot be accessed using CTXCAT grammar (default for CATSEARCH).
-- We need to use query template with CONTEXT grammar to access field 
-- sections with CATSEARCH
 
select  id, info from books
where catsearch(info,
'<query>
      <textquery grammar="context">
              NOAM within author and english within language
      </textquery>
 </query>',
'order by pubdate')>0;

6.1.3 MATCHESによる問合せ

CTXRULE索引タイプを作成する場合は、MATCHES演算子を使用してドキュメントを分類する必要があります。CTXRULE索引は、本来は分類を定義する問合せのセットに作成される索引です。

たとえば、ドキュメントの着信ストリームをドキュメントの内容に基づいて分類する必要がある場合は、カテゴリを定義する問合せのセットを作成できます。この問合せは、テキスト列の行として作成します。このタイプの表を作成するには、CTX_CLS.TRAINプロシージャを使用します。

次に、CTXRULE索引を作成するために表を索引付けします。ドキュメントの着信時に、MATCHES演算子を使用して各ドキュメントを分類します。

関連項目:

Oracle Textでのドキュメントの分類

6.1.3.1 MATCHES SQL問合せ

MATCHES問合せでは、指定したドキュメントに一致する問合せ表内のすべての行を検索します。querytable表がCTXRULE索引に関連付けられている場合、次の問合せを入力します。

SELECT classification FROM querytable WHERE MATCHES(query_string,:doc_text) > 0;

:doc_textバインド変数には、分類されるCLOBドキュメントが含まれています。

次に、その単純な例を示します。

   create table queries (
      query_id      number,
      query_string  varchar2(80)
    );

    insert into queries values (1, 'oracle');
    insert into queries values (2, 'larry or ellison');
    insert into queries values (3, 'oracle and text');
    insert into queries values (4, 'market share');

    create index queryx on queries(query_string)
      indextype is ctxsys.ctxrule;

    select query_id from queries
     where matches(query_string, 
                   'Oracle announced that its market share in databases 
                    increased over the last year.')>0

この問合せでは、問合せ1 (ドキュメントにoracleというワードが出現)および4 (ドキュメントにmarket shareという句が出現)が返され、問合せ2 (larryおよびellisonというワードは出現しない)および3 (ドキュメント内にテキストがないため問合せに一致しない)は返されません。

この例では、簡略化するために、ドキュメントを文字列として渡しています。通常、ドキュメントはバインド変数で渡されます。

MATCHES問合せで使用されるドキュメント・テキストは、VARCHAR2またはCLOBです。BLOB入力は受け入れないため、フィルタ処理されたドキュメントを直接照合することはできません。かわりに、AUTO_FILTERを使用してバイナリ・コンテンツをCLOBにフィルタ処理する必要があります。次の例では、次の2つのことを前提としています。

ドキュメント・データは、:doc_blobバインド変数にあります。
CTX_DOC.POLICY_FILTERで使用できるmy_policyをすでに定義しています。

次にその例を示します。

  declare
    doc_text clob;
  begin
    -- create a temporary CLOB to hold the document text
    doc_text := dbms_lob.createtemporary(doc_text, TRUE, DBMS_LOB.SESSION);
 
    -- create a simple policy for this example
    ctx_ddl.create_preference(preference_name => 'fast_filter',
                        object_name       => 'AUTO_FILTER');
    ctx_ddl.set_attribute(preference_name => 'fast_filter',
                        attribute_name    => 'OUTPUT_FORMATTING',
                        attribute_value   => 'FALSE');
    ctx_ddl.create_policy(policy_name     => 'my_policy',
                        filter            => 'fast_filter);

    -- call ctx_doc.policy_filter to filter the BLOB to CLOB data
    ctx_doc.policy_filter('my_policy', :doc_blob, doc_text, FALSE);

    -- now do the matches query using the CLOB version
    for c1 in (select * from queries where matches(query_string, doc_text)>0)
    loop
      -- do what you need to do here
    end loop;

    dbms_lob.freetemporary(doc_text);
  end;

テキストをCLOBに取り込んでMATCHES問合せを入力する必要があるため、CTX_DOC.POLICY_FILTERプロシージャによりBLOBをCLOBデータにフィルタ処理します。これは、CTX_DDL.CREATE_POLICYを使用してすでに作成されたポリシーの名前を1つの引数として受け取ります。

関連項目:

CTX_DOC.POLICY_FILTERの詳細は、『Oracle Textリファレンス』を参照してください

ファイルがデータベース文字セット内のテキストである場合、BFILEを作成し、DBMS_LOB.LOADFROMFILEファンクションを使用してCLOBにロードするか、UTL_FILEを使用して、ファイルを一時的なCLOBロケータに読み込むことができます。

ファイルがAUTO_FILTERフィルタ処理を必要とする場合は、ファイルをBLOBにロードして、前述のように、CTX_DOC.POLICY_FILTERをコールします。

関連項目:

拡張された分類の例は、「Oracle Textでのドキュメントの分類」を参照してください

6.1.3.2 MATCHES PL/SQL例

次の例では、問合せのプロファイル表がCTXRULE索引に関連付けられていることを前提としています。また、newsfeed表に分類対象の記事のセットが含まれていることも前提となります。

この例では、newsfeed表内をループし、MATCHES演算子を使用して各記事を分類します。結果は、results表に格納されます。

PROMPT  Populate the category table based on newsfeed articles
PROMPT
set serveroutput on;
declare
  mypk   number;
  mytitle varchar2(1000);
  myarticles clob;
  mycategory varchar2(100);
  cursor doccur is select pk,title,articles from newsfeed;
  cursor mycur is  select category from profiles where matches(rule, myarticles)>0;  
  cursor rescur is select category, pk, title from results order by category,pk;

begin
  dbms_output.enable(1000000);
  open doccur;
  loop
    fetch doccur into mypk, mytitle, myarticles;
    exit when doccur%notfound;
    open mycur;
    loop
      fetch mycur into mycategory;
      exit when mycur%notfound;
      insert into results values(mycategory, mypk, mytitle);
    end loop;
    close mycur;
    commit;
  end loop;
  close doccur;
  commit;

end;

次の例では、分類された記事をカテゴリ別に表示します。

PROMPT  display the list of articles for every category
PROMPT
set serveroutput on;

declare
  mypk   number;
  mytitle varchar2(1000);
  mycategory varchar2(100);
  cursor catcur is select category from profiles order by category;
  cursor rescur is select pk, title from results where category=mycategory order by pk;

begin
  dbms_output.enable(1000000);
  open catcur;
  loop
    fetch catcur into mycategory;
    exit when catcur%notfound;
    dbms_output.put_line('********** CATEGORY: '||mycategory||' *************');
open rescur;
    loop
      fetch rescur into mypk, mytitle;
      exit when rescur%notfound;
dbms_output.put_line('**  ('||mypk||'). '||mytitle);
    end loop;
    close rescur;
    dbms_output.put_line('**');
dbms_output.put_line('*******************************************************');
  end loop;
  close catcur; 
end;

関連項目:

拡張された分類の例は、「Oracle Textでのドキュメントの分類」を参照してください

6.1.4 ワード問合せと句問合せ

ワード問合せは、ワードまたは句に対する問合せです。たとえば、テキスト表でワードdogを含むすべての行を検索するには、問合せ語句として、dogを指定して問合せを入力します。

ワード問合せは、SQL演算子のCONTAINSとCATSEARCHの両方で入力できます。ただし、句問合せは、異なる方法で解釈されます。

CONTAINS句問合せ: 問合せ式に複数のワードが空白のみ(演算子なし)で区切られて含まれている場合、そのワードの文字列は句とみなされます。Oracle Textでは、問合せ中に文字列全体が検索されます。たとえば、句international lawを含むすべてのドキュメントを検索するには、句international lawを指定して問合せを入力します。
CATSEARCH句問合せ: CATSEARCH演算子では、句のワード間にAND演算子を挿入します。たとえば、international lawの問合せでは、international AND lawとして解釈されます。

6.1.5 ストップワードの問合せ

ストップワードは、索引エントリが作成されないワードです。これは、通常、検索の対象とならない、その言語の一般的なワードです。

Oracle Textには、使用言語のデフォルトのストップワード・リストが組み込まれています。このリストは、ストップリストと呼ばれます。たとえば、英語では、ワードthisおよびthatは、デフォルトのストップリストでストップワードとして定義されています。このデフォルトのストップリストを変更したり、CTX_DDLパッケージを使用して新しいストップリストを作成できます。また、索引を作成した後で、ALTER INDEX文でストップワードを追加することもできます。

ストップワードまたはストップワードのみで構成されている句に対する問合せは発行できません。たとえば、thisがストップワードとして定義されている場合は、ワードthisを問い合せても、ヒットは戻りません。

Oracle Textの索引では、ストップワードの索引エントリは作成しませんが、ストップワードの位置は記録しているため、this boy talks to that girlといった索引付け可能なワードに加えてストップワードを含む句を問い合せることができます。

問合せ句内にストップワードが含まれている場合、このストップワードは任意のワードに一致します。たとえば、次の問合せではwasがストップワードであると想定しています。この場合、Jack is bigやJack grew bigなどの句が一致します。また、ストップワードではありませんが、grewにも一致します。

'Jack was big'

Oracle Database 12cリリース2 (12.2)以降、ストップワードとストップワードの単項演算子が問合せ結果の初期段階で無視されるため、前のリリースと異なる問合せ結果になります。たとえば、次の問合せでは、theがストップワードで、問合せ処理中に$演算子とストップワードが無視されるため、ドキュメントは返されません。

SQL> select count(1) from tabx where contains(text,'$the')>0; 
 . 
  COUNT(1) 
 ---------- 
        0

次の問合せでは、theストップワードと$演算子が無視されるため、firstが含まれているドキュメントは返されます。

SQL> select count(1) from tabx where contains(text,'first and $the')>0; 
 . 
  COUNT(1) 
 ---------- 
        2

6.1.6 ABOUT問合せおよびテーマ

ABOUT問合せは、ドキュメント・テーマに対する問合せです。ドキュメント・テーマは、テキスト内で詳しく展開されている概念のことです。たとえば、US politicsのABOUT問合せでは、アメリカの大統領選挙や外交政策に関する情報を含むドキュメントが戻る可能性があります。戻るドキュメントには、US politicsと正確に一致する句が含まれている必要はありません。

索引付け時に、ドキュメント・テーマはナレッジ・ベースから導出され、このナレッジ・ベースには、一般的な知識を表すカテゴリと概念が階層式にリストされています。たとえば、ナレッジ・カタログのテーマには、jazz music、football、Nelson Mandelaなどの具体的な概念もあります。また、テーマには、happinessやhonestyなどの抽象的な概念もあります。

索引付け中に、システムでは、ドキュメント内で詳しく展開されているが、ナレッジ・ベースには存在しないドキュメント・テーマも識別し、索引付けすることができます。

ナレッジ・ベースは、業界または問合せアプリケーション固有の概念や用語を定義して補強できます。補強した場合は、追加した概念に対するABOUT問合せの精度が向上します。

索引内にテーマ・コンポーネントを作成すると、ABOUT問合せのパフォーマンスが最も向上します。テーマ・コンポーネントは、英語とフランス語ではデフォルトで作成されます。

関連項目:

『Oracle Textリファレンス』

ストップテーマの問合せ

ABOUT演算子を使用すると、テーマを問い合せることができます。ストップテーマは、索引付けされていないテーマです。ストップテーマは、CTX_DDLパッケージを使用して追加および削除できます。また、索引を作成した後で、ALTER INDEX文でストップテーマを追加することもできます。

6.2 Oracle Text問合せの機能

Oracle Textには、様々な問合せ機能があります。これらの問合せ機能を問合せアプリケーションで使用できます。

6.2.1 問合せ式

問合せ式とは、CONTAINS演算子またはCATSEARCH演算子のtext_query引数内で一重引用符で囲まれたものを指します。CONTAINS問合せ内の問合せ式の内容は、CATSEARCH演算子の内容とは異なります。

6.2.1.1 CONTAINS演算子

CONTAINSの問合せ式には、論理検索、近接検索、シソーラスを使用した検索、ファジー検索およびワイルド・カード検索を行う問合せ演算子を含めることができます。ストアド式を使用した問合せも可能です。問合せ式内でグループ化文字を使用すると、演算子の優先順位を変更できます。このマニュアルでは、このような演算子をCONTEXT文法と呼びます。

CONTAINSでは、ABOUT問合せを使用して、ドキュメント・テーマを問い合せることもできます。

関連項目:

「CONTEXT構文」

6.2.1.2 CATSEARCH演算子

CATSEARCH演算子では、text_query引数を使用して問合せ式を指定し、structured_query引数を使用してオプションの構造化基準を指定できます。text_query引数を使用すると、ワードと句を問い合せることができます。AND、ORおよびNOTなどの論理操作を使用できます。このマニュアルでは、このような演算子をCTXCAT文法と呼びます。

CONTEXT文法によりサポートされているさらに豊富な演算子を使用する場合は、CATSEARCHで問合せテンプレート機能を使用できます。

structured_query引数では、構造化基準を指定します。次のSQL操作を使用できます。

=
<=
>=
>
<
IN
BETWEEN

また、ORDER BY句を使用して出力を順序付けできます。

関連項目:

「CTXCAT構文」

6.2.1.3 MATCHES演算子

CONTAINSおよびCATSEARCHと異なり、MATCHESは問合せ式を入力として受け取りません。

MATCHES演算子はドキュメントを入力として受け取り、問合せ(ルール)表から条件に合うすべての行を検出します。したがって、MATCHESを使用すると、一致するルールに従ってドキュメントを分類できます。

関連項目:

「MATCHESによる問合せ」

6.2.2 大/小文字を区別する検索

Oracle Textでは、ワード問合せとABOUT問合せで大/小文字区別がサポートされています。

ワード問合せでは、デフォルトで大/小文字を区別していません。たとえば、語句dogを問い合せると、テキスト表のワードdogを含む行が検出されますが、DogまたはDOGを含む行は検出されません。

BASIC_LEXER索引プリファレンスのMIXED_CASE属性を使用すると、大/小文字を区別する検索の有効/無効を切り替えることができます。大/小文字を区別する索引の場合は、大/小文字を正確に区別して問合せを入力する必要があります。たとえば、Dogへの問合せは、Dogを含むドキュメントのみと一致します。dogまたはDOGを含むドキュメントは、ヒットとして戻りません。

大/小文字を区別しない検索を有効にするには、BASIC_LEXER索引プリファレンスのMIXED_CASE属性をNOに設定します。

ノート:

ワード問合せで大/小文字区別を有効にし、ストップワードと索引付け可能なワードを含む句を問い合せる場合は、ストップワードの大/小文字の区別を正確に指定する必要があります。たとえば、theがストップワードとして定義されている場合は、the dogを問い合せても、The Dogを含むテキストは戻りません。

問合せの正規化はナレッジ・カタログに基づいているため、問合せが適切な大/小文字で形成されている場合は、ABOUT問合せによって最良の結果が得られます。ナレッジ・カタログでは、大/小文字が区別されます。大文字/小文字によって意味が異なるワードの場合は、特に注意が必要です(たとえば、turkeyは鳥の名で、Turkeyは国名です)。

ただし、ABOUT問合せの関連結果を取得するために、大/小文字を正確に区別して問合せを入力する必要はありません。システムが、最適な方法で問合せを解釈します。たとえば、ORACLEという問合せを入力し、この概念がナレッジ・カタログで検索されない場合、システムは検索用の関連概念としてOracleを使用する場合があります。

6.2.3 問合せのフィードバック

フィードバックには、CONTEXT索引で指定した問合せに対する上位語、下位語および関連語の情報が含まれています。フィードバック情報は、CTX_QUERY.HFEEDBACKプロシージャを使用してプログラムで取得します。

上位語、下位語および関連語の情報は、他の問合せ語句を問合せアプリケーションのユーザーに提示する場合に役立ちます。

戻されるフィードバック情報はナレッジ・ベースから取得され、索引中にも存在する語句のみを含みます。このプロセスによって、HFEEDBACKプロシージャから戻された語句が、現在索引付けされているドキュメント・セットよりヒットする可能性が高くなります。

関連項目:

CTX_QUERY.HFEEDBACKの使用方法の詳細は、『Oracle Textリファレンス』を参照してください。

6.2.4 問合せの実行計画

実行計画情報では、CONTAINS問合せ式の解析ツリーがグラフィカルに表示されます。実行計画情報は、CTX_QUERY.EXPLAINプロシージャを使用してプログラムで取得できます。

実行計画情報を使用すると、問合せを実行しなくても、問合せの拡張方法や解析方法がわかります。実行計画情報を取得すると、STEM、ワイルド・カード、シソーラス、FUZZY、SOUNDEX、ABOUTなどの特定の問合せの拡張方法がわかります。解析ツリーには、次の情報も表示されます。

実行の順序
ABOUT問合せの正規化
問合せ式の最適化
ストップワード変換
サポート対象言語の複合語トークンの分類

関連項目:

CTX_QUERY.EXPLAINの使用方法の詳細は、『Oracle Textリファレンス』を参照してください。

6.2.5 問合せでのシソーラスの使用

Oracle Textでは、問合せアプリケーションのシソーラスを定義し、問合せをよりインテリジェントに処理できます。

トピックを表現するワードがユーザーにはわからない場合があるため、予想される問合せ語句にシノニムまたは下位語を定義できます。シソーラス演算子を使用すると、シソーラス語句を含むように問合せを拡張できます。

関連項目:

Oracle Textでのシソーラスの使用

6.2.6 ドキュメントのセクション検索

セクション検索を使用すると、テキスト問合せをドキュメント内のセクションに絞り込むことができます。

セクション検索は、HTMLやXMLのドキュメントのように、ドキュメントに内部構造がある場合に実現できます。たとえば、<H1>タグに対してセクションを定義すると、WITHIN演算子を使用してこのセクション内を問い合せることができます。

XMLドキュメントからセクションを自動的に作成するようにシステムを設定できます。

また、属性セクションを定義して、XMLドキュメントの属性テキストを検索できます。

ノート:

セクション検索がサポートされているのは、CONTEXT索引によるワード問合せのみです。

関連項目:

Oracle Textでのドキュメント・セクションの検索

6.2.7 問合せテンプレートの使用

問合せテンプレートは、既存の問合せ言語の代替として使用できます。問合せ文字列をCONTAINSまたはCATSEARCHに渡すのではなく、問合せ文字列をタグ付き要素内に含む、構造化ドキュメントを渡します。この構造化ドキュメントまたは問合せテンプレートでは、次に示すその他の問合せ機能を使用できます。

6.2.7.1 問合せリライト

問合せアプリケーションは、エンド・ユーザー問合せを解析し、異なる演算子の組合せを使用して、1つ以上の方法で問合せ文字列を解釈することがあります。たとえば、ユーザーがkukui nutという問合せを入力すると、アプリケーションでは、再コールを増やすために、{kukui nut}問合せおよび{kukui or nut}問合せが入力されます。

クエリー・リライト機能を使用すると、元の問合せをリライトされたバージョンに拡張する単一の問合せを発行できます。これにより、重複のない結果が戻されます。

問合せテンプレート機能を使用して、リライトの順序を指定します。リライトされた問合せのバージョンは、CONTAINSまたはCATSEARCHの単一のコールを使用して、効率的に実行されます。

次のテンプレートは、クエリー・リライトの順序を定義します。問合せ{kukui nut}は、次のようにリライトされます。

{kukui} {nut}

{kukui} ; {nut}

{kukui} AND {nut}

{kukui} ACCUM {nut}

次に、これらの変換に対する問合せリライト・テンプレートを示します。

select id from docs where CONTAINS (text,
 '<query>
   <textquery lang="ENGLISH" grammar="CONTEXT"> kukui nut
     <progression>
       <seq><rewrite>transform((TOKENS, "{", "}", " "))</rewrite></seq>
       <seq><rewrite>transform((TOKENS, "{", "}", " ; "))</rewrite></seq>
       <seq><rewrite>transform((TOKENS, "{", "}", "AND"))</rewrite></seq>
       <seq><rewrite>transform((TOKENS, "{", "}", "ACCUM"))</rewrite></seq>
     </progression>
   </textquery>
  <score datatype="INTEGER" algorithm="COUNT"/>
</query>')>0;

6.2.7.2 問合せ緩和

問合せ緩和機能を使用すると、アプリケーションでは、最も制限されたバージョンの問合せを最初に実行して、必要なヒット数を得るまで、問合せを徐々に緩和できます。

たとえば、アプリケーションが最初にblack penを検索した後、より多くのヒットを得るため、問合せがblack NEAR penに緩和されます。

次の問合せテンプレートは、問合せ緩和の順序を定義します。問合せblack penが順に入力されます。

{black} {pen}

{black} NEAR {pen}

{black} AND {pen}

{black} ACCUM {pen}

次に、これらの変換に対する問合せ緩和テンプレートを示します。

select id from docs where CONTAINS (text,
 '<query>
   <textquery lang="ENGLISH" grammar="CONTEXT">
     <progression>
       <seq>{black} {pen}</seq>
       <seq>{black} NEAR {pen}</seq>
       <seq>{black} AND {pen}</seq>
       <seq>{black} ACCUM {pen}</seq>
     </progression>
   </textquery>
   <score datatype="INTEGER" algorithm="COUNT"/>
</query>')>0;

アプリケーションが結果を必要とするかぎり、問合せのヒットは、この順序で重複なしで戻されます。

アプリケーションが問合せの上位N個のヒット数を必要とする場合、問合せ緩和が最も効率的です。このヒット数は、DOMAIN_INDEX_SORTまたはPL/SQLカーソルで取得できます。

問合せテンプレートを使用した問合せの緩和の方が、問合せの再実行よりも効率的です。

6.2.7.3 問合せ言語

MULTI_LEXERを使用して、異なる言語の文書を含む列を索引付けする場合、問合せ中に使用する言語レクサーを指定できます。これを実行するには、問合せパラメータでlangパラメータを使用し、そこでドキュメントレベル・レクサーを指定します。

select id from docs where CONTAINS (text,
'<query><textquery lang="french">bon soir</textquery></query>')>0;

関連項目:

ALTER INDEXとドキュメント・サブレクサーを使用するLANGUAGEおよびlangの詳細は、『Oracle Textリファレンス』を参照してください

6.2.7.4 SDATAセクションによる並替え

問合せテンプレートの<order>および<orderkey>要素を使用すると、SDATAセクションの内容に応じて問合せ結果を並べ替えることができます。

次の例では、第1レベルの並替えがSDATA priceセクションに基づいて実行され、昇順でソートされます。第2レベルと第3レベルの並替えはSDATA pub_dateセクションとスコアに基づいて実行され、どちらも降順でソートされます。

select id from docs where CONTAINS (text, '
<query>
   <textquery lang="ENGLISH" grammar="CONTEXT"> Oracle </textquery>
   <score datatype="INTEGER" algorithm="COUNT"/>
   <order>
       <orderkey> SDATA(price) ASC </orderkey>
       <orderkey> SDATA(pub_date) DESC </orderKey>
       <orderkey> Score DESC </orderkey>
   </order>
</query>', 1)>0;

ノート:

索引にSDATAセクションを追加できます。『Oracle Textリファレンス』で、ALTER INDEXのADD SDATA SECTIONパラメータ文字列に関する項を参照してください。
SDATAセクションを追加する前に索引付けされたドキュメントには、この新しいプリファレンスは反映されません。この場合は索引を再構築してください。

関連項目:

問合せテンプレートの<order>および<orderkey>要素の構文は、『Oracle Textリファレンス』を参照してください。

6.2.7.5 代替スコアリングおよびユーザー定義スコアリング

問合せテンプレートを使用して、代替スコアリング・アルゴリズムを指定できます。これらのアルゴリズムは、CONTAINSのスコアリング方法をカスタマイズする場合に役立ちます。また、SDATAをスコアリング式の一部として使用できるようになります。このようにして、事前定義済スコアリング・コンポーネントのみでなくSDATAコンポーネントを使用してスコアリング式を数学的に定義できます。

代替のユーザー定義スコアリングを使用して、次のことを指定できます。

語句のスコアリング式では、次を使用して、問合せのスコアリング方法を定義する演算式を定義します
- 事前定義済スコアリング・アルゴリズム: DISCRETE、OCCURRENCE、RELEVANCEおよびCOMPLETION
- 算術操作: 加算、減算、乗算、除算
- 算術関数: ABS(n)、n ; LOG(n)の絶対値の検索、10を底とするnの対数値の検索
- 数値リテラル
語句レベルでのスコアリング式
スコアの計算時に考慮に入れない語句
OR演算子およびAND演算子の子要素によるスコアをどのようにマージするか
使用

また、数値を格納するSDATAまたはDATETIME値を使用して、ドキュメントの最終スコアに影響を与えることができます。

次の例では、代替スコアリング・アルゴリズムを指定します。

select id from docs where CONTAINS (text,
'<query>        
 <textquery grammar="CONTEXT" lang="english"> mustang  </textquery>     
 <score datatype="float" algorithm="DEFAULT"/>     
</query>')>0

次の問合せテンプレート例には、SDATA値が、最終スコアの一部として含まれています。

select id from docs where CONTAINS (text,
'<query>
<textquery grammar="CONTEXT" lang="english"> mustang </textquery>
<score datatype="float" algorithm="DEFAULT" normalization_expr ="doc_score+SDATA(price)"/>
</query>')>0"

6.2.7.6 代替構文

問合せテンプレートを使用すると、CATSEARCH問合せとともにCONTEXT構文を使用したり、CONTEXT問合せとともにCATSEARCH構文を使用できます。

select id from docs where CONTAINS (text,
'<query> 
  <textquery grammar="CTXCAT">San Diego</textquery>
  <score datatype="integer"/>
</query>')>0;

6.2.8 問合せ分析

Oracle Textを使用すると、問合せのログを作成して、問合せを分析できます。たとえば、大型動物のデータベースを検索するアプリケーションがあり、その問合せを分析したところ、ユーザーがマウスというワードで検索していることがわかったとします。この分析は、失敗した検索を返さないようにアプリケーションをリライトすることが望ましいことを示しています。かわりに、ユーザーがマウスを検索した場合は、小型動物のデータベースにリダイレクトするようにします。

問合せ分析では、次のことがわかります。:

発行された問合せ
成功した問合せ
失敗した問合せ
各問合せの発行回数

これらの要素を様々な方法で組み合せ、たとえばアプリケーションで失敗した問合せの上位50位までを調べることが可能です。

問合せのロギングを開始するには、CTX_OUTPUT.START_QUERY_LOGを使用します。CTX_OUTPUT.END_QUERY_LOGプロシージャが入力されるまで、プログラムで使用しているすべてのCONTEXT索引に対するすべての問合せが問合せログに書き込まれます。問合せのレポートを取得するには、CTX_REPORT.QUERY_LOG_SUMMARYを使用します。

関連項目:

これらの手順の構文および例については、『Oracle Textリファレンス』を参照してください。

6.2.9 その他の問合せ機能

問合せアプリケーションでは、近接検索などのその他の問合せ機能を使用できます。表6-1は、これらの問合せ機能のいくつかを示しています。

表6-1 Oracle Textのその他の問合せ機能

機能	説明	実装
大/小文字を区別する検索	問合せに入力したとおりに、ワードまたは句を正確に検索できます。たとえば、Romanの検索は、Romanを含み、romanを含まないドキュメントを戻します。	索引作成時に`BASIC_LEXER`を使用します。
基本文字変換	ティルデ、アクセント、ウムラウトなどの発音区別符号に関係なく、ワードを問い合せます。たとえば、スペイン語の基本文字索引を使用すると、energíaの問合せでは、energíaおよびenergiaが含まれているドキュメントが一致します。	索引作成時に`BASIC_LEXER`を使用します。
ワード分割処理 (ドイツ語およびオランダ語)	指定した語句が複合語の要素として含まれているワードを検索できます。	索引作成時に`BASIC_LEXER`を使用します。
代替スペル (ドイツ語、オランダ語およびスウェーデン語)	ワードの代替スペルを検索します。	索引作成時に`BASIC_LEXER`を使用します。
近接検索	相互に近接しているワードを検索します。	問合せ入力時に`NEAR`演算子を使用します。
`PHRASE`、`NEAR`および`AND`演算子の機能を含む拡張演算子。	特定の問合せに基づいてドキュメントをクランプに分割します。各クランプはプライマリ機能に基づいて分類され、2次機能に基づいてスコア付けされます。最終的なドキュメント・スコアにはクランプ・スコアが追加され、プライマリ機能の順序によってドキュメント・スコアの初期の順序が決まります。	問合せ入力時に`NEAR2`演算子を使用します。
ステミング	指定した語句と同じ語幹を持つワードを検索します。	問合せ入力時に$演算子を使用します。
ファジー検索	指定した語句に類似するスペルを持つワードを検索します。	問合せ入力時に`FUZZY`演算子を使用します。
問合せの実行計画	問合せの解析情報を生成します。	索引作成後にPL/SQLプロシージャ`CTX_QUERY.EXPLAIN`を使用します。
階層問合せフィードバック	問合せに対する上位語、下位語および関連語の情報を生成します。	索引作成後にPL/SQLプロシージャ`CTX_QUERY.HFEEDBACK`を使用します
索引のブラウズ	索引内のシード・ワードに関するワードをブラウズします。	索引作成後にPL/SQLプロシージャ`CTX_QUERY.BROWSE_WORDS`を使用します
ヒット数のカウント	問合せのヒット数をカウントします。	索引作成後にPL/SQLプロシージャ`CTX_QUERY.COUNT_HITS`を使用します
ストアド・クエリー式	後で別の問合せで再利用するために、問合せ式のテキストを保存します。	索引作成後にPL/SQLプロシージャ`CTX_QUERY.STORE_SQE`を使用します
シソーラスを使用した問合せ	シソーラスを使用して問合せを拡張します。	`SYN`および`BT`などのシソーラス演算子と`ABOUT`演算子を使用します (シソーラスのメンテナンスには`CTX_THES`パッケージを使用します。)