3.4 特殊文字

BASIC_LEXERプリファレンス型を使用する場合は、ハイフンやピリオドなど英数字以外の文字を索引付けでどのように扱うかを、それらの文字を含むトークンに対して指定できます。たとえば、vice-presidentのようなワードを索引付けする場合、ハイフン(-)を組み込むかまたは除外するかを指定できます。

これらの文字は、索引付け時に要求する動作に基づいて、BASIC_LEXERカテゴリに分類されます。索引付け用に設定したレクサーの動作は、問合せ解析用のレクサーの動作と同じです。

次に、設定できる特殊文字をいくつか示します。

  • Printjoin文字: 索引付け時に英数字以外の文字をトークンに組み込む場合は、その文字をprintjoinとして定義します。たとえば、索引にハイフンやアンダースコアを組み込む場合は、その文字をprintjoinとして定義します。この場合、vice-presidentのようなワードは、vice-presidentとして索引付けされます。vicepresidentを問い合せても、vice-presidentは検索されません。

  • Skipjoin文字: 英数字以外の文字を含むトークンを使用して索引付けしない場合は、その文字をskipjoinとして定義します。たとえば、ハイフン(-)をskipjoinとして定義した場合、vice-presidentは、vicepresidentとして索引付けされます。vice-presidentを問い合せると、vice-presidentvicepresidentを含むドキュメントが検索されます。

  • その他の文字: その他の文字は、トークン分割(startjoin、endjoin、whitespace)、句読点識別(punctuation)、数値トークン化(numjoin)、改行後のワード継続(continuation)などの別のトークン化動作を制御する文字として指定できます。これらの文字のカテゴリには、変更可能なデフォルトがあります。

関連項目: