ドキュメントの言語

3.3 ドキュメントの言語

Oracle Textでは、ほとんどの言語を索引付けできます。デフォルトでは、索引付けするテキストの言語は、データベース設定で指定した言語であるとみなされます。

ドキュメントの言語によって、次のいずれかのレクサー型を使用します。

AUTO_LEXER: 内容を調べることで、索引付けされている言語を自動的に検出し、その言語に適したオプション(ステミングなど)を適用するため。各ドキュメントに単一言語が含まれ、識別に役立つテキストの段落が少なくとも2つある場合に最適に機能します。
BASIC_LEXER: 英語、フランス語、ドイツ語およびスペイン語のような空白で区切られた言語の索引付けのため。これらの言語の中には、代替スペル、複合語の索引付けおよび基本文字変換を使用できるものがあります。
MULTI_LEXER: 英語、ドイツ語および日本語など、異なる複数言語のドキュメントを含む表の索引付けのため。
CHINESE_VGRAM: 中国語テキストからトークンを抽出するため。
CHINESE_LEXER: 中国語テキストからトークンを抽出するため。このレクサーは、CHINESE_VGRAMレクサーと比較して次の利点があります:
- 小型の索引の生成
- 問合せ応答時間の短縮
- 実ワード・トークンの生成による問合せ精度の向上
- ストップワードのサポート
JAPANESE_VGRAM: 日本語テキストからトークンを抽出するため。
JAPANESE_LEXER: 日本語テキストからトークンを抽出するため。このレクサーは、JAPANESE_VGRAMレクサーと比較して次の利点があります:
- 小型の索引の生成
- 問合せ応答時間の短縮
- 実ワード・トークンの生成による精度の向上
KOREAN_MORPH_LEXER: 韓国語テキストからトークンを抽出するため。
USER_LEXER: 特定の言語を索引付けするための独自のレクサーを作成するため。
WORLD_LEXER: 異なる言語のドキュメントを含む表を索引付けし、またドキュメント内の言語を自動検出するため。

BASIC_LEXERプリファレンスを使用して、Oracle Textではほとんどの言語にレクサー・ソリューションを提供しています。日本語、中国語および韓国語の場合は、ユーザー定義のレクサー・インタフェースを使用して、独自のレクサー・ソリューションを作成できます。

BASIC_LEXER以外の言語機能: ユーザー定義のレクサー・インタフェースでは、索引付けおよび問合せの間にドキュメントを処理するPL/SQLまたはJavaプロシージャを作成できます。ユーザー定義のレクサーを使用して、独自のテーマのレクサー・ソリューションまたは言語処理エンジンを作成することもできます。
複数言語の列: 英語、ドイツ語および日本語で書かれたドキュメントを含む列など、様々な言語のドキュメントを含むテキスト列を索引付けできます。多言語列を索引付けするには、テキスト表に言語列を追加して、MULTI_LEXERプリファレンス型を使用します。また、マルチ言語列の索引付け時に、マルチ言語ストップリストを取り込むこともできます。

関連トピック