国際化されたデータの使用の概要

Oracle Endeca Serverでは、Endecaデータ・ドメインが世界の様々な言語でデータを処理できるUnicode標準バージョン4.0をサポートします。

いずれかのデータ収集時に(あるいは構成Webサービス操作によって後ほど)、ネイティブ・エンコーディングで提供される国際化されたデータを標準属性が使用するように指定できます。問合せ時に、レコード検索または値検索に使用される言語を指定できます。

この項では、次のように仮定します。

中国語を使用する場合、エンコーディングと文字セット(繁体字と簡体字、Big5、GBKなど)をよく理解しています。
中国語または日本語を使用する場合、これらの言語で単語の区切りに空白を使用しないようにします。
日本語を使用する場合、shift_jisの変形をよく理解し、同じ文字で円記号とバックスラッシュ文字のいずれかを表す方法を把握しています。

Unicode標準と文字のエンコーディングの詳細は、http://unicode.orgを参照してください。

サポートされる言語機能の概要

次に、国際化言語でサポートされる機能の概要を示します。

機能	言語サポート
自動修正スペル	言語に固有の自動スペル修正を、サポートされる言語で使用できます(たとえば、スペル辞書は、サポートされるすべての言語で使用できます)。
ステミングと見出語認定	言語に固有のステミングと見出語認定を使用できます。日本語、中国語、タイ語などのセグメント化された(空白なしの)言語ではステミングを使用できないことに注意してください。
もしかして(DYM)による提案	言語に固有のDYMを、サポートされるすべての言語で使用できます。
スニペット	サポートされるすべての言語で使用できます。
シソーラス	1つの言語にとらわれないシソーラスを、サポートされる言語で問合せを使用する際に利用できます(つまり、言語に固有のシソーラスはサポートされません)。
検索文字	`unknown`言語識別子でのみ使用できます。
ストップ・ワード	`unknown`言語識別子でのみ使用できます。
言語自動検出	収集時または問合せ時の言語の自動検出はサポートされません。ユーザーは、PDRまたは問合せに対して言語を明示的に指定する必要があります。
言語照合	言語に固有の照合(ソート)は、サポートされる言語で使用できません。

発音区別符号フォールディング

発音区別符号フォールディングは、サポートされるすべての言語(unknownを含む)のレコード検索でのデフォルト動作です。この機能は、レコード検索問合せで、ISO-Latin1国際化文字を同等のASCII文字に自動的にマッピングします。基本的に文字のアクセント符号が無視されるため、国際化文字を含む検索問合せが英語化された結果テキストと一致します。たとえば、"café"の英語の問合せはレコードの"café"と一致します。この発音区別符号フォールディングの動作は無効にできないことに注意してください。